テラデータとか

どうにもあの手のDWH用分散システムは困ったもの。
テラデータを見たのは90年台の頃なのだが、基本は今でも同じなようで、要は遅いDISKベースのシステムをどうするか、というところから始まっている。あの頃はまだCPU数も少なめだったので、ひたすらDISKネックをなんとかするための並列化だった。なのでCPU数は重要ではなかったしが、用途にハマれば、たしかに高速だった。
しかし現在、この手の並列システムはどうなのか。例のサーバ向けSSD直結規格に加えての3DNANDとか、もう2.5DISKの15Krpmで苦労する世界から、容量面でも数TBが余裕になるはずで、しかもIFも特にレイテンシ面の改善が凄い。
こうなると、遅いDISKでなんとかするためのアーキテクチャは、SSD時代でも一応有効ではあるが、元々のデメリットを考えると並列化は効果が少ないのではないか。今後はSSDで集約化して、CPU数を元に並列化するシステムの方が使いやすいし性能も劣らないだろう。特にデータをまたがる結合が楽になるのが設計面ではありがたい、、