STERFIELD

2017/02/07

ビッグデータ紹介

ビッグデータ紹介

前略

今の時代で、「データの大爆発」て呼ばされている。

ギガバイトも満足されていない。Google毎日検索するデータ量は10PB(2015のデータ)。

もし全部MySQLに使えばサーバの検索効率はとっても低い

MySQLは同時にデータを処理する量はギガ単位 (1GB)

 = 

この量には一日終わらない。

Hadoopに使え

HadoopはNON-SQLで呼ばれる。

SQLでStructured Query Language(構造的な言語)で、NON-SQLは「構造無し」の意味で

全部プログラム言語に運用しでいます。

原理は:

例(文字数カウント)

データ

Hadoop Node Aさん: (key =A ,1)(key =A ,1)(key =B ,1)(key =B ,1)(key =D ,1)(key =D ,1)(key =C,1)

Hadoop Node Bさん: (key =B ,1)(key =B ,1)(key =B ,1)(key =C ,1)(key =C ,1)(key =A,1)(key =A,1)

Hadoop Node Cさん: (key =B ,1)(key =D ,1)(key =H ,1)(key =H ,1)(key =A,1)(key =A,1)

最後の親に 子供達の記録を整理します

単語 単語数
A6
B6
C3
D3
H2

このプロセスは「マップ」と「レデゥース」を呼ばれる。

でも、色々な欠点がある

  1. 全部プログラムで処理します。
    1. 「SELETE」みたいの命令全然ない(pigで命令を作る)
    2. 今まで、SQLに上手のプログラマーに好きにならない
  2. データ量少ない場合、遅い
  3. 面倒です(データベースに呼ばない)

RedShiftの紹介

Resdshiftはアマゾン開発されたたくさんSQL使えるなビッグデータ

原理は

Hadoopに似ている

データのストア方法はテーブルが

テーブル中に探すのは列単位です。(MySQLは行単位)

単語ABCDH

テーブル定義: 「単語」と「単語数」はテーブル「文字数カウント」中に

単語数66332

Hadoop VS RedShift

HadoopRedShift
データ処理量PBTB
スービド(TBデータ)
スービド(PBデータ)
 プログラム言語必要いらない
 SQL使えない使える
 他無料有料
ローカルMySQL連携できるクラウド端末

処理するデータAWSにアップロード

結果データAWSからアップロード

 

Author Profile

著者近影

スターフィールド編集部

SHARE

合わせて読みたい