ビッグデータ紹介

今の時代で、「データの大爆発」て呼ばされている。

ギガバイトも満足されていない。Google毎日検索するデータ量は10PB(2015のデータ)。

もし全部MySQLに使えばサーバの検索効率はとっても低い

この量には一日終わらない。

Hadoopに使え

HadoopはNON-SQLで呼ばれる。

SQLでStructured Query Language（構造的な言語）で、NON-SQLは「構造無し」の意味で

全部プログラム言語に運用しでいます。

原理は：

例(文字数カウント)

データ


AABBDDC
BBBCCAA
BDHHAA

AABBDDC

BBBCCAA

BDHHAA

Hadoop Node Aさん: (key =A ,1)(key =A ,1)(key =B ,1)(key =B ,1)(key =D ,1)(key =D ,1)(key =C,1)

Hadoop Node Bさん: (key =B ,1)(key =B ,1)(key =B ,1)(key =C ,1)(key =C ,1)(key =A,1)(key =A,1)

Hadoop Node Cさん: (key =B ,1)(key =D ,1)(key =H ,1)(key =H ,1)(key =A,1)(key =A,1)

最後の親に子供達の記録を整理します

このプロセスは「マップ」と「レデゥース」を呼ばれる。

でも、色々な欠点がある

Resdshiftはアマゾン開発されたたくさんSQL使えるなビッグデータ

原理は

Hadoopに似ている

データのストア方法はテーブルが

テーブル中に探すのは列単位です。（MySQLは行単位）

単語

テーブル定義: 「単語」と「単語数」はテーブル「文字数カウント」中に

単語数

	Hadoop	RedShift
データ処理量	PB	TB
スービド(TBデータ)		速
スービド(PBデータ)	速
プログラム言語	必要	いらない
SQL	使えない	使える
他	無料	有料
	ローカルMySQL連携できる	クラウド端末処理するデータAWSにアップロード結果データAWSからアップロード