Blog

ビッグデータ紹介

2017.02.07Cat:AWS Hadoop MySQL 開発

前略

今の時代で、「データの大爆発」て呼ばされている。

ギガバイトも満足されていない。Google毎日検索するデータ量は10PB(2015のデータ)。

もし全部MySQLに使えばサーバの検索効率はとっても低い

MySQLは同時にデータを処理する量はギガ単位 (1GB)

 = 

この量には一日終わらない。

Hadoopに使え

HadoopはNON-SQLで呼ばれる。

SQLでStructured Query Language(構造的な言語)で、NON-SQLは「構造無し」の意味で

全部プログラム言語に運用しでいます。

原理は:

例(文字数カウント)

データ

Hadoop Node Aさん: (key =A ,1)(key =A ,1)(key =B ,1)(key =B ,1)(key =D ,1)(key =D ,1)(key =C,1)

Hadoop Node Bさん: (key =B ,1)(key =B ,1)(key =B ,1)(key =C ,1)(key =C ,1)(key =A,1)(key =A,1)

Hadoop Node Cさん: (key =B ,1)(key =D ,1)(key =H ,1)(key =H ,1)(key =A,1)(key =A,1)

最後の親に 子供達の記録を整理します

単語  単語数
A 6
B 6
C 3
D 3
H 2

このプロセスは「マップ」と「レデゥース」を呼ばれる。

でも、色々な欠点がある

  1. 全部プログラムで処理します。
    1. 「SELETE」みたいの命令全然ない(pigで命令を作る)
    2. 今まで、SQLに上手のプログラマーに好きにならない
  2. データ量少ない場合、遅い
  3. 面倒です(データベースに呼ばない)

RedShiftの紹介

Resdshiftはアマゾン開発されたたくさんSQL使えるなビッグデータ

原理は

Hadoopに似ている

データのストア方法はテーブルが

テーブル中に探すのは列単位です。(MySQLは行単位)

単語 A B C D H

テーブル定義: 「単語」と「単語数」はテーブル「文字数カウント」中に

単語数 6 6 3 3 2

Hadoop VS RedShift

Hadoop RedShift
データ処理量 PB TB
スービド(TBデータ)
スービド(PBデータ)
 プログラム言語 必要 いらない
 SQL 使えない 使える
 他 無料 有料
ローカルMySQL連携できる クラウド端末

処理するデータAWSにアップロード

結果データAWSからアップロード

 

Author Profile

Kyo Taku
» 投稿一覧
  • Launch Cart次世代ECサイト構築システム 初期月額無料
  • LaunchMovie ECに特化した動画制作サービス

Archive

ページTOPへ