Blog

Amazonのレビュー信頼度を測ってみる

2017.05.09Cat:プログラマー 開発

はじめに

ECサイトで購入する際にレビューを見ることがあります。

商品によっては極端にレビュー評価が偏っていて参考にならないものもある。
そう言った「データの偏りを解決してみよう!」という投稿です。

結論を先に言ってしまうとAmazonでのスクレイピングはレキュリティ的に実現出来ませんでした。

信頼性について

例えば以下のような評価が標本としてあるとします。

★5 : 4
★4 : 3
★3 : 2
★2 : 1
★1 : 0

この時の平均は4。まあ、解ります。

偏りのある場合。

★5 : 100
★4 : 5
★3 : 0
★2 : 0
★1 : 1

この時の平均は4.915…。
この★5の信頼性があるかどうかは内容を見ないと解らないです。

RoRでスクレイピングと同時に解決が難しかったのでPythonにて検証。
R言語では以下のようなプログラムで信頼区間を算出出来ました。

以下のような出力で平均と信頼区間、p値などが見えます。

上記のデータだと 2.902121 〜 5.669308 までが信頼出来るデータという内容です。

Rのインストールは

で出来ます。

Pythonでスクレイピング

以前のブログでも紹介した導入フロー

pipはPythonのModule管理ツールです。

Pythonのテストコード

結局Pythonはスクレイピングが容易、統計結果を出すのがやや難、実データ取れず。
Rでの統計結果算出は容易、スクレイピングとの繋ぎ込みが難しい。
Ruby on Railsはどちらも微妙、、、で成果物ゼロという敗退結果が出ました。

現実的にはAmazonのAPIを使っPythonでデータを取得、
BeautifulSoupで整形、統計モジュールで信頼性の検証、、意外とボリュームがあったので後日再検証。

Author Profile

ohba
ランニングと音楽とヲタトーク好きプログラマーです。 数学と英語を勉強中です。 DeepLearning始めました!
» 投稿一覧
  • Launch Cart次世代ECサイト構築システム 初期月額無料
  • LaunchMovie ECに特化した動画制作サービス

Archive

ページTOPへ