AI・データサイエンス演習というゼミ(通称iDSゼミ)を担当している.学生たちはいろいろなテーマに取り組んでいてなかなか楽しいゼミなのだが,今年はあるチームが楽天トラベルのレビューデータを対象に,いろいろと分析を進めている.
今回ちょっと面白い着眼点かなと思ったのは,どのレビュー項目が総合判定に寄与しているのか?という問題設定であった.
楽天トラベルのレビューは,立地,部屋,食事,風呂,サービス,設備という6項目と,総合,合わせて7項目の評価項目がある.その評価のうち,総合評価に最も影響の与えている評価結果は何?という問題である.
単純に考えると,それぞれの項目と総合評価の相関係数を求めればよさそうではある.ただし,この評価データは1〜5の離散値なので,散布図を書いてもよくわからない.実際,52万件からある2019年のデータを用いると,5段階×5段階の組み合わせは全ての組み合わせがあり,散布図は単純な格子点となって全く面白くない.
そこで,重回帰分析の事例として考えてみたら?とアドバイスした.すなわち,6項目を説明変数,総合を目的変数としたとき,影響度の大きな項目は何になるのか?という分析方法である.
StatsModelsを用いて計算した結果は次に示す図のようになった.t値の欄をみると,サービス,部屋,食事の順に影響度が高い.一方,風呂や設備はあまり影響していない.皆さんはこの結果をみてどう考えますか?
0 件のコメント:
コメントを投稿