2021年9月7日火曜日

TWtrendsの閾値はどこに設定すべきか

TWtrendsでは毎日のトレンドで類似のものを集めてクラスタ化し,その日に大きな話題になったトピックは何かを可視化するトピックマップを提示する試みに挑戦しています.クラスタは,それぞれの話題について,単語空間上でのコサイン類似度を計算し,その値が一定の閾値以上のものをまとめるという処理を加えています.

これまで,閾値を0.75にして運用してきていたのですが,Twitterのトレンド数も以前に比べると増えているようで,アルゴリズムも若干変わってきているようだということもあり,見直してみました.いえ,まあ,少し下げてみようかと思ったのは,昨日の夜のキングオブコント決勝進出発表の話題がクラスタになっていないのが少し不自然だな?と思ったからなんですけどね.

というわけで,閾値を0.5に下げて再計算してみました.この図は,再作成した9月4日のトピックマップです.0.75のときはどうだったかというとこちらの記事をご参照ください.上記の図に比べると,ずいぶんと寂しい図になっています.

この日は菅義偉総理大臣が降板するという大きなニュースがありました.上記の図ではそれが中央の大きなクラスタとして現れていますが,閾値を0.75にしたものでは,それが分断されていると論じられています.

閾値を下げることの課題は,異なる話題が1つのクラスタに併合されてしまうことがあるという問題です.上記の大きなクラスタでも,左上に飛び出ているところはデジタル庁の話題です.総裁選と全く関係がないわけではないので,これでもよいかとも考えられますが,これは分けてもよい話題でしょう.

ともあれ,閾値を下げたほうがトピックマップとしては華々しくて面白いものになるので,しばらくこの値で運用してみることにします.

0 件のコメント:

コメントを投稿