毎日のW杯が楽しみな中村研の白鳥裕士です.4年ぶりにW杯を楽しめる年がやってきましたね.
そのW杯を楽しむのにうってつけの私の研究がこの度アップデートされました.今回は,その研究成果について,第12回Webインテリジェンスとインタラクション研究会で「ネタバレ確信度を考慮した試合実況データセット構築と分析手法の検討」というタイトルで発表して来たことについての報告になります.
期間は2018年06月17日から18日にかけてで,場所は広島県はうさぎ島と呼ばれる大久野島にて行われた学会になります.
発表の様子
研究&発表内容
皆さんはW杯を楽しめているでしょうか?もし,今LINEなどで1通のメッセージが来て,あなたが見たかった試合についての話題についてグループメンバーが楽しそうに話していたら,あなたはネタバレを感じてしまうでしょう.そうした悲劇を防ぐために私の研究があります.
さて,今回発表した内容は,SNS(現在は主にTwitterを対象としています)上のネタバレ問題を防ごうと行ってきたこれまでの研究およびDEIM2016で発表した内容で,構築したデータセットの内容が複雑になってしまいネタバレ判定精度が実用的とは言えないという問題があったため,データセットを改めて構築してネタバレツイートの判定精度を再実験したという内容になっています.
具体的には,ネタバレツイートを,そのツイートを見たときに「試合結果が高い確信度で予測できてしまうツイート」と定義し,そのツイートごとに確信度をデータセット構築者に付与してもらいました(9試合について5人ずつ,合計45000件).その結果,試合が進むごとにネタバレに対する確信度があがっていくことがわかりました.
また,その高い確信度で予測できてしまうツイートとはどのようなツイートなのかを分析し,それを判定して除去するにはどのようなアルゴリズムが適しているのかといったことを実験・分析した結果,
- SVMの精度が以前のデータセットに比べて格段に上がったこと(以前のデータセットでは問題があったこと)
- 試合状況別にSVMのモデルを切り替えると精度が向上すること
- 確信度が70以上をネタバレ,30以下をネタバレでないとすると精度が高いこと(30~70については曖昧であること)
が明らかになりました.
詳しくは以下の発表内容をご覧ください.
論文情報は以下のようになります.
白鳥裕士,牧良樹,阿部和樹,中村聡史: ネタバレ確信度を考慮した試合実況データセット構築と分析手法の検討,ARG WI2 No.12(2018).
感想
会場があるうさぎ島は,本当に島中にうさぎがいて,学会でしたが緩やかな雰囲気で過ごせたかなと思います.
発表自体も落ち着いてでき,議論したかったポイントや新しい視点からのコメントなどについてしっかりお話できたので良かったかなと思います.
次回の目標は,全く興味なさそうな人でも引き込めるような発表をすること!です.
背伸びうさぎ