はじめに
こんにちは。中村研究室M2の櫻井翼です。
2024年9月11日〜13日にセビリアで開催されたKES2024にて「Manga Scene Estimation by Quiz and Answer」というタイトルで発表してきましたので、報告させていただきます。
今回発表した内容は、HCG2023で発表したものを整理し、英語化したものですので詳細はそちらをご覧ください。
発表の様子
研究概要
皆さんは漫画を見直しているときに、振り返りたい場面がなかなか見つからないことはありませんか?
日本の連載漫画は週刊や月刊で更新され、数百話・数十巻にわたって続くことも多く、特定のエピソードを振り返りたい時に該当シーンを探し出すのはなかなか難しいです。
そこで本研究では、漫画の物語に関する文章からその内容に該当するシーンを推定する手法を提案しました。具体的には、コミクエというWebサービスで作成された漫画に対するクイズ文章を入力とし、漫画に含まれるセリフ情報・コマの画像情報・キャラクタ情報を利用して、クイズに該当するシーン(ページ)を出力する以下の2つの手法の提案を行いました。
- CS手法:クイズ文章と漫画の各ページにおけるコサイン類似度を用いて推定する手法
- GPT手法:テキストに変換された漫画データを入力として、CS手法によって抽出されたコサイン類似度上位5ページの中から、クイズに最も関連するページと選択理由をGPTが出力する手法
コサイン類似度はクイズ文章と各ページの関連度合いを示す値で、この値が高ければクイズが作成されたページである可能性が高いことになります。なお推定にあたり、画像データであるコマの画像情報は、画像キャプション生成を用いてテキスト情報に変換して処理を行いました。そのため、2手法とも全てテキスト情報をもとに推定を行なっております。
CS手法・GPT手法のイメージ
結果として、GPT手法の精度が最も良く(66.7%)、CS手法と比べて約10%高い値でした。また、推定に用いる漫画内要素の組み合わせごとでの精度を比較したところ、全ての要素を用いた場合が最も高く、他の要素を除く場合や要素の組み合わせ次第で精度が低下しました。そのため、セリフ情報・コマ画像情報・キャラクタ情報といった要素はそれぞれ重要であり、要素の組み合わせ方も精度に影響することが考えられます。
推定精度の結果
また、推定できたクイズと推定できなかったクイズの比較を行った所、セリフのない見開きページが答えとなるクイズや、物語の序盤で触れられた内容が終盤で明らかになる伏線回収的なクイズの推定は難しい傾向がみられました。具体例は論文内や以下スライドで紹介しています。
今後としては、クイズ形式以外の曖昧な文章や、検索で使用されるようなクエリタイプのキーワードからのシーン推定に取り組んでいく予定です。そのうえで、漫画の振り返り支援に貢献していきたいと考えています。
詳細については論文や以下のスライドをご参照ください。
発表スライド
論文情報
最後に
自分が国際学会で発表するのは2回目でした。1回目の発表はコロナ禍(明け)の時期だったこともあり、それと比べて今回のKES2024では現地での聴講者が多く緊張しました。その分、現地で多くのフィードバックをいただくことができ、今後の研究のモチベーションもあがりました。
また開催場所がスペインだったので、パエリア、チュロス、バスクチーズケーキ、などなど様々な美味しいものが食べられて幸せでした。また、完成前のサグラダ・ファミリア、改修中のカンプ・ノウに行くことができ、今だけ限定の貴重な経験ができて良かったなと思います。
パエリア
チュロス
サグラダ・ファミリア
FCバルセロナ博物館
最後になりますが、サポートをしてくださった中村先生、発表練習に何度も付き合っていただいた研究室の方々に心より感謝いたします。
以上。