はじめに
こんにちは、中村研究室B3の新嶌道大です。
2025年3月17日〜19日京都大学で開催された第75回EC(エンタテインメントコンピューティング)研究会にて、「コミックにおける読者依存性の高い地雷表現のVLMを用いた自動検出の検討」というタイトルで発表してきましたので、報告させていただきます。
研究概要
背景
コミックには、日常生活ではあまり見かけないシーンが登場します。例えば、暴力的な場面、血が流れる描写、死体が映るシーンなど、見る人によってはとても苦手に感じることがあります。こうしたシーンが急に出てくると、不快感を与えてしまいコミックを途中で読むのをやめてしまうかもしれません。実際、SNSなどでは、このような表現を「地雷」と呼ぶことがあり、我々はこれまでコミックにおける読者依存性の高い地雷表現の研究を行ってきました。過去の研究では読者がコミックに含まれる地雷をアノテーションし、その地雷が含まれるページの直前に警告を出す手法が試みられましたが、地雷のアノテーションは直接人がする必要がありとても負荷のかかるものでした。
そこで私の研究目的は「コミックのコマに読者依存性の高い地雷が含まれるかどうかを自動判定する手法の実現」です
対象とする地雷
地雷には虫、動物、集合体、グロテスク、など様々なものがあります。中でも過去のアンケート調査から特に人体の異常にまつわる表現を苦手とする読者が多いことがわかりました。なので今回対象とする地雷は人体の異常にまつわる表現としました。またそのなかで暴力、血、人体損壊、死体の4つのカテゴリーにわけて検出を行いました。
また今回対象としたコミックは、Manga109データセットの中から人体の異常にまつわる表現を含むコミック10作品としました。
手法
人体の異常にまつわる表現は、視覚的要素だけでなく、物語の文脈や登場キャラクタの発言が影響を与えることが考えられます。例えば以下の画像は人が溶ける描写の流れです。コマ単体で見ると人が溶けていることがわかりづらいですが、コマを連続で見ると人が溶けていることがわかり、より読者に不快感を与えます。
よってコマ内の内容をVLM(Vision Language Model)を用いて言語情報としてテキスト化し、そのテキスト情報をLLM(Large Language Model)を用いて判定する手法を行いました。
コマのテキスト情報を基に3つの手法で判定を行いました。
①ベースライン手法②コマ手法③ページ手法
①ベースライン手法
判定を行う対象とするコマのテキストのみをもとに、人体の異常の有無の判定を行う手法です。
②コマ手法
判定を行う対象のコマのテキストに加えて、そのコマの直前の数コマのテキストをコンテキストとして与える手法です。直前のコマ数は1~5コマの計5パターンを行いました。
③ページ手法
対象のコマのテキストに加えて、1つ前のページに含まれるすべてのコマのテキストをコンテキスとして与える手法です。
これらの手法の精度を比較します。
評価指標は正答率、適合率、再現率、F値の4つです。なかでも多くの人体の異常を検出したいため、再現率を重視した評価実験を行います。
判定結果
全データに対する判定結果
縦軸に値、横軸に手法ごとの結果を各指標ごとにまとめたグラフです。
このグラフから再現率はページ手法が最も高くなり、適合率はページ手法が最も低い結果となりました。またベースラインとコマ手法K1(直前の一コマをコンテキストとして与える)を比較するとすべての指標でコマ手法K1の方が値が高い結果となりました。
次にカテゴリごとの判定結果をまとめたグラフです。左側のグラフは手法ごとに各カテゴリの結果をまとめたグラフです。このグラフから暴力はカテゴリの中で最も検出しやすい人体の異常であることがわかります。
右側のグラフはカテゴリ厳密一致時の再現率の比較です。この2つのグラフを比べると大きく検出精度が下がっていることが分かります。このことからカテゴリの判定までまで含めた検出は容易ではないことが考えられした。
考察
①ベースライン手法では正答率は高いが再現率が低い結果となりました。これは単一のコマのみの判定による文脈不足が要因であると考えられます。
②コマ手法では直前の1コマをコンテキストとして与えるK1が最もF値が高くなりました。またコンテキストとして与えるコマ数が増えると再現率は向上するが、判定において不要な情報が混入するため適合率が下がり、結果として検出率は向上しませんでした。
③ページ手法ではページ全体の文脈利用により最も再現率は高くなったが、余分な情報が誤検出を招き適合率が低下しました。
今後の展望
血や死体などの単語がコマに含まれる場合、人体の異常と誤判定されるケースが発生しました。このことからLLMのプロンプト設計で、コマ描写の説明と文字情報を明確に区別し誤判定を改善していきます
また、今回の手法では判定するコマの前のコマのみをコンテキストとして与えましたが、前後表方のコマを活用することで、検出精度のさらなる向上が期待できます。
さらに、人体の異常に限らず他の地雷表現への応用可能性も考えられます。
発表スライド
論文情報
学会参加の感想
人生初の学会発表でした。発表は意外と緊張せずに落ち着いて発表を終えることができてよかったです。
もらった質疑
- 再現率を上げることに注力したと思うのですが、これができるとどう使うのですか?本を読ませないのか、ページをすり替えるとか?
- 今後の展望に文脈情報の拡大とあるが、前後の文脈に依存するならばそれはそういうコミックなのでは、このような展望を設定した理由とかはありますか?
- 画像生成系のVLMなどの検出精度の比較はどうですか?
このように多くの人に質問、コメントをもらうことができました。また研究の背景の部分を中心とした質疑が多く、研究における背景の重要性をとても痛感しました。
京都旅行はとても楽しかったです。なかでも金閣寺と銀閣寺はとても歴史を感じる場所でした。
今後もいろいろな場所に行って歩きたいです。目指すは47都道府県制覇!
最後にはなりますが、度々発表練習や実験に付き合ってくださった研究室の皆様、何度も相談や助言をくださった中村先生に心より感謝申し上げます。
ピンバック: 2024年度 修了生:櫻井 翼 [学士 #48、修士 #41] – 中村聡史研究室