第75回EC研究会にて「一視点固定型ライブ映像における映像・音響表現自動付与による音楽体験拡張」というタイトルで発表してきました（小川剣二郎）

はじめに

こんにちは、中村研究室M1の小川剣二郎です。

2025年3月17日〜19日京都大学で開催された第75回EC（エンタテインメントコンピューティング）研究会にて、「一視点固定型ライブ映像における映像・音響表現自動付与による音楽体験拡張」というタイトルで発表してきましたので、報告させていただきます。

研究概要

背景

軽音楽団体では定期的なライブと、それに向けた練習が主な活動内容です。ライブには対面ライブとオンライン配信ライブがあり、後者は活動内容を広くアピール（入会者の招集、団体の活性化）する場合に開催されることが多いです。

オンライン配信ライブは主にSNSを用いて行うのですが、多くの視聴者を留まらせておくことは難しいです。離脱の要因としては、一視点から撮影しおり映像に変化が無いこと、スマートフォンでの視聴が多く画角の小ささから臨場感が薄れてしまうことが考えられます。

これまでの研究において、ライブ映像の特徴的なシーンを自動で検出し映像表現を付与する手法を提案し、視聴維持率、印象が向上することを明らかにしました。ここでさらなる臨場感向上の可能性として、音響表現の付与が考えられます。視覚と聴覚の情報が一致していることが認知、感性的に良い影響を与えるということも報告されており、映像表現と同じ対象を音響表現でフォーカスを当てることで臨場感、興味度に着目した音楽体験の向上を目指せると考えています。

目的

そこで本研究の目的は、映像・音響表現の付与、さらにそれらを組み合わせることによるライブ映像視聴時の音楽体験への影響を調査することです。

提案手法

映像・音響表現自動付与手法について説明します。処理の流れは図１のようになっています。

図１

映像表現には、ズーム、ラディアルブラー、画面分割を採用しました（図２）。ズームは基本的な画面遷移、ラディアルブラーは特定の箇所に視線を集中させること、画面分割はそれぞれの演者に視線を向ける役割を持っています。また画面分割では、より視線を誘導させるため、動作量が多い演者ごとに１秒ずつ時間差表示をしています。

図２

また音響表現では、ライブ音源を楽器ごとに音源分離し、元のライブ音源に重ねた後、全体の音量を揃えることで特定の楽器を際立たせています。ここで、頻繁に音響が変わることはユーザに違和感を与えてしまう可能性があります。そのため、比較的付与頻度の少ないラディアルブラー、画面分割を付与するタイミングに限定しました。音響表現付与のイメージは図３のようになっています。

図３

実験・結果

実験では、複数のライブ映像に対してアンケートに答えてもらいます。参加者は、大学生・大学院生を含む２４人です。

まず実験前タスクとして、一視点から撮影されたライブ映像への満足度を事前に測定しておきます。ここではメディアの満足度を測る指標として既に報告されているABMSSを参考にアンケートを作成し、３つのライブ映像に対して回答してもらいました。

次に、１２本の動画に対して、没入感、社会的存在感、演者への興味度を測るアンケートに答えてもらいました。ここでは既に報告されている指標として順に、AIMS、TPI、Fanship Scaleを参考に作成しました。表現の適用条件としては、以下の４つを用意しました。

None：映像・音響表現無し
Visual：映像表現のみ付与
Audio：音響表現のみ付与
Both：映像・音響表現付与

指標ごとの結果は図４のようになり、社会的存在感では音響表現に関係なく映像表現の有無で、演者への興味度ではNone条件とVisual条件間で有意差が見られました。

図４

また、一視点固定型ライブ映像への満足度が参加者全体の中央値よりも高い人、低い人で分けて分析をした結果（図５、図６）、没入感、社会的存在感において、満足度が高い人はNone – Visual 間の増加は小さいがVisual – Both間も増加をしていること、また満足度が低い人はNone – Visual 間の増加が大きいがVisual – Both間は低下していることが明らかになりました。

図５：一視点固定型ライブ映像への満足度が高い人

図６：一視点固定型ライブ映像への満足度が低い人

これらの結果から、映像表現の付与が視聴者の音楽体験を向上させること、また音響表現のみによる効果は薄いことが考えられます。さらに、参加者の好みにマッチした映像と表現の組み合わせがあることが考えられたため、各参加者における最も評価が高かった動画の適用条件を評価軸ごとにカウントし比較したところ図７のようになり、動画の種類によっては映像表現と音響表現を組み合わせることで音楽体験を向上させる可能性があることがわかりました。

図７

しかし、今回は事前に用意した動画を用いましたが、実際にはリアルタイムでの実現を目指しており、そこに向けた技術的課題はまだまだ残っています。そのためリアルタイム処理のアルゴリズム開発は進めていこうと思っています。特に音響については、リハーサルの時間で正解データを取り、それを元に音源分離、もしくはイコライジング処理をすることは方向としてあり得ると考えています。

また、視聴者のインタラクションに応じて映像・音響表現を適用することも一案としてあり得ると考えています。

発表スライド

論文情報

小川剣二郎, 中村聡史. 一視点固定型ライブ映像における映像・音響表現自動付与による音楽体験拡張, 情報処理学会研究報告エンタテインメントコンピューティング（EC）, Vol.2025-EC-75, No.45, pp.1-8, 2025.

感想

何度も訪れている京都での開催で、空いてる時間どこに遊び行こうかなーと思っていましたが、今回はラーメン旅だったと思っています。1日目には中華そば、まぜそばを、3日目には二郎系を食べました。本当に幸せです。こういうのもいいなと思いました。

学会では、個人的に落ち着いて発表・質疑対応ができ、学部の頃から成長したな〜と感じました。これからの研究の方向性をしっかりと固めて、これからの研究、修論に向けて進んでいこうと思います。

最後にはなりますが、度々発表練習や実験に付き合ってくださった研究室の皆様、何度も相談や助言をくださった中村先生に心より感謝申し上げます。