中村聡史研究室

明治大学 総合数理学部 先端メディアサイエンス学科: Human-Information Interaction / Lifelog / BADUI

第209回CVIM研究会で「主観特徴と物理特徴の融合による音楽動画印象推定手法の検討」というタイトルで発表してきました (上西隆平)

   

はじめに

はじめまして、中村研究室B3の上西隆平です。

私は2017/11/8日と9日に、北海道大学フード&メディカルイノベーション国際拠点で開催された「第168回CG・第17回DCC・第209回CVIM合同研究発表会」に参加しました。

私の他にも研究室の先輩である、土屋、今井、前島、阿部らも同行してくださいました。全員の参加報告記事はこちらになります。

下の画像は北海道大学フード&メディカルイノベーション国際拠点の写真になります。このような建物が北海道大学には数多くあり、北海道の雄大さを感じました。

では早速、今回「主観特徴と物理特徴の融合による音楽動画印象推定手法の検討」というタイトルで研究発表をしたので、その報告をさせていただきます。

研究概要

皆様はYouTubeやニコニコ動画などの動画共有サービスを利用して、ボーカロイドのような音楽動画を見ることはありますでしょうか?

このような音楽動画は年々増加していて、自分の好きな動画を見つけ出すことは年々難しくなっていきます。なぜなら現在主流になっている検索方法が「曲名」や「歌手」などの事前情報を用いた検索になっており、事前情報を持っていない動画を検索することが難しく、どんどん動画が埋もれてしまうからです。

そこで我々は音楽動画を見た際の「かわいい!」「〇〇と似てる!」などのような印象を音楽動画の検索に用いることで、先程の問題を改善できるのではないかと考えました。

しかし、印象を用いた検索を実現するためには、動画そのものに印象の情報が付与されている必要があるという問題があります。その問題を解決するために、我々は過去に音楽動画の印象を機械的に推定する研究を行ってきました。

過去の先輩方の研究では音楽動画の「色」を用いて音楽動画の「映像」に対する印象推定を行ったり、「コメント」を用いて「映像」「音楽」「音楽動画」それぞれの印象を推定するということを行ってきましたが、単純な手法を使っていたためか精度としては十分ではありませんでした。

今回の研究は、こうした「色」や「コメント」などの特徴をもっと上手に使うことで、音楽動画の「映像」と「音楽」などに対する印象推定の精度を向上させることができるのではないか?と考えたことを契機としてスタートしました。そのため研究の目的は、どういった色を使うのがそれぞれの印象推定において重要なのか、そしてコメントの中で関連しないものをできるだけ事前に除去することでどこまで精度を上げることができるかというものになります。

さて、本研究について手短に説明させていただきます。

まず「色」を用いた印象推定の精度向上についてですが、これまでは元気が出る、堂々とした、かっこいい、かわいいなどの8つの印象軸を設定し印象推定を行ってきました。

その際利用していた「色」というのは、映像の色をR・G・Bをそれぞれ3段階に減色し、(映像は27色で表現されることになる)そこからカラーヒストグラムを作成することで特徴としてきました。

しかし、我々は27色すべてを利用するのではなく、例えばかわいいという印象であれば、映像内に出てくるピンクと黒のわずか2色のピクセル数を数えるだけで、その映像がかわいいか、かわいくないかを判断できるのではないかと考え、印象ごとに推定するのに最適な色の組み合わせを模索しました。

その結果精度が大幅に向上しました。しかしそれだけではなく、「かわいい」という印象軸ではピンク色が推定に用いられていたり、「かっこいい」という印象軸では赤色が用いられている場合の精度が一番高いといった、それぞれ印象軸と主観的に一致しているような色が、印象推定に有効だということがわかりました。このように映像内の色が人間に与える影響が大きいことを再確認できました。

次に「コメント」についてですが、これまでの研究では動画についているコメントをすべて用いて印象推定を行ってきました。

例えば下のようなコメント群があったとします。これらすべてのコメントを用いて音楽動画の「映像」と「音楽」に対する印象推定を行っていました。しかし、コメントを見て分かります通り、赤色のコメントは映像に対するコメントですし、水色のコメントは音楽に対するコメントです。このような入り混じったコメントを用いて「映像」と「音楽」それぞれの印象推定に用いるのは問題だと考えました。

そこで我々は「映像」の印象推定を行う際には「音楽」に対するコメントを抜いて利用するといったように、ノイズを除去することで推定の精度を向上させられるのではないかと考えました。
その結果「映像」に対する印象推定の場合は大幅に推定精度が向上し、「音楽」に対する場合はわずかに精度を向上させることができました。

詳しい手法や結果などは下のスライドをご覧いただければと思います。

発表スライド

上西隆平,阿部和樹,大野直紀,土屋駿貴 ,中村聡史.主観特徴と物理特徴の融合による音楽動画印象推定手法の検討.研究報告コンピュータビジョンとイメージメディア(CVIM),2017-CVIM-209(2017-11-01),no.40,p.1-7.

感想

今回初めて論文を書き学会に参加し研究発表を行いましたが、同行してくださった先輩方のフォローもあって、無事発表することができました。

質疑応答やポスター発表の際に様々なアドバイスを下さった皆様、とても充実した時間になりました。ありがとうございます!

最後になりますが、論文を訂正してくださったり発表練習に何度も付き合って下さった、中村先生や多くの先輩方ありがとうございます !

 - news, research , , , , , ,