ICEC2019で「Music Video Clip Impression Emphasis Method by Font Fusion Synchronized with Music」というタイトルで発表してきました(野中滉介)

   

はじめに

こんにちは,中村研究室B4の野中滉介です.

早いもので2019年も終わりに近づいてきましたね.僕は今年の大晦日も初日の出を見に行きます.

さて,今回は2019年11月11日~11月14日にペルーのアレキパで行われたifipの国際会議International Conference on Entertainment Computing 2019(ICEC-JCSG 2019)で登壇発表を行なってきましたので,その報告をさせていただきます.

今回発表した内容は,学部3年次にEC50で発表した研究内容を発展させ,英語化したものです.

 

研究内容

音楽には歌詞があることがあります.

ミュージックビデオなどでは,歌詞は歌声として耳にするのみならず,文字として視覚的に捉えることができます.カラオケでは文字が歌詞として提示されるのが当然ですが,特に歌詞を中心に捉えたミュージックビデオとしてリリックビデオが増えてきており,歌詞を視覚的に表示することに特化したLyric Speakerなどのスピーカーも販売されています.また,iOS13からミュージックアプリ内で楽曲と同期して歌詞が表示されるようになるなど,ますます注目度が増しています.

このように我々が歌詞を目にする機会は増えてきていますが,音楽のジャンルや雰囲気に関わらず,そのフォントは1曲を通して画一的なデザインで提示がされることがほとんどです.これはユーザに退屈な印象を与えてしまうなどの問題が考えられます.

ここで漫画などに着目をしてみると,作者はそのシーンの雰囲気に適したフォントを選定し使用することで,その印象をより伝えやすくしています.本研究では,これと同様に音楽動画に適したフォントを重畳することでその印象を増幅することを目的としています.

我々は斉藤らの手法を応用し,音楽動画の印象を反映したフォントを生成し,音楽動画に適用した際の印象を評価する実験を行いました(なお,今回は音楽動画の印象は自動推定するのではなく,事前にデータセットとして構築しました).

斉藤らの手法

 

その結果,以下のことが明らかになりました.

  1. C3(切ない), C5(滑稽), C6(可愛い)は印象強調が可能
  2. C1(堂々とした), C2(元気が出る), C4(激しい)(感情を揺れ動く様を表すようなもの)は,他の印象を混ざってしまって印象強調が難しい
  3. 融合フォントはマッチ度が高いときは印象強調ができるが,マッチ度が低いときは逆に印象を抑制してしまう

今後は,

  • 融合に使用するフォント数を増やす
  • フォントデザイン以外に色やアニメーションなども利用
  • 歌詞の内容を考慮して印象データセットを作成する

などを検証し,さらに研究を進めていく予定です.

 

スライドと論文

発表スライド及び原稿は以下においています.もしご興味のある方は是非どうぞ!

 

[論文の情報]

Kosuke Nonaka, Junki Saito, Satoshi Nakamura. Music Video Clip Impression Emphasis Method by Font Fusion Synchronized with Music, International Conference on Entertainment Computing & Joint Conference on Serious Games (ICEC-JCSG 2019), Vol.LNCS 11863, pp.146-157, 2019.

 

感想

初めての国際学会だったのでとても緊張していましたが,ペルーまでの移動時間が乗り換えも込みでおよそ30時間と非常に辛かったため,到着時にはそれどころではありませんでした.

そもそも普段海外旅行にあまり行かないのですが,まさか南米に行くことになるとは思ってもいませんでした.旅行で行くには敷居の高い場所かなと思っていましたが,(めちゃくちゃ遠いことを除けば)気候もよく,食べ物も美味しいので旅行先を探している方はぜひ検討してみてください.

アレキパ の中心地:アルマス広場

 

アレキパ の街のどこからでも見えるミスティ山

 

 - news, research , , , , , , , ,