はじめに
こんにちは!中村研究室M1の三山貴也です!
2025年9月3日~4日に北海道科学大学で開催された第214回HCI研究会にて発表を行いましたので、ご報告させていただきます。
今回は「クラウドソーシングを活用したGUI実験における参加者スクリーニング手法の検証」というタイトルで発表してきました。
研究概要
この研究は、第211回HCI研究会で発表した研究の続きになりますので、よろしければそちらもあわせてご覧ください。
背景・目的
クラウドソーシングについてご存じでしょうか。クラウドソーシングとは、インターネットを通じて不特定多数にタスクを依頼する仕組みのことで、アンケート調査などのデータ収集に活用されています。これにより、従来対面で行われていた調査がWeb上で完結し、短期間で大人数からデータを収集できるようになりました。一方で、不特定多数が匿名でタスクに取り組むため、不適切な回答(本来は回答できる設問を「特になし」で済ませるなど)がみられるという課題もあります。
クラウドソーシングを活用して研究目的の実験を行うことも増えています。ここでは、アンケート調査のように文章での回答だけではなく、マウス操作やタッチ操作をメインとする実験(GUI実験)も一般的になっています。そのため、そこで発生する不適切な操作(雑にクリックする、無意味に連打するなど)に対処することも課題となります。
こうした課題を踏まえ、この研究ではクラウドソーシングを活用したGUI実験を対象に、不適切な操作をしない適切なユーザを募集して、高品質なデータを収集することを目的にしています。
アプローチ・実験
この研究では、適切なユーザを募集するために、実験の主タスクの前に事前タスクを設け、その結果をもとにユーザをスクリーニングするアプローチを採用しました。ここでは、事前タスクで多くのユーザに実験に参加してもらい、その結果をもとに抽出された適切なユーザのみが主タスクに参加することで、高品質なデータを収集できると考えています。
まず、事前タスクは下図のように画像をリサイズするタスク(サイズ調整タスク)を採用しました。このタスクでは、参加者に物理カード(クレジットカードなど)を用意してもらい、物理カードのサイズと一致するように画像をリサイズしてもらいます。今回はサイズ調整タスクを2回実施して、1回目と2回目の結果の誤差が小さいほどユーザが正確に操作できていると評価しました。サイズ調整タスクで正確に操作するユーザはポインティングタスクで不適切な操作をしないことが想定されます。
次に、主タスクは下図のようにターゲット(円)をマウス操作でクリックするポインティングタスクとしました。このタスクはフィッツの法則として知られているもので、ターゲットをクリックするまでの時間(操作時間)とミスクリックの割合(エラー率)について評価しました。
実験はYahoo!クラウドソーシングを利用して500人を対象として行い、①サイズ調整タスク ②ポインティングタスクの順でタスクに取り組んでもらいました。今回は、事前タスクの結果にかかわらずすべての参加者にサイズ調整タスクとポインティングタスクの両方を行ってもらいました。
分析・シミュレーション
実験で取得したデータを使って、サイズ調整タスクによるスクリーニングが効果的かどうか分析を行いました。前回の研究では、サイズ調整タスクの成績で参加者をグループ分けしてポインティングタスクの分析をしたところ、グループ間に差がみられたため、スクリーニングが効果的なのではないかという手応えを得たところで止まっていました。そこで今回はサイズ調整タスクの成績が悪い参加者(不合格群)が混ざると実験結果にどのような影響があるのかシミュレーションして、スクリーニングの効果を定量的に評価することを目指しました。
具体的には、参加者全体に含まれる不合格群の割合を変化させて、そのときのポインティングタスクの結果が既知の結果にどれだけ適合するか(R²が1に近いほど適合)分析します。例えば「不合格群0%ではR²=0.9だが、不合格群50%では0.8に低下してしまう」という結果ならば、スクリーニングによってR²の値が向上し、高品質なデータ(既知の結果を再現可能)を取得できるといえそうです。
また、不合格群と判断する基準(閾値)を変化させる検証も行いました。今回はサイズ調整タスクを2回実施して、1回目と2回目の結果の誤差が小さいほど成績が良いとしているため、ある閾値を超えた誤差を示した参加者は不合格群に分類されるようになっています。
以上の分析を様々な条件で行ったのですが、ここでは一例として参加者全体を40人と仮定した場合のエラー率に関する結果を示します。下図は、横軸が不合格群の割合(左が少なく、右が多い)、縦軸が閾値(上が厳しく、下が緩い)となっており、それぞれの場合での結果についてR²の値(緑が高く、青が低い)を示しています。この図をみると、右下から左上に書けてR²の値が向上していることがわかります。そのため、不合格群の割合を少なくするほど(図の左側部分)、閾値を厳しく設定するほど(図の上側部分)、R²の値が向上するという結果になり、スクリーニングが効果的といえる結果となりました。今後はスクリーニングが他の実験(スマートフォンでの実験、フィッツの法則以外の実験など)にも適用できるかの検証も行っていきたいと考えています。
発表スライド
書誌情報
おわりに
自分にとっては4回目の学会発表で、修士課程に進学してからは初めての発表でした。個人的には前回の研究で引っかかっていた点が少し解消できたのでよかったと思っています。
また、学会が開催された北海道は東京に比べるとかなり快適な気候で、景色もよく、海鮮やラーメンなど美味しい食べ物がたくさんあるとても良い環境でした。
最後になりますが、ご指導いただいた中村先生、山中祥太さん、様々なアドバイスをいただいた研究室のみなさんに感謝申し上げます。ありがとうございました。