はじめに
こんにちは。中村研究室M2の三山貴也です。
2026年4月13~17日にスペイン・バルセロナで開催された国際会議 ACM CHI 2026 にて、採択論文 “Improving Data Quality via Pre-Task Participant Screening in Crowdsourced GUI Experiments” を発表しました。
Takaya Miyama, Satoshi Nakamura, and Shota Yamanaka. 2026. Improving Data Quality via Pre-Task Participant Screening in Crowdsourced GUI Experiments. In Proceedings of the 2026 CHI Conference on Human Factors in Computing Systems (CHI ’26), April 13–17, 2026, Barcelona, Spain. ACM, New York, NY, USA, 22 pages. https://doi.org/10.1145/3772318.3791332
この論文は過去にHCI研究会(第211回、第214回、第215回)で発表した内容を整理したものですので、よろしければそちらもご覧ください。また、この研究はLINEヤフー研究所でのインターンシップを通じて取り組んだ成果で、内容はこちらの記事にもまとめられていますので、ぜひご覧ください。
研究概要
背景・目的
クラウドソーシングとは、インターネットを通じて不特定多数にタスクを依頼する仕組みのことで、アンケート調査などのデータ収集に広く活用されています。これにより、従来は対面で行われていた調査もWeb上で完結できるようになり、短期間で大人数からデータを収集できるようになりました。一方で、不特定多数が匿名でタスクに取り組むため、不適切な回答(設問の趣旨から大きく逸脱した回答など)がみられるという課題もあります。
クラウドソーシングを活用して研究目的の実験を行うことも増えています。ここではアンケート調査だけでなく、マウス操作やタッチ操作を用いた課題を含むようなUIに関する実験も一般的になっています。そのような実験では不適切な操作(雑にタップする、無意味に連打するなど)に対処することも課題となります。
こうした課題を踏まえ、この研究では、適切な参加者を募集して品質の高いデータを収集することを目的としています。
アプローチ・検証
この研究では、適切な参加者を募集するために、メイン実験の前に事前タスクを設け、その結果をもとに参加者をスクリーニングするアプローチを採用しました。ここでは、事前タスクの結果をもとに抽出された適切な参加者のみでメイン実験を行うことで、品質の高いデータを収集できると考えています。
このアプローチを検証するため、Yahoo!クラウドソーシング上で約500人を対象として ①事前タスク ②メイン実験 の順で構成されたタスクに取り組んでもらいました。今回は、事前タスクの結果にかかわらずすべての参加者にメイン実験にも取り組んでもらいました。
まず、事前タスクは下図のように画像をリサイズするタスク(サイズ調整タスク)を採用しました。このタスクでは、参加者に物理カード(クレジットカードなど)を用意してもらい、物理カードのサイズと一致するように画像をリサイズしてもらいます。この研究では、サイズ調整タスクの誤差(リサイズされた画像と物理カードのサイズの差)が小さいほど適切な参加者であると評価しました。誤差が設定した閾値より小さければ対象群(メイン実験の対象となる参加者)、それ以上であれば非対象群になります。
次に、メイン実験は下図のようにボタン(水色のバー)をタップするポインティングタスクとしました。このタスクはフィッツの法則として知られているもので、ボタンをタップするまでの時間(操作時間)とミスの割合(エラー率)について評価しました。このタスクはボタンのサイズに応じて操作時間やエラー率がどのように変化するのか検証することを目的に行われるもので、ラボ実験では操作時間やエラー率を予測するモデルが確立されています。
分析・シミュレーション
クラウドソーシングを通じて取得したデータを使って、サイズ調整タスクによるスクリーニングが効果的かどうか分析を行いました。ここでは、事前タスクの成績が悪い参加者(非対象群)が混ざると実験結果にどのような影響があるのかシミュレーションして、スクリーニングの効果を評価します。
具体的には、参加者全体に含まれる非対象群の割合を変化させて、そのときのメイン実験の結果が既知のモデルにどれだけ適合するか(R²が1に近いほど適合)分析します。例えば「非対象群0%ではR²=0.9だが、非対象群50%では0.8に低下してしまう」という結果ならば、スクリーニングによってR²の値が向上し、品質の高いデータ(既知の結果を再現可能)を取得できるといえそうです。また、スクリーニングの厳しさによる影響も確認するため、事前タスクの誤差閾値を変化させる検証も行いました。
分析結果の一例として、参加者全体を80人と仮定した場合のエラー率に関する結果を示します。下図は、横軸が非対象群の割合(左が少なく、右が多い)、縦軸が閾値(上が厳しく、下が緩い)となっており、それぞれの場合での結果についてR²の値(緑が高く、青が低い)を示しています。この図をみると、右下から左上にかけてR²の値が向上していることがわかります。そのため、非対象群の割合を少なくするほど(図の左側部分)、閾値を厳しく設定するほど(図の上側部分)、R²の値が向上するという結果になり、スクリーニングが効果的といえる結果となりました。
考察・展望
分析の結果、非対象群の割合が多くなるほど、スクリーニングが緩くなるほど、R²の値が低下する傾向がみられました。ここでは、同じ実験であっても参加者によってR²=0.989からR²=0.853まで結果が異なる可能性があることが示されています。そのため、あまり真面目に取り組まない参加者を多く含むデータでは「ラボ実験とクラウドソーシング実験では結果が異なる」などと誤った結論につながるリスクがあるといえます。この研究では、スクリーニングによってラボ実験の結果を再現可能なデータを収集できることを示しており、そのような誤った結論に至るリスクを軽減できると考えています。
クラウドソーシングを活用した実験では、効率よくデータを収集できる一方で、データ品質の確保が重要な課題となります。この研究は、メイン実験の前に事前タスクを設けるという一つのアプローチを示したものです。今後は、研究目的に応じたスクリーニング方法を検討するなど、クラウドソーシングでの調査や実験をより信頼性の高いものにするための取り組みを進めていきたいと考えています。
おわりに
今回の発表は、自分にとって初めての海外、そして国際会議で、わからないこともたくさんありましたが、多くの方に支えていただきながらなんとか乗り切ることができました。
CHIはトップカンファレンスということもあり、会場の規模や発表されている研究の質の高さが印象的でした。そのような場で自分の研究を発表できたことは、とても貴重な経験でした。また、もっといい研究がしたい…もっと議論できるようになりたい…英語が話せるようになりたい…などなど、とてもモチベーションが上がりました。今後も引き続き、研究を頑張っていこうと思います。
学会が開催されたバルセロナも素晴らしいところで、パエリアや生ハムなど、どの料理を食べても美味しかったです。サグラダ・ファミリアもとてもきれいで、思い出に残る旅になりました。
最後になりますが、ご指導いただいた中村先生、LINEヤフー研究所の山中祥太さん、そして日頃から様々なアドバイスをいただいた研究室のみなさんに心より感謝申し上げます。ありがとうございました。



