WISS2024にて「PP-Checker: プログラミング教育における大規模言語モデルと協調した曖昧性のある自動採点システム」というタイトルで発表をしてきました（関口祐豊）

はじめに

中村研究室M2の関口祐豊です。

自分は2024年12月11〜13日の3日間にわたって苗場で開催されたWISS2024に参加してきました。雪景色が綺麗でとても素晴らしい場所だったと思います⛄️

プログラミング講議では、学生が増えるにつれてTAや先生たちが課題を採点するのが大変になっています。

例えば、私の所属する学科では123人の学生に対して先生は4人、アシスタントのTA（ティーチングアシスタント）は10人しかいません。このため、課題の採点が遅れてしまい、生徒へのフィードバックが遅れてしまうこともあります。これを解決するために、採点業務を効率化するシステムが必要であると考えられます。

そこで本研究では、PP-Checkerという「人間とLLMの協調により採点業務の効率化を目的とした自動採点システム」を提案しています。

PP-Checkerの仕組みは、提出されるプログラムの課題をいきなりTAや教員がチェックするのではなく、GPTに事前チェックさせるというものとなっています。なお、結果を返すときには、答えに該当するような余計なことは返さないようにするといった工夫もしています。

課題提出画面（学生）

課題採点画面（TA・教員）

もちろん複雑な課題だとなかなか採点がうまくいかないという問題もあります。そうした判定精度が悪いなと思ったときには与えるプロンプトを随時変更できることができ、プロンプトを修正してより良い採点精度となったと判断できた場合は、そのプロンプトを他の提出課題にも一括反映できます。

本論文では、春学期（2024年4月15日〜7月22日　計12回）の講義で、学生123名、TA10名、教員4名にPP-Checkerを用いて課題提出や採点業務を行った運用の結果を記しています（現在も運用しています）。

授業内に提出する必要のある基本課題37問に対して、合計で6,415回の提出がありました。

そのうち、1,491回はLLMによるフィードバックを受けた時点で、学生が自主的に課題を取り下げていることが明らかとなりました。
- LLMのフィードバックがコードの誤りを学生に気づかせるきっかけに役立っていることが示唆されました。
昨年度と同じ授業回の同じ課題の1問目の課題における再提出までの時間と課題達成時間についての分析を行いました。
- 再提出までの平均時間
  ・PP-Checker：12.3分
  ・従来手法：30.9分
- 課題達成までの平均時間
  ・PP-Checker：48.2分
  ・従来手法：58.9分
  - 再提出までの時間と課題達成までの時間が大幅に削減
ユーザビリティの向上：システムの使いやすさを示すSUS（System Usability Scale）は76.4を記録し、ユーザーから高評価を受けました。
採点精度の向上：プロンプトのリアルタイム修正により、一部の課題では採点精度が最大40%向上しました。

今年のWISSも大変盛り上がっており、私個人も大変楽しめた学会でした！！（特に，美味しい日本酒と美味しいビールがたくさんあって最高でした）

また、今回関わっていただいた皆様本当にありがとうございました。来年のWISSも参加したいと思うので、是非ともよろしくお願いします！自分の研究室からも来年は多くの参加者が出ることを期待しています！

最後になりますが、私が開発したPP-Checkerを導入したい教育機関の方々や企業の方がいらしたら、是非とも以下のリンクやコメントからご問い合わせください。
https://nkmr-lab.org/contact