意外と知らない"テスト理論"(第1回) ~よいテストって何だろう(古典的テスト理論について)~

このページにたどり着いた皆さんはきっと、一度はテストを受けたことがあることと思います。さらには、テストを実施したことがある方も多くいらっしゃるのではないでしょうか。そのテストを通じて、嬉しい経験をしたこともあれば、苦い経験をしたこともあることでしょう。現在、社会においては様々なテストが活用されています。教育を考える上で、「切っても切り離せない存在」であるテスト。しかし、その「テストそのもの」について学んだことがある方は決して多くないのではないでしょうか。
今回は「テストそのもの」に焦点を当てていきたいと思います。第1回はよいテストとは何か?について考えていきたいと思います。
1.よいテストって?
テストの歴史はとても長いですが、テストそのものを科学的な研究の対象としてとりあげられるようになったのは、20世紀になってからといわれています。その研究をまとめた「テスト理論」では、どのようなテストがよいテストだとされているのでしょうか。
まずは、重要なテストを控えた受験生に対する以下のような激励のメッセージをもとに考えてみます。

自信を持たせたり、気持ちを落ち着かせたりするこの温かいメッセージの背景には、「テストそのもの」を考える上での重要な要素を含んでいます。それは「本当の自分の実力:『真のスコア』が存在する」という可能性を示している点です。そして、テストによっては、本当の自分の実力『真のスコア』に近い得点を取れることもあれば、かけ離れた得点を取ることもあるということを示している点です。
反対にいえば、テストを実施する者にとって、この測りたいことがらである『真のスコア』を、適切に解釈したうえで実施し、だれに対しても常に『真のスコア』を反映した得点をフィードバックすることができるテストこそ、よいテストだといえるでしょう。
2.古典的テスト理論
しかし、実際のテストでは、前日勉強したことがたまたま出題されたとか、当日の体調が悪くて集中できなかったとか、受験者の能力以外の要因で得点がばらついてしまう場合も多く考えられるでしょう。このことから「実際のテストの得点」は「本当の自分の実力」以外の要因によって生じた「誤差」が加わったものだと考えられます。

この測定モデルを基本モデルとしたテストの質の評価は「古典的テスト理論(CTT:Classical Test Theory)」と呼ばれています。古典的テスト理論とは、「古い理論」ということではなく、次回に紹介する項目反応理論(IRT:Item Response Theory)が提示されるよりも前から活用されていることから、その名が付けられています。そして、古典的テスト理論では、測定の「信頼性」と「妥当性」の観点からテストの評価をしていきます。
3.信頼性
能力が高い人が正答しているか?
COVID-19の影響により、毎日電子体温計を使って体温を測っている方も少なくないことでしょう。もしかしたら、こんな経験があるかもしれません。

きっと、「この電子体温計は信頼できない!」と思うことでしょう。それは『真のスコア』を反映していない体温計であると考えられるからです。
人間の能力を測るためのものさしであるテストも同様です。「このテストは受験者(自分)の能力をきちんと反映していない!」と感じたことが、一度はあるのではないでしょうか。反対に、能力の高い受験者には常に大きなスコアになり、能力の低い受験者には常に小さなスコアになるようなテストがよいテストのひとつの条件だといえるでしょう。このように、能力の高低を精度よく測定しているかどうかの程度を「信頼性」とよびます。
一般に、同じ測りたいことがらに対して複数の問題を出題し、それらの正誤データに高い相関(関係性)がみられた場合、信頼性の高いテストだといえます。
4. 妥当性
測りたい能力を測れているか?
次は、世界史の問題を出題したいと思います。

(池田 央 (1980). 新しいテスト問題作成法 第一法規出版より引用)
正解できましたでしょうか。正解できた方も、不正解だった方も、次に述べるもうひとつの問いについて考えてみてください。
この問題は「世界史」の問題だといえるでしょうか。
もちろん、世界史の知識がなければ正解できませんが、もはや「注意力」を問う問題になっていると考えられるのではないでしょうか?この問題のように、測定すべき「能力」とは無関係の要素で正誤が分かれる問題はよい問題といえません。反対にいえば、測りたいことがらを適切に測ることができるテストこそ、よいテストのもうひとつの条件だといえるでしょう。このように、測りたいものを測れているかどうかの度合いを「妥当性」とよびます。
妥当性の検証は信頼性以上に難しく、またその推論の背景も多様であるため、その詳細については割愛しますが、テストを実施する者にとって「この問題は、測りたいことがらを測れない可能性があるのではないか」という視点を持ち続けることが重要だといえます。
5. 信頼性と妥当性の直感的理解
これまで「信頼性」と「妥当性」について述べてきましたが、直感的に理解しづらいかもしれません。直感的な理解の一助として「ダーツのアナロジー」を紹介します。
図の的の中心が「測りたいことがら」を表しているとしましょう。的1の図は的の中心を射ているため、「妥当性が高い」ことに相当し、常に同じような位置を射ているため「信頼性が高い」ことに相当します。
このように考えると、的2の図は中心から外れた位置を射ているため「妥当性が低い」といえます。ただ、常に同じような位置を射ているので「信頼性は高い」といえます。また、的3の図は中心付近を射ているため「妥当性は高い」のですが、的1の図に比べれば中心からの散らばりは大きいため「信頼性は低い」と考えます。そして、的4の図は信頼性・妥当性ともに低い場合といえるでしょう。
-
的1
-
的2
-
的3
-
的4
今回は、古典的テスト理論をもとに、よいテストとは何か?について考えてきました。もしあなたがテスト実施者でしたら、一つひとつの問題について「この問題は自分が測りたいと考えていることがらを測れているか?」や「この問題は測りたいことがらを精度よく測れているか?」という視点を持って吟味してみるとよいかもしれません。
古典的テスト理論は今でも様々な場面で応用されている一方、限界点も指摘されています。次回はその限界点と、それらを解決する新しいテストの評価方法である項目反応理論(IRT)について紹介します。
参考資料
- 藤永 保 (監修) (2013) 『最新心理学事典』平凡社
- 石井研究室 テスト研究(2023年4月14日時点)
- 池田 央(1980) 『新しいテスト問題作成法』第一法規出版(※絶版)
- 池田 央(1992)『テストの科学一試験に関わる全ての人に一』 日本文化科学社(※絶版)
- 加藤健太郎・山田剛史・川端一光(2014) .『Rによる項目反応理論』オーム社
- 光永悠彦 (2017).『テストは何を測るのか』ナカニシヤ出版
- 光永悠彦・西田亜希子(2022)『テストは何のためにあるのか ―項目反応理論から入試制度を考える』ナカニシヤ出版
- 文部科学省(2013) 中央教育審議会 高等学校教育部会(第23回)配付資料4「項目反応理論について」
- 宇佐美慧・荘島宏二郎・光永悠彦・登藤直弥 (2019).「項目反応理論(IRT)の考え方と実践-測定の質の高いテストや尺度を作成するための技術-」『教育心理学年報』58巻,p.321-329.
構成・文・図:内田洋行教育総合研究所 研究員 吉中 貴信
※イラストは「ソコスト」より
※当記事のすべてのコンテンツ(文・画像等)の無断使用を禁じます。
ご意見・ご要望、お待ちしています!
この記事に対する皆様のご意見、ご要望をお寄せください。今後の記事制作の参考にさせていただきます。(なお個別・個人的なご質問・ご相談等に関してはお受けいたしかねます。)
この記事に関連するおススメ記事

「教育トレンド」の最新記事
