2023.05.08

意外と知らない"テスト理論"（第１回）～よいテストって何だろう（古典的テスト理論について）～

このページにたどり着いた皆さんはきっと、一度はテストを受けたことがあることと思います。さらには、テストを実施したことがある方も多くいらっしゃるのではないでしょうか｡そのテストを通じて、嬉しい経験をしたこともあれば、苦い経験をしたこともあることでしょう。現在、社会においては様々なテストが活用されています。教育を考える上で、「切っても切り離せない存在」であるテスト。しかし、その「テストそのもの」について学んだことがある方は決して多くないのではないでしょうか。

今回は「テストそのもの」に焦点を当てていきたいと思います。第1回はよいテストとは何か？について考えていきたいと思います。

1．よいテストって？

テストの歴史はとても長いですが、テストそのものを科学的な研究の対象としてとりあげられるようになったのは、20世紀になってからといわれています。その研究をまとめた「テスト理論」では、どのようなテストがよいテストだとされているのでしょうか。

まずは、重要なテストを控えた受験生に対する以下のような激励のメッセージをもとに考えてみます。

自信を持たせたり、気持ちを落ち着かせたりするこの温かいメッセージの背景には、「テストそのもの」を考える上での重要な要素を含んでいます。それは「本当の自分の実力：『真のスコア』が存在する」という可能性を示している点です。そして、テストによっては、本当の自分の実力『真のスコア』に近い得点を取れることもあれば、かけ離れた得点を取ることもあるということを示している点です。

反対にいえば、テストを実施する者にとって、この測りたいことがらである『真のスコア』を、適切に解釈したうえで実施し、だれに対しても常に『真のスコア』を反映した得点をフィードバックすることができるテストこそ、よいテストだといえるでしょう。

2．古典的テスト理論

しかし、実際のテストでは、前日勉強したことがたまたま出題されたとか、当日の体調が悪くて集中できなかったとか、受験者の能力以外の要因で得点がばらついてしまう場合も多く考えられるでしょう。このことから「実際のテストの得点」は「本当の自分の実力」以外の要因によって生じた「誤差」が加わったものだと考えられます。

この測定モデルを基本モデルとしたテストの質の評価は「古典的テスト理論（CTT：Classical Test Theory）」と呼ばれています。古典的テスト理論とは、「古い理論」ということではなく、次回に紹介する項目反応理論（IRT：Item Response Theory）が提示されるよりも前から活用されていることから、その名が付けられています。そして、古典的テスト理論では、測定の「信頼性」と「妥当性」の観点からテストの評価をしていきます。

３．信頼性

能力が高い人が正答しているか？

COVID-19の影響により、毎日電子体温計を使って体温を測っている方も少なくないことでしょう。もしかしたら、こんな経験があるかもしれません。

ある朝、いつものように体温計を使って体温を測定したところ、驚くほど高い値が示された。びっくりして測り直したところ、平熱であったため、ホッとしたが、念のためもう一度測り直したところ、今度は驚くほど低い値が示された。

きっと、「この電子体温計は信頼できない！」と思うことでしょう。それは『真のスコア』を反映していない体温計であると考えられるからです。

人間の能力を測るためのものさしであるテストも同様です。「このテストは受験者（自分）の能力をきちんと反映していない！」と感じたことが、一度はあるのではないでしょうか。反対に、能力の高い受験者には常に大きなスコアになり、能力の低い受験者には常に小さなスコアになるようなテストがよいテストのひとつの条件だといえるでしょう。このように、能力の高低を精度よく測定しているかどうかの程度を「信頼性」とよびます。

一般に、同じ測りたいことがらに対して複数の問題を出題し、それらの正誤データに高い相関（関係性）がみられた場合、信頼性の高いテストだといえます。

4. 妥当性

測りたい能力を測れているか？

次は、世界史の問題を出題したいと思います。

問題次の問題に誤りがある場合は訂正しなさい。「マグナ・カルタはBC1215年にイギリスのジョン王によって承認された。」正解：BC→AD

（池田央 (1980). 新しいテスト問題作成法　第一法規出版より引用）

正解できましたでしょうか。正解できた方も、不正解だった方も、次に述べるもうひとつの問いについて考えてみてください。

この問題は「世界史」の問題だといえるでしょうか。

もちろん、世界史の知識がなければ正解できませんが、もはや「注意力」を問う問題になっていると考えられるのではないでしょうか？この問題のように、測定すべき「能力」とは無関係の要素で正誤が分かれる問題はよい問題といえません。反対にいえば、測りたいことがらを適切に測ることができるテストこそ、よいテストのもうひとつの条件だといえるでしょう。このように、測りたいものを測れているかどうかの度合いを「妥当性」とよびます。

妥当性の検証は信頼性以上に難しく、またその推論の背景も多様であるため、その詳細については割愛しますが、テストを実施する者にとって「この問題は、測りたいことがらを測れない可能性があるのではないか」という視点を持ち続けることが重要だといえます。

5. 信頼性と妥当性の直感的理解

これまで「信頼性」と「妥当性」について述べてきましたが、直感的に理解しづらいかもしれません。直感的な理解の一助として「ダーツのアナロジー」を紹介します。

図の的の中心が「測りたいことがら」を表しているとしましょう。的１の図は的の中心を射ているため、「妥当性が高い」ことに相当し、常に同じような位置を射ているため「信頼性が高い」ことに相当します。

このように考えると、的２の図は中心から外れた位置を射ているため「妥当性が低い」といえます。ただ、常に同じような位置を射ているので「信頼性は高い」といえます。また、的３の図は中心付近を射ているため「妥当性は高い」のですが、的１の図に比べれば中心からの散らばりは大きいため「信頼性は低い」と考えます。そして、的４の図は信頼性・妥当性ともに低い場合といえるでしょう。

ダーツのアナロジー

的１
的２
的３
的４

（光永悠彦 (2017)を参考に作成。　※ダーツのアナロジーはあくまで直感的な理解の一助であり、厳密なものではございませんのでご留意ください。）

今回は、古典的テスト理論をもとに、よいテストとは何か？について考えてきました。もしあなたがテスト実施者でしたら、一つひとつの問題について「この問題は自分が測りたいと考えていることがらを測れているか？」や「この問題は測りたいことがらを精度よく測れているか？」という視点を持って吟味してみるとよいかもしれません。

古典的テスト理論は今でも様々な場面で応用されている一方、限界点も指摘されています。次回はその限界点と、それらを解決する新しいテストの評価方法である項目反応理論（IRT）について紹介します。