2018.08.08

意外と知らない"大規模学力テスト"（第２回）大規模学力テストの採点

第1回では日常的な学校でのテストから、大規模学力テストの最近の動向について紹介しました。その中でもご紹介したとおり、当社は全国学力・学習状況調査において各学年約100万人が対象となる大規模な記述式問題の採点や、全国学力・学習状況調査英語予備調査における口述式問題の採点を行ってきました。第2回は、全国学力・学習状況調査を中心とする採点の経験をもとに、大規模学力テストにおける採点の難しさや、当社の行ってきた工夫、今後の可能性等について、紹介します。

問題形式と採点方式について

全国学力・学習状況調査は、以下のような形式で出題されています。

当社では、限られた期間で高い品質を担保して採点するために、それぞれの問題の出題形式や特性に応じて、最適な採点方式を用いて採点しています。

問題形式	概要	採点方式
選択式	与えられた選択肢の中から選択して解答する問題。	マーク式採点
短答式	漢字の読み書き、数式や計算結果等、少ない文字数で解答する問題。主に知識の定着度を図る問題に多い。	バッチ採点
短答式	漢字の読み書き、数式や計算結果等、少ない文字数で解答する問題。主に知識の定着度を図る問題に多い。	目視採点
記述式	要約や自分の考え、計算プロセスや現象の説明、証明等、短答式に比べ多い文字数の文・文章で解答する問題。	目視採点
口述式	口頭で解答する問題。平成３０年度の英語予備調査「話すこと調査」で導入され、３～4語で解答する短答の口述式と、より長い口述式の2種類の出題があった。	自動音声評価システムを活用した耳聞採点

選択式問題は、テストの仕様にもよりますが、マークシート解答用紙の該当する選択肢を塗りつぶす形で解答する問題です。マークシート解答用紙を機械（光学式マーク読み取り装置：OMR）で読み取ることで、人の手を介さず短時間で正確に採点します。（選択肢記号等を手書きで解答する問題の場合は、短答式問題と同じ採点方式になります。）

短答式と記述式の問題は、ともに語句や数値、文章等、手書きの形で解答する問題です。どちらも、人が目で見て解答内容を確認し、採点します。バッチ採点というのは、まず解答内容を入力しテキスト化する作業を行い、テキストに対して採点を行うことで、あるテキストに対して一度採点すれば、同一のテキストの解答には機械的に同じ採点が反映されるように工夫した方式です。特に短答式の問題のうち、「漢字の読み」のように解答パターンや文字数がある程度限られる問題において、バッチ採点を選択することで、作業を大幅に効率化することができます。

口述式は、生徒の口述解答を録音した音声を、人が耳で聞いて解答内容を確認し、採点しますが、可能な範囲で機械（自動音声評価システム）による事前の振分けを行います。事前に振分けがされたカテゴリー別に、音声評定情報を見ながら採点することで、人のみの採点に比べて飛躍的に効率的でかつ品質も担保することが可能となります。

大規模学力テストの採点ならではの難しさ

記述式問題を含む大規模学力テストとして検討されているものに、高校生のための学びの基礎診断、大学入学共通テスト等があります。大規模学力テストへの記述式問題導入に対して、文部科学省の専門家会議（高大接続システム改革会議、「高校生のための学びの基礎診断」検討ワーキング・グループ、「大学入学希望者学力評価テスト（仮称）」検討・準備グループ）等においても、採点の正確性や入試のスケジュールに対応させることの実現可能性等について、多くの議論が重ねられてきました。高校生のための学びの基礎診断については、統一的なテストではなく、一定の要件を満たす民間の試験等を認定する仕組みを創設することとなりましたが、大学入学共通テストについては、2020年より国語と数学Ⅰへの記述式問題が導入されることになりました。

選択式の問題であれば、これまで大学入試センター試験等でも用いられてきたように、大規模学力テストであっても、マークシート解答用紙を機械で読み取ることで採点が完了するため、短期間で大量の解答の採点を正確に行うことが可能です。

短答式、記述式、口述式の問題の場合、後述するような新たな技術の研究・開発も行われていますが、現時点では、必ず人が解答内容を確認したうえで採点することになります。
大規模学力テストで、しかも短期間で結果を返す必要がある場合には、多くの採点者による採点が必要となります。人の作業にはミスがつきものです。多くの採点者により、短期間に多くの解答を正確に採点するには、まずはこのミスを発生させる要因を徹底して取り除く必要があります。

さらには短答式の一部や、記述式、口述式の問題における、自分の言葉で文章を練り、何かを説明するような問題では、正答が1種類とは限りません。数十字～数百字のバリエーション豊かな解答が、それぞれ正答となるために必要な条件を満たすのかどうか照らし合わせていく必要があります。その条件には、文字数や文の数、キーワード等、条件を満たすのかどうかが明確なものだけでなく、「話の展開を適切に取り上げて書いている」「話の展開に応じた適切な質問を書いている」等、条件を満たすのかどうかの判断が人によって異なったり、ぶれたりする可能性のあるものもあります。多くの採点者が、出題の趣旨や採点の基準に対し、正確で統一的な理解をしたうえで、バリエーション豊かな全ての解答に対して、統一的に適用していくことに、大規模学力テスト、特に記述式問題の採点の難しさがあるといえます。このことは、第1回でも少し触れましたが、大学入学共通テストの2017年度試行調査における採点業者の採点結果と自己採点結果の一致率（国語：67.0%～77.4%、数学：82.9%～92.8%）の低さにもあらわれているといえます。

大規模学力テストの採点を期間内に正確に行うための工夫

採点会場の様子

大規模学力テストの採点において、多くの採点者により、限られた期間内に、統一的な基準を全ての解答に適応する（一つの解答に対して誰が採点しても同じ採点結果になる）採点を実現するため、当社ではこれまで、様々な工夫をしてきました。ここでは、①採点者の採用・研修・管理　②採点システムによる作業の効率化　についてご紹介します。

①採点者の採用・研修・管理

採点者には、問題の内容や趣旨、採点の基準や作業手順を正確に理解することと、解答内容を過不足なく正確に読み取り、理解した基準をミスなく適用させることが求められます。そのため、１）適性を有する採点者の採用と管理　と２）採点に必要な研修プログラムと採点期間を通じたフォローアップの仕組み、の2点が必要であると考えています。その2点について、以下に説明します。

１）適性を有する採点者の採用と管理

私たちが採点者を採用する際は、「一定水準の学力を有するか」および「正しく採点を行うための資質を有するか」をチェックするための試験と作業の正確性や持続力等を測る試験を行い、設定された基準を満たした場合のみ採用します。

なお、採用試験は、採点する学力テストの特性を踏まえて専用で作成します。たとえば、英語の「話すこと」を問う問題を採点する場合は、通常の基礎学力を問う筆記試験だけでなく、「英語を聞き分ける」能力を問うリスニング問題を含む問題構成にすることもあります。採用試験問題は、教科に対する専門性を有した教科責任者が、採点業務に適した人材を見極める意図を持って作成、監修します。

このように、基礎学力の確認、採点する学力テストの特性、採点業務に直結する適性等を判断するための採用試験を実施することが、採点者の採用時に最も重要な事項になります。

採用後は、人事責任者が採点期間中、継続して勤務管理や勤務評価を行い、採点者の意欲や勤務態度のさらなる向上に努めます。人事責任者を中心とするきめ細かい対応に関しては、採点者からの評価も高く、多くの採点者が何年にもわたって長期間勤務しています。採点者と信頼関係を構築することが、品質やセキュリティ意識を保つ上でも重要になっているのです。

２）採点に必要な研修プログラムと採点期間を通じたフォローアップの仕組み

採用後、採点業務を始める前に研修を実施します。私たちは、「業務研修」と「採点内容研修」の2つに大別しています。「業務研修」とは、採点業務に従事する上で必要なセキュリティ、採点業務の簡単な流れ、採点会場や出退勤のルール等を習得する研修です。特に、セキュリティに関する研修では、セキュリティ遵守の誓約書への同意を求めます。「採点内容研修」とは、採点システムの操作、出題の趣旨や採点基準、採点業務の詳細な進め方等、採点を行う上で必要な知識を習得する研修です。実際の解答に即したテストや、採点しながらスキルを習得する研修を、採点システムを使用して行います。これら2つの研修を終えた後に、ようやく採点作業に入ります。

採点業務を始めた後は、進捗および品質を常にモニタリングし、品質チェックの結果や採点者からの質問事項等から採点者の理解度を確認して、必要に応じたフォローアップを行います。例えば再研修の実施や作業中に繰り返し重要事項を伝えて意識させる等により、採点基準の統一的な理解の徹底を図る、集中力が途切れないよう、適度な休憩をはさむ等のさまざまな工夫により、進捗および品質を担保しています。さらに採点の難易度や進捗に応じて、「追加内容研修」を段階的に実施することで、採点者は徐々に高度な採点方法を習得するようになります。

このように、「業務研修」「採点内容研修」から始まり、「採点」開始後は「進捗・品質チェック」「追加内容研修」等のフォローアップを継続して行うことにより、採点のミスやぶれを最小限に抑えます。また、品質チェック等により採点ミスが発見された場合には、採点ミスの要因を分析したうえで採点結果を見直し、確実に修正をしながら採点を進めていきます。

つまり、採点に必要な研修プログラムと採点期間を通じたフォローアップの仕組みを構築することが、最終的な品質を保つ上でも重要になっているのです。

②採点システムによる作業の効率化

当社の大規模学力テストの採点では、独自に開発した採点システムを活用して作業を効率化しています。

まず、解答用紙を画像として読み取り、小問ごとに切り分けたものを、採点システムに搭載します。口述式の問題も同様に、解答が録音された小問ごとの音声データを採点システムに搭載します。同じ問題の解答を続けて採点することができ、効率的です。一度採点された解答は、2回目以降は自動的に異なる採点者に振り分けられます。

無解答（白紙、無音）は事前にシステムによる振分けを行い、何らかの解答内容が含まれるもののみ、採点者による採点を行います。

採点システムには、採点者それぞれが固有のIDとパスワードでログインし、それぞれの権限ごとに使える機能も制限されています。また全ての解答の状況や、誰が、いつ、どんな作業により、どのような採点の判断をしたか等の作業の履歴が記録され、検索できるようになっています。全ての解答の状況や作業履歴が確認できることで、抜け漏れなく確実に採点ができるだけでなく、「①採点者の採用・研修・管理」でご紹介したように、品質チェックにより採点のミスやぶれが発見された際に、その原因を探り、見直しが必要な範囲や観点を絞って効果的に品質向上のための作業を行うことができます。

また、先ほど「問題形式と採点方式について」でご紹介したように、選択式のマーク式採点、口述式の機械（自動音声評価システム）による事前振分けを活用した採点、短答式の一部の問題におけるバッチ採点等、人が1件1件解答内容を確認して採点する範囲を少なくすることによる効率化を進めています。今後も、機械化できる範囲を広げていくことは、採点期間を短縮し、人を介することによるミスや判断のぶれを防ぐとともに、限られた時間の中で複雑な判断を要する問題の採点に注力するために、大事なポイントであると考えています。続いて、そのような採点の機械化のこれからについて考えます。

採点業務は今後どうなっていくか

今後の採点としては、いきなりすべてを機械化するということではなく、段階的にこれまで人力で行っていた作業を機械化していくことになるでしょう。

現在行われている多くのテストは解答用紙に手書きで解答する形式（PBT・Paper based Testing）であり、学校のテストであれば先生が解答用紙を1枚1枚めくって、当社の採点システムであれば問題ごとの解答画像を1件1件見て、採点する必要があります。これに対し、解答内容がテキスト化され、採点前にあらかじめ文字数やキーワード、文章の構成等でカテゴライズしておくことができるようになるだけで、採点作業の効率と品質は大幅に向上すると考えています。例えば、正答となる条件としてあるキーワードを含むことが求められているような場合、その条件についてはカテゴライズの段階でほぼ判定できるため採点者はその他の条件の判断に注力することができます。またカテゴリーごとに、似たパターンの解答を続けて採点することにより、判断の一貫性とスピードの向上も期待されます。

当社の採点の仕組みのうち、バッチ採点はこのテキスト化を人力で行っているのですが、この作業を機械化する1つの方法として、OCR（光学式文字読み取り装置）という、画像を解析して、その中に含まれる文字や数字、記号等を認識する技術や装置があります。郵便番号の読み取りや印刷された文字の読み取り等で既に実用化されていますが、その読み取り精度が、テストの解答のような手書き文字や、漢字、筆記体等の文字に対しても採点に活用できる精度まで高まれば、現在、バッチ採点を取り入れている短答式の一部の問題だけでなく、記述式の問題や短答式の中でも文字数の多い問題も、短期間でミスなくテキスト化されることになります。

また近年、日本の大規模学力テストにおいても試行的に導入され始めているコンピュータを使ったテスト（CBT・Computer Based Testing）により、記述式や短答式を含む全ての解答が解答者自身によりテキストデータとして入力されるようになれば、OCRによる文字認識の精度を気にする必要はなくなります。

問題形式	現在の採点方式	今後期待される採点の効率化
問題形式	現在の採点方式	OCRによる効率化	CBTによる効率化
選択式	マーク式採点	マーク式採点	システム上で自動採点
短答式	バッチ採点（解答内容をあらかじめ人が入力してテキスト化し、そのテキストに対して採点）	解答内容をOCRでテキスト化し、そのテキストに対して採点	解答者自身により入力されたテキストに対して採点 ※一部の問題では自動採点
短答式	目視採点 ※バッチ採点に適さない問題や解答（漢字の書き等）	目視採点 ※OCRでテキスト認識できない/適さない問題や解答
記述式	目視採点	解答内容をOCRでテキスト化し、カテゴライズしたうえで目視採点	解答者自身により入力されたテキストに対して、カテゴライズしたうえで採点
口述式	CBTによりテストを実施し、自動音声評価システムを活用して採点（自動音声評価システムによる自動振分けを行ったうえで、採点者が解答音声を聞いて採点)	※今後さらなる音声認識率や自動振分けの精度向上が期待される

さらには、採点前のカテゴライズの作業を自動化することについても、研究が進められており、近年様々な分野で開発されている新しい技術を活用したさらなる採点の自動化が期待されています。高大接続システム改革会議「最終報告」においても、採点業務の補助として、答案のクラスタリング（類似した解答ごとにグループ化）などの業務にコンピュータ（例えば人工知能（AI）技術などが考えられる）を効果的に活用することも含め、新たな技術の開発と活用を積極的に進める、と記載されています。

次回は、採点の効率化、結果データの活用の面でも期待が高まるCBT（Computer Based Testing）について、詳しく紹介します。