講演
「作問及び評価・分析(SーP表分 析)の具体的な手順と留意点」
講師 岸 学 氏 (東京学芸大学教育学部 教授)
日時 2010年11月25日(木)
はじめに
今回は、テスト問題を作るときの留意点、SーP表の分析に関すること、そして、信頼性と妥当性とについてお伝えしたいと思います。さらに、テスト問題作成時の参考となるような情報、そして、SーP表を使ってテストの分析をする視点についてもお話しする予定です。
ところで、富山県のようなすばらしい取り組みを行っている県は他にはないと思います。何がすばらしいかというと、一つ目はSーP表の使い方と取り組みです。SーP表の分析結果を授業に活用しているというのは驚きです。二つ目は毎年行っているテスト問題の中で、幾つか共通の問題を出題していることです。テスト作成の大きな課題の一つとして、同じ問題を繰り返し出題できるような問題が作れるか、があります。三つ目は、個々のテスト問題の質が高いこと、すなわち問題作成のトレーニングが確立していることです。おそらく、それまでの問題を先生方が見ておられることによって、自然と高いレベルの問題づくりに目が向いているのだと思います。ですから、今の取り組みを大切にしていただければ、今後も高い質のテストが維持できるのではないかと思っております。今日は、さらにそれを高めるために話をしていきます。
評価と測定の違い
今、私が話をしているテストというのは、評価と測定という二つの活動の中の測定に属します。測定は、評価をするための客観的情報を得ることなのです。先生方は日常的に教育評価として、いろいろな活動を行っているわけですが、評価をするための情報を得るのがテストの役割なのです。
もちろんテストだけではなく、質問紙を行ったり、面接をしたり、観察をしたりするのも客観的な情報を得るための活動ですが、その中で情報を数量で表したものを特に測定といいます。そして、測定の中で最も有力な手段がテストで情報を得る活動なのです。ですから、話の中で「測定」という言葉が出てきますが、それは「テスト」と置き換えて聞いていただいて構いません。
ただし、繰り返しになりますが、評価をする際には質的記述、すなわち先生方の印象や面接の様子、子どもたちの話の内容、作文、いろいろな情報があります。テストはそのうちの一部に過ぎないこともご確認ください。
今日お話しするのは、SーP表、信頼性や妥当性などを含めた古典的テスト理論についてです。古典的というのは、その後、項目応答理論というのが出てきたので古典的と言っていますが、もう古くて使い物にならないということではなく、現在皆さん誰もが使っている理論なのです。
話題の構成
先生方の立場では、テストを作る段階とテストを使う段階の両方があります。
テストを作るときに注意しなければいけないのは、テスト全体をどのようにしたらいいかという考え方と、一つ一つの項目をどう作ったらいいかという点です。
そして、テストを作った後は、その結果を生徒に返すだけではなく、自分が作った問題のよしあしや自分が作った問題によって明らかになった生徒の特徴を分析し、次のテストや次の指導に少しでも生かそうとすることが大切です。このときに有用な分析方法が、SーP表による分析です。
テストを生徒に実施した後、個々の生徒の理解度を確かめたり分析したりするのが、SーP表のS曲線を使った分析です。例えば、同じ五〇問中三〇問合った生徒が二人いても、どの三〇問が正解だったかは皆違います。つまり、生徒の分かり方はみんな違うのです。そこの違いをはっきりと分かりやすく示すのがSーP表の最大の特徴です。その後は、先生が学習支援をどうやって組んでいくのかということになっていきます。
テスト得点の分布を想定する
テストの分布というと、標準の分布型ばかり出てくるのですが、実はテストというのは、作る目的によって、到達度の確認のためのテストや学力試験や入学試験のように、能力の高い人をピックアップするためのテストなどがあります。つまり、難しい問題をたくさん作るテスト、バランスよく出題するテスト、易しい問題や基礎的な問題を重視する到達度評価に近いテストという、大きく三つのテストがあります。
個人でテストを作るときは、自分のテストをこういうふうに行おう、今回のクラスだとこういう特徴があるからこんなふうにしようか、などと予測を立てて作ります。しかし、多数の人が一緒に作ったとき、皆の意思統一がとれていないと、バラバラなテスト問題構成になってしまいます。ですから、テスト作成時は、どのような目的のテストなのかを相互に十分確認しないといけません。
テスト問題を作る手順
実際にテスト問題を作る手順を確認しますと、「指導内容や学習内容をリストアップすること」、「実際の指導ではどのように教えたかを確認すること」、「問題の形式を決定すること」、「難易度や採点の方式を確認すること」の四つに大きく分かれています。このうち二番目の「実際の指導ではどのように教えたかを確認する」は、意外に盲点になっています。例えば「覚えなさい。」と言って生徒たちに示した内容なのか、「理解しなさい。」と言ったのか。それとも「分かるように、見分けがつくようにしてください。」と言ったのかを確認する必要があります。
例えば社会科の歴史の先生が「年号を覚えなさい。」ということを一言も言わないでいきなり年号を書かせても、生徒は大体できないわけです。われわれは何かを覚えたときに、その情報をどうやって後で引っ張り出すかも含めて覚えているのです。括弧の中に穴埋めができるような記憶をするのか、それとも、二つあってこちらが正しいということを見分けられる記憶をするのかは、覚えるときに判断しているわけです。ですから、覚えたときと違う引っ張り出し方をする出題をしてしまうと予想以上にできなくなってしまうのです。
テスト方法の分類
テスト方法には、正解がはっきり決まる解答方式と、論文体テストや問題場面テストのように、正解がはっきりあるわけではなく、先生の方に正解の基準があって、そのあるレベルを超えたら正解とする回答方式があります。別の言い方をしますと、誰が採点をしても同じ結果になるわけではないタイプと、はっきりと正解の基準が決まっているものの二つがあります。
テスト項目の形式と特徴
テスト方法として、「再生法」「真偽法」「組み合わせ法」「配列法」「多枝選択法」などがありますが、その利点や欠点をまとめてみました。それぞれの利点に合わせてテストを作っていくことが必要です。
「再生法」
「再生法」とは、括弧の中に穴埋めをするようなパターンの出題です。利点は、記憶が正確かどうかを知ることができることです。
しかし、括弧の中の穴埋めで、単語を入れるという形しか使わなければ、高度な内容を測定できなくなります。そのためには、文章で書く、あるいはワンセンテンスぐらいで解答する形式も必要になってくると思います。その場合は、やはり、採点の客観性が大きな欠点になってきます。
適用上の注意ですが、もし再生法を使う場合には、正解が唯一になるかどうかを十分検討してください。
この「正解が唯一になる」という点で、言うまでもないですが十分な注意を払ってください。また、唯一の正解にするためには、設問の文、個々の問題の文の双方を点検し、子どもたちが誤解しないような表現を使ってください。
たとえばわれわれが公的な機関の問題を作るときには、選択枝の中で「最も妥当なものはどれか。」という表現になっている場合が多いです。ここで言っている「正解」は、「正しい解」の意味なのか、それとも「最も妥当」なものなのかというあたりの違いは、やはり十分意識しておいていただきたいと思います。
「真偽法」
真偽法は、「マルかバツか」、あるいは「はいかいいえ」のような形で、採点の客観性が高く、問題を沢山作ることができます。
しかし、出題内容は正誤がはっきり決まるものでないと作れないという大きなネックがあります。さらに、正答の確率は二分の一です。誰がやっても、半分は合うという問題ですから、そのことをいつも念頭に置かなければいけません。二分の一の確率で正答できる問題が一問合っているのと、四分の一の確率のものと、どちらも一点ずつで足していいのかという問題も起こってくるのです。つまり、必要に応じて、一つ一つの問題が解けたときの重みを調整しなければならなくなります。
適用上の注意は再生法と同じで、出題内容は絶対に正しい内容のみと、項目数を多くすることです。
「組み合わせ法」
組み合わせ法は、例えば一方に都道府県があって、もう一方に何かその県の代表的な産物があって、それらをつなぎなさいという問題です。これは採点の客観性が高く、多くの内容を測定できます。
しかし、それに見合った問題の内容がどうしても限られてしまいます。
双方の関係を等質にすることも大切です。例えば片方が抽象度がとても高くて、もう片方はとても具体的だったとすると、レベルがそろわなくなる可能性があります。組み合わせ法は、それがふさわしいと判断しない限りは使わない方がいいと思います。
「配列法」
配列法は、文章、あるいは事項に順序がある概念の順序関係を測定するものです。順序を理解することがどうしても必要だという内容に使われるタイプです。
よくあるのは、「この並べ方でもいいではないか。」のように、正答がいろいろと出てきてしまうことで、本当に正答が正答なのかの十分な確認が必要であると思います。
「多枝選択法」
多枝(多肢)選択法はいろいろな意味で最も妥当性や信頼性が高い形式といわれています。採点の客観性が高く、かなり複雑な能力も測定できるので、世界中のありとあらゆる公的機関が行っているテストは、ほぼ多枝選択法で、プラス自由記述形式を併用するというのが多いです。
ただ、最良の方法といっても、誤答の選択枝の作り方がかなり難しい
という問題点があります。
問題項目数と選択枝の数と信頼性係数(予想範囲)の関係
まず、選択枝(肢)を幾つぐらいにしたらよいのでしょうか。
信頼性係数という、テストがどのぐらい再現性があるかということを数量で表す数値があります。一が最高で、大体〇・八を超えればとても信頼できるテストだといえますが、実は選択枝の数と問題の数で理論的に最低限どのぐらいの信頼性係数が得られるのかということが計算されています。
例えば選択枝が四つとなると、信頼性係数は〇・七〇〜〇・八六、五〇問ですと、〇・七四〜〇・八九というかなり高いレベルの信頼性が得られます。それに対し、例えば選択枝二つというのは実は五〇問やっても〇・八のレベルを超えず、そんなに信頼性が高くなりません。問題数を増やすのは労力を投入する割に、こと信頼性という点ではそれほど改善はされないという事実を知っておいてください。
コストと時間といろいろなバランスを考えると、最適なところはちょうど四〇〜五〇問、選択枝が四つか五つと考えていてください。
肥田野直 心理学研究法七 テストⅠ(東京大学出版会(一九七二)より)
さて、「良い選択枝にするには?」ということで、幾つか肥田野直先生の心理学研究法のテストの中の例をお話しします。
例えば、問題が「夏と冬では、正午ごろ影の長さがちがう、なぜか。」とあって、選択枝に「1.太陽の緯度がちがうから。」「2.太陽の経度がちがうから。」とあるのは、子どもたちに不当にたくさん読ませる可能性が高く、見ただけでやる気を失わせてしまいます。
でも「夏と冬では、正午ごろの影の長さがちがうのは、太陽の〜がちがうからである。」と問題を変えれば、測定する内容は全く同じで、すっきりしていて、子どもたちのやる気を高めます。原則は、選択枝は短くすることで、短くて同じ内容が測定できるならばそれに越したことはないのです。
同じような例で、「次の首都のうち、ワシントンより北にない首都はどれか。」とあります。問題文に否定文を入れるときにはよほど注意しないといけません。「北にない」は「南にある」と書けば済んでしまう
ことです。
ちなみに、多枝選択法で選択枝を四個作るときには、多くの場合、最初に正解を作るはずです。そして不正解を作るときには正解の反対の用語を入れたり、関係ないものを入れたりします。あと二つ選択枝が必要だ、となって、正解の一部分を取り入れるようにすると、必ず文は長くなっていくのです。そうなると、生徒の側は、設問の内容がよくわからなくても、問題文の長さや文の自然さなどが手がかりになって、正解の候補を絞り込むことができます。やはり、問題文を作成したら、それを読んでみて、流れが自然かどうかを確認してみてください。
さらに、次の例ですが、「手紙を書くときには、字はじょうずでなくとも、『1.むずかしく』『2.ていねいに』『3.はやい』『4.かんたんに』きちんと書くようにしよう。」とあります。これは「3」の「はやい」を「はやく」としないと文法的に間違いです。テストを作るときには、センテンスを全部読んでみてく
ださい。
次の例は文章がないのですが、「うえの文に題を付けるとしたら、つぎのうちどれがもっともよいですか。」という問題に対して、「1.水と生活」「2.水と私たち」「3.水の利用」「4.水の働き」「5.うえのどれでもない」という選択枝があります。この正解は5番ですよね。人によって正解の見解が違うからです。
しかし同じような「以上のうちいずれでもない」という言い方をしている問題でも三角形の面積を選択枝の中から答える場合は別です。先ほどとの決定的な違いは、答えがはっきりと出るということです。
正解の見解が人によって違うものは選択問題に向かないので、気をつ
けていただきたいと思います。
テスト結果の分析方法
テスト問題の特性を分析することに関して、「正答率」、「P曲線」、「問題ごとの注意係数」についてお話しします。これらは、三つ大きな特徴があります。一つはテスト問題がよいかどうかの分析をすることです。もう一つは、クラス全体として、どんな特徴があるのかを分析することです。そして、もう一つは個々の生徒の学習の状態、理解の状態を分析するという、この三つの視点で見ることができます。テスト問題の特性は、「正答率」、「P曲線」、「問題ごとの注意係数」を見てください。それから、クラスの特徴というのは、「S曲線」と「P曲線」のパターンを、それから、個々の生徒の特徴を分析するのに、「個人の正答率」、「S曲線」、「生徒ごとの注意係数」というものがあります。
これ以外に、このS—P表のよい点はいろいろあるのですが、私が大きなメリットだと思うのは、少人数の学校、少人数のクラスであっても十分これが使えるということです。十人いれば十分です。子どもの特徴を知るという上では十分なのです。
S—P表(Student-problem table)とは?
次の佐藤隆博先生の本に載せられているSーP表の例を見てください。
正答が1で、誤答を0として、項目で正答が高い順に左から右へ並べていきます。そして、テストの得点が高い順に生徒を上から下へ並べていく形で正答と誤答とのパターンを見ると、表の左の方が問題が易しくて、表の上の方が正答率が高い子どもたちですから、左側の上に1がぎっちりとあるはずです。そして、右側の下の方に0がたくさん密集します。つまり、易しい問題ほど正答が多く、難しい問題は正答が少ないことを意味します。
しかし、中にはみんなができていない問題ができていて、みんなができている問題ができていない生徒がいることがわかります。
例えば6番の生徒は、1、0、0、1、0と、みんなができている問題、つまり正答率が高かった問題を間違えて、正答率が低い問題を正解しています。これは、6番の子どもが、大きな考え違いをしているか、あるいは、どこかで休んでしまい、この問題の内容を学習していないと考えられます。そのような事態が予想される場合は、ちょっと呼び出して様子を聞いたり、この子どもはどうしたのだろうと注意を向けたりする必要があります。その意味で、注意係数と呼んでいます。何が起こっているのかは、その子とのかかわりで解決できます。例えば休んでいたのならば、補習を行えばよいし、大きな考え違いをしていたならば、改めて指導をします。
同じように見ていくと、11番の生徒は特殊なパターンで、四個しか合っていないのに、みんなが間違えた問題をなぜか合っているので、星が二つつくほどの要注意です。注意係数は、目安として○・五というのがあるのですが、このラインを境にして0と1がどのぐらい逆転しているかが目安です。多少逆転があるのは不思議ではないのですが、この6番の生徒や11番の生徒のように半分以上逆転しているとなると、何か大きな勘違いをしている可能性が高いと考えられます。
また、問題の側でも、正答率だけを見ては分からないことがたくさんあります。例えば、9番と1番の問題を見ていただきますと、どちらも一二人中八人が正解しているのですが、この破線のところより上で9番の問題ができなかった人は一人だけです。それに対して、1番の問題は、合計点がとても高いにもかかわらず間違う人がたくさんいます。すると、ひょっとしたら問題が分かれば分かるほど迷うような選択枝が入っていたり、あるいは先生が、余計なことを言ったのを覚えていて、それで迷ってしまったりなどの原因が考えられます。このような場合は、この問題は大丈夫だろうか?を必ず点検してみてください。場合によっては、採点から除外することもあるでしょう。どう見ても子どもたちが誤解しているならば、先生はそこでもう一回介入して教えなければなりません。
信頼性・妥当性を高めるには
他の観点からテスト結果を検討するときに、I—T相関を使うことが多いです。I—T相関とはItemとTotal、つまり一つ一つのテスト問題と合計点との相関を分析する方法です。
例えば質問1は、〇・八二二となっていて、1が一番高いです。関係が強いということは、高得点を取った人は、やはりこの問題を正解しています。合計点が低い人は不正解になっています。
そうやって見たときに、質問の2を見てください。数値が〇・一〇八となっています。一つしか合わなかった人が合っているのに、三つ合っている人はここを間違っており、通常の反対の傾向になっています。質問3は、全体で三人しか合っていないのですが、合っている人はみんな五点や四点と、ある程度得点が高くなっています。
実はIT相関係数が高いということは信頼性が高いことを表します。S—P表を使ったり、項目のよしあしをより細かく分析したりすること。そして何よりも選択枝をきちんとして、I—T相関や注意係数の問題ありの項目が減れば減るほど、結果的に信頼性、妥当性が高くなるということです。
最後に
うまく答えられない原因の何パーセントかはひょっとしたら問題に問題があるのかもしれません。それを疑うときの根拠として、先ほどの注意係数やIT相関の低さ、注意係数の高さというのを見てみるとよいでしょう。この問題ではあまりよくなかったと思われたら、翌年その単元を扱ったことに対応していただければと思います。