Reading a Paper on Topic 2
発音のカナふりについて
第8回は「スピーキング力の測り方」に関わる、既修了生の修士論文をもとに議論を行った。
【修士論文:Investigating Reliability of Holistic Assessment ? Role Play Tests for Japanese EFL Learners’ Speaking Ability ?】
スピーキング力を測るとき、全体的評価は妥当か?
【目的】
@研究者が発明したロールプレーテストにおいて、全体的評価と分析的評価の関係を調べる。
→18個の録画されたロールプレーテストを16人の英語教師に全体的評価と分析的評価、両方を行ってもらったところ、二つの評価の平均の相関は高く(r=0.8168)、絶対的評価の信頼性をサポートした。研究者は、二つの評価の相関が高ければ、より実用的な(評価者の負担が少ない)全体的評価を用いるべきであると述べていた。上の結果から、この仮説は立証された。
A何段階評価(3、5、6、10段階)を用いれば、評価の不安定さやを軽減させられるかを調べる。
→上と同じ18個のロールプレーテストを、152人の英語教師に3、5、6、10段階評価のどれかで評価してもらったところ、段階(Scale)が多いほどAlpha coefficientsは高いことがわかった(統計的優位な差はなかったが)。研究者は、Scaleが少ないほど不安定さは少なく信頼性があると仮説を立てていたのだが、実際の結果はその逆となってしまった。これは、被験者の数が少なかったこと、それぞれの評価段階を用いた被験者の数がばらばらだったこと、それぞれのデータが別の場所・別の被験者が行ったものであったこと、などによる結果などではないかと研究者は述べている。また、一人一人の生徒がもらった評価を比べてみると、Scaleが多い(10段階評価)と評価の不安定さはあがるが、少なすぎる(3段階評価)と「良い」「悪い」とざっくり評価することはできるが、「悪い」と「良くはないが悪くはない」生徒の違いをみることはできないということがわかった。この結果を踏まえて、どの評価項目が一番良いかはわからなかったが、5段階評価以上のものを採用したほうがすべての学習者のスピーキング力の違いを測ることができるのではないかということがわかった。
◆議論した内容◆
1)Scaleの違いによって評価が変わるのは面白いが、一人の人の中でそんなにぶれるものなのだろうか?
2)全体的評価と分析的評価の間で、7週間間があったが、本当にその7週間で忘れてるだろうか?
3)分析的評価には4つの項目(発音、適切さ、非言語コミュニケーション力、タスクの完成)があったが、なぜこの4つなのか?
→適切さって何?
→アイコンタクトってスピーキング力?
→タスクという項目も、ロールプレーじゃなかったら変わるのでは?
4) スピーキングはInteractiveなものだけど、テストは必ずしもそうあるべき必要はあるのか?
5) この研究では生徒を知らない人が評価をしているが、普段は生徒のことをよく知っている教師が評価するので、全体的評価だと生徒を甘く見たり厳しく見たりしてしまうのでは?
6) 評価者によって評価の相関にばらつきがあるのはなぜ?全体的評価をするとき、分析的評価の4つの項目以外のものを考慮してしまったのか?
7) スピーキング力って何?
◆金谷先生のコメント:
・研究はEngineeringと一緒で、色々なことを加味しながらバランスをとらなきゃならない。この研究者も、たくさん悩んだ結果ここに至ったが、私だったらこうするのに!という意見があったら議論も面白くなる。
・テストをする=普段見えないことがわかる、そうなればテストは役立つ。
・評価=価値観。人と重ならない部分ももちろんある。〜力を一つのものにしぼるのか、もしくは色々な要素を拾ってくるのか、ここには絶対にギャップがある。どういうギャップがあるのかを見てみるのが面白い。つまり、評価者の価値観を調べ、色々な人のルールを知るという研究もできるのでは。
|