140 likes | 413 Views
高校生の自由英作文評価の改善方法の提案: 相関係数と信頼性係数の解釈を中心にして. 中国地区英語教育学会発表スライド 2005/06/25. 山西博之 (広島大学大学院博士課程後期). 本発表の目的. 目的1 ある高等学校の生徒が書いた自由英作文を,その高等学校の英語科教員が評価した結果を提示すること。 目的2 その結果に基づいて,どのような観点から評価を改善できるかを,簡便な方法で検討すること。. 評価における問題点.
E N D
高校生の自由英作文評価の改善方法の提案:相関係数と信頼性係数の解釈を中心にして高校生の自由英作文評価の改善方法の提案:相関係数と信頼性係数の解釈を中心にして 中国地区英語教育学会発表スライド 2005/06/25 山西博之 (広島大学大学院博士課程後期)
本発表の目的 • 目的1ある高等学校の生徒が書いた自由英作文を,その高等学校の英語科教員が評価した結果を提示すること。 • 目的2その結果に基づいて,どのような観点から評価を改善できるかを,簡便な方法で検討すること。
評価における問題点 • 評定者の問題①評価の信頼性の問題(e.g., 工藤・根岸, 2002)②評価経験の問題(e.g., 山西, 2004)→評定者トレーニングで解決可能 • 評価尺度の問題①総合的評価の問題(e.g., Hamp-Lyons, 1995)②分析的評価の問題(e.g., Bacha, 2001)→双方を組み合わせて検討することで解決可能
高校生の自由英作文評価の先行研究 • 工藤・根岸(2002)対象‥ 1校の高校生36名が書いた自由英作文1編評定者‥14名の大学院生(うち7名は英語母語話者 ではない外国人留学生)評価尺度‥印象的採点方法,全体的採点方法, 分析的採点方法(ESL Composition Profile)目的‥3種類の採点方法(評価尺度)の信頼性検討結果‥分析的採点方法が最も高い信頼性 (3名の評定者でα=0.6以上を満たす)
高校生の自由英作文評価の先行研究 • 山西(2004)対象‥1校の高校生20名が書いた自由英作文2編評定者‥①同校の英語科教員8名と他校の英語科 教員2名 ②英語科教員養成課程で教育実習経験 済みの大学生・大学院生6名評価尺度‥印象評価,総合的評価(「うまさ」と「好み」), 分析的評価(ESL Comp.と「観点別評価」)目的‥①評定者集団の違いによる評価の一貫性検討 ②印象評価と他の評価尺度の比較検討結果‥①教員の方が評価尺度内・間の一貫性が高い ②「観点別評価」と印象評価の相関がやや低い
本発表で用いるデータ • 山西(2004)のデータの一部を利用対象‥1校の高校生20名が書いた自由英作文1編評定者‥同校の英語科教員8名評価尺度‥印象評価と「観点別評価」(1~10点)評価方法‥ ①評価尺度ごとに,自由英作文と評価記入欄を 設けた評価尺度セットを作成 ②評価尺度セットごとに生徒の作文はランダム オーダー ③印象評価→分析的評価の順に評価(分析的な 評価項目の影響を印象評価に与えないため)
本発表で用いるデータ 課題‥大学入試で実施された自由英作文課題(Describe something strange or frightening you have witnessed or experienced in your life.) 表 1. 山西(2004)で用いられた「観点別評価」 ③ ① ⑤ ② ④ ⑥
評価結果(評定者) • 評定者を基準に圧縮したデータ(表2) • 評定者間の相関係数(表3) • 評定者の信頼性係数と項目分析(表4)(Excelのマクロ「因子分析アドイン」使用 http://homepage3.nifty.com/hideakim/statistics/index.html関西大学の森下英明氏作成)
評価結果(評価尺度) • 評価尺度(「観点別評価」)を基準に圧縮したデータ(表5) • 評価尺度(「観点別評価」)内の相関係数 • 評価尺度間(印象評価と「観点別評価」)の相関係数(表6) • 評定尺度の信頼性係数と項目分析(表7)(Excelのマクロ「因子分析アドイン」使用)
考察(目的1) • 本発表での課題における生徒の自由英作文を,本発表で用いた「観点別評価」を使用して,生徒が所属する高校の教員8名が評価した場合,その評定値の平均値(または合計値)を用いても十分に高い信頼性(α=0.8以上)を満たすことはできないと考えられる。 • 本発表の「観点別評価」の各項目は,項目5を除いて弁別性が高くないと考えられる。また,「観点別評価」全体と印象評価の相関(印象評価との併存的妥当性)は,十分に高いとは言えない。
考察(目的2) • 本発表で検討したような,評定者または評価尺度の相関係数や信頼性係数といった数値を検討することで,ローデータや平均値の検討以上に評価の改善(例えば,評定者トレーニングや評価尺度の作成,修正)のためのポイントが見えてくると考えられる。 • その際,特に分析的評価尺度の検討を行う場合には,外的基準として印象評価や総合的評価による評価結果を組み合わせることで,得られる情報はより多くなると考えられる。
まとめ • 本発表で行ったような検討の利点は,Excelとそのマクロを用いることで,統計パッケージを用いる必要のない簡易的な改善点の診断が可能であること,である。 • ただし,技術的な問題点は,①データを圧縮する必要があること,②さまざま要因を一度に検討することが不可能であること,である。 • この問題を解決するためには,項目反応理論(多相Rasch Model)(e.g., Sudweeksa, Reeveb, & Bradshawc, 2005)や一般化可能性理論(e.g., 山西, 印刷中)などの統計手法の援用が有効である。
参考文献 Bacha, N. (2001). Writing evaluation: What can analytic versus holistic essay scoring tell us? System, 29, 371-383. Hamp-Lyons, L. (1995). Rating nonnative writing: The trouble with holistic scoring. TESOL Quarterly, 29, 759-765. Jacobs, H. L., Zinkgraf, S. A., Wormuth, D. R., Hartfiel, V. F., & Hughey, J. B. (1981). Testing ESL composition: A practical approach. Rowley, MA: Newbury House. 工藤洋路・根岸雅史 (2002). 「自由作文の採点方法による採点者間信頼性について」 Annual Review of English Language Education in Japan (ARELE), 13, 91-100.
参考文献 Sudweeksa, R. R., Reeveb S., & Bradshawc, W. S. (2005). A comparison of generalizability theory and many-facet Rasch measurement in an analysis of college sophomore writing. Assessing Writing, 9, 239-261. 山西博之 (2004). 「高校生の自由英作文はどのように評価されているのか-分析的評価尺度と総合的評価尺度の比較を通しての検討-」 JALT Journal, 26, 189-205. 山西博之 (印刷中). 「一般化可能性理論を用いた高校生の自由英作文評価の検討」 JALT Journal,27.