自由英作文評価の改善:
Download
1 / 18

自由英作文評価の改善: 評定結果の診断的活用 - PowerPoint PPT Presentation


  • 135 Views
  • Uploaded on

自由英作文評価の改善: 評定結果の診断的活用. 第 44 回 大学英語教育学会 シンポジウム発表スライド 2005/09/10. 山西 博之 広島大学大学院. 本提案の目的. ある高等学校の生徒が書いた自由英作文を,その高等学校の英語科教員が評価した結果を用いて,自由英作文評価の「診断的」な改善方法を示すこと 具体的には,以下の 2 つの方法を扱う ①総合的評価尺度と分析的評価尺度の評定結果を比較する, Microsoft Excel でも検討可能な方法 ②分析的評価尺度の評定結果を,評価に関わる要因ごとに検討する一般化可能性理論を用いた方法. 評価における問題点.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' 自由英作文評価の改善: 評定結果の診断的活用' - lloyd


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

自由英作文評価の改善:評定結果の診断的活用

第44回 大学英語教育学会シンポジウム発表スライド

2005/09/10

山西 博之

広島大学大学院


本提案の目的

  • ある高等学校の生徒が書いた自由英作文を,その高等学校の英語科教員が評価した結果を用いて,自由英作文評価の「診断的」な改善方法を示すこと具体的には,以下の2つの方法を扱う

  • ①総合的評価尺度と分析的評価尺度の評定結果を比較する,Microsoft Excelでも検討可能な方法

  • ②分析的評価尺度の評定結果を,評価に関わる要因ごとに検討する一般化可能性理論を用いた方法


評価における問題点

  • 評価尺度の問題①総合的評価の問題(e.g., Hamp-Lyons, 1995)②分析的評価の問題(e.g., Bacha, 2001)

     →実用性と妥当性の兼ね合いを考慮に入れて,いかに分析的な評価を改善するか?

  • 評定者の問題①評価の一貫性の問題(e.g., 工藤・根岸, 2002)②評価経験の問題(e.g., 山西, 2004, 印刷中)

     →実用性と信頼性の兼ね合いを考慮に入れて,いかに分析的な評価を改善するか?

(妥当性×実用性)

(信頼性×実用性)


改善点を見いだす方法

  • ①評価の妥当性と実用性の検討・幅広い要因を汲み取ることができる総合的評価 と比較することで,分析的評価の項目内容を検討

     →本提案では,表計算ソフトや統計ソフトを用いた相関分析を用いた方法を提示する(方法①)

  • ②評価の信頼性と実用性の検討・項目数(評定者数)を増減,または項目内容を変更した場合の信頼性の検討

     →本提案では,一般化可能性理論を用いた検討の方法を提示する(方法②)


本提案で用いるデータ

  • 山西(2004)のデータの一部を利用・対象‥1校の高校生20名が書いた自由英作文・評定者‥同校の英語科教員8名・評価尺度‥総合的評価と分析的評価(Jacobset al.(1981)のESL Composition Profile(資料図1)  のレンジを変えたもの‥Content, Organization, Vocabulary, Language use, Mechanicsの5項目)・評定値のレンジ‥1~10点(資料図2)  (poor = 1-2点,fair = 3-5点,good = 6-8点,very good = 9-10点)


本提案で用いるデータ

・課題‥大学入試で実施された自由英作文課題(Describe something strange or frightening you have witnessed or experienced in your life.)

・評価方法‥ ①評価尺度ごとに,自由英作文と評価記入欄を  設けた評価シートを作成(資料図2) ②評価尺度セットごとに,すべての評定者において,  生徒の作文はランダムオーダー  (順序効果の影響を避けるため) ③総合的評価セット→分析的評価セットの順に評価  (分析的な評価項目の影響を総合的評価に   与えないため)


方法①(手順)

  • ①各評価項目・生徒ごとに,評定者の平均値を算出することでデータを「圧縮」(資料図3)

  • ②Microsoft Excelを用いて,相関係数を算出(資料図4)‥「分析ツール」→「相関」

  • ③分析的評価尺度内の相関係数の解釈(資料図5)

  • ④評価尺度間(総合的評価尺度と分析的評価尺度)の相関係数(総合的評価との併存的妥当性)の解釈(資料図5下段)


方法①(相関係数の解釈例)

極端に相関係数が高い(低い)項目はないため,

同様の能力を測定したり,見当外れな能力を測定

している項目はないと言える

総合的評価との相関が高いため,合計点で作文の総合的な能力を測定可能であると言える

*相関係数の大きさは,目的に応じて相対的に判断*妥当性と実用性の兼ね合いを検討する


方法①(まとめ)

  • 方法①のように評価尺度の相関係数を検討することで,ローデータや平均値の検討以上に評価の改善のためのポイントが見えてくる

  • その際,特に分析的評価尺度の検討を行う場合には,外的基準として総合的評価の評価結果を組み合わせることで,得られる情報はより多くなる

  • 方法①は簡便な方法であるが,技術的な問題点は,①データを圧縮する必要があること,②さまざま要因を一度に検討することが不可能であること,である


方法②(一般化可能性理論について)

  • 一般化可能性理論(Generalizability Theory)は,評価の改善に適しており,以下の2つの段階からなる

  • ①評価に関わる要因(変動要因:本提案では,評価項目,評定者,生徒の主効果とそれらの交互作用)が評定値に与える影響の大きさ(分散成分)を推定する段階(Generalizability Study‥G-Study)

  • ②分散成分の推定値を用いて,信頼性の指標である一般化可能性係数を算出したり,評価項目数や評定者数を増減させた場合の一般化可能性係数の変動のシミュレーションを行う段階(Decision Study‥D-Study)

  • より詳しくは,「参考文献(一般化可能性理論)」参照


方法②(手順)

  • ①分散成分を推定可能なソフトウェア(SPSS Advanced ModelsやGENOVA)用にデータ整形(資料図6)‥データの「圧縮」の必要なし

  • ②SPSS Advanced Modelsを用いて,分散成分推定値を算出(資料図7)‥「分析」→「一般線型モデル」→「分散成分」→ 得点を「従属変数」,生徒,評定者,項目を「変量因子」

  • ③変動要因の主効果,交互作用を解釈(資料図8)

  • ④計算式(1)に値を代入して一般化可能性係数を算出

  • ⑤評定者数・評価項目数のシミュレーション(資料図9,10)


方法②(分散成分推定値の解釈)

「誤差」以外の推定値の合計で各推定値を割って百分率を算出

百分率

生徒(p) … 5.6%

評定者(r) …46.9%

項目(i) … 5.3%

生徒×評定者(p×r) …19.8%

生徒×項目(p×i) … 2.2%

評定者×項目(r×i) … 8.6%

生徒×評定者×項目(p×r×i)…11.6%

「評定者(r)」から評価の厳しさの違いが大きかったこと,「生徒×評定者(p×r)」から評定値の与え方のばらつきが比較的大きかったことが分かる


方法②(項目数変化のシミュレーション例)

もともとの5項目を超えると,たとえ10項目でも一般化可能性係数はあまり向上しない

3項目であってもG = 0.60を超えるため,

3項目の尺度でもそれなりに高い信頼性を

得ることが可能であると言える

*信頼性と実用性の兼ね合いを検討する


方法②(まとめ)

  • 一般化可能性理論を用いることで,どの程度の信頼性で評価が行われたのか検討可能である

  • その際,評定者,評価項目,生徒といった変動要因ごとの,評価に対する影響の大きさを検討することが可能である

  • また,評定者数,評価項目数を変化させることでシミュレーションを行うことが可能であるため,今後の評価の改善のためのポイントを把握することが可能である


本提案のまとめ

  • 実際に行った自由英作文の評定結果を用いることで,実用性を考慮に入れた上での妥当性や信頼性の検討を,改善のポイントを明確にしながら診断的に行うことが可能である

  • 本提案では,方法①において実用性と妥当性を検討し,方法②において実用性と信頼性を検討したが,両者を組み合わせることで,効果的に評価の改善を行うことが可能であると言える

  • 各方法の詳しい手順は下記URLを参照http://home.att.ne.jp/banana/yamanishi/kenkyu.html


参考文献

Bacha, N. (2001). Writing evaluation: What can analytic versus holistic essay scoring tell us? System, 29, 371-383.

Hamp-Lyons, L. (1995). Rating nonnative writing: The trouble with holistic scoring. TESOL Quarterly, 29, 759-765.

Jacobs, H. L., Zinkgraf, S. A., Wormuth, D. R., Hartfiel, V. F., & Hughey, J. B. (1981). Testing ESL composition: A practical approach. Rowley, MA: Newbury House.


参考文献

工藤洋路・根岸雅史 (2002). 「自由作文の採点方法による採点者間信頼性について」 Annual Review of English Language Education in Japan (ARELE), 13, 91-100.

山西博之 (2004). 「高校生の自由英作文はどのように評価されているのか-分析的評価尺度と総合的評価尺度の比較を通しての検討-」 JALT Journal, 26, 189-205.

山西博之 (印刷中). 「一般化可能性理論を用いた高校生の自由英作文評価の検討」 JALT Journal,27.


参考文献(一般化可能性理論)

Brennan, R. L. (1992). Elements of generalizability theory (Rev. ed.). Iowa City: ACT Publications.

池田央(1994). 『現代テスト理論』朝倉書店.

Shavelson, R. J., & Webb, N. M. (1991). Generalizability theory: A primer. Newbury Park, CA: Sage Publications.

山森光陽 (2002). 「一般化可能性理論を用いた観点別評価の方法論の検討」 STEP Bulletin, 14, 62-70.


ad