660 likes | 852 Views
日本語の学術共通語彙(アカデミック・ワード)の抽出と妥当性の 検証. 松下 達 彦 Victoria University of Wellington 大学院生 tatsuma2010@yahoo.co.jp. * Web 版発表要旨の訂正 =予稿集は正しいです 本発表の概要. 日本語 の学術共通語彙を抽出 妥当性を検討 1.「学術共通語彙」とは 2.研究目的 3 .研究方法 4 .結果および考察 5 .今後の課題、まとめ. 1.学術共通語彙とは. 一般的テキストでの使用率に比べて, 学術的なテキストで より高い使用率を占める語彙
E N D
日本語の学術共通語彙(アカデミック・ワード)の抽出と妥当性の検証日本語の学術共通語彙(アカデミック・ワード)の抽出と妥当性の検証 松下 達彦 Victoria University of Wellington 大学院生 tatsuma2010@yahoo.co.jp
* Web 版発表要旨の訂正 =予稿集は正しいです本発表の概要 • 日本語の学術共通語彙を抽出 • 妥当性を検討 1.「学術共通語彙」とは 2.研究目的 3.研究方法 4.結果および考察 5.今後の課題、まとめ
1.学術共通語彙とは • 一般的テキストでの使用率に比べて, 学術的なテキストでより高い使用率を占める語彙 • 分野を問わずに高い使用率 ⇔専門語彙:特定の分野においてのみ高い使用率 • 一般的な基本語彙と専門語彙の中間に位置する語彙 • 大学留学生にとっては,初級の基本的語彙に次いで重要な語彙
先行研究 • 類似の語群の存在の指摘 • 「はざま表現」(札野・深澤1995) • 「日常語に使用される語彙と専門用語との間に位置する専門分野を超えた学術的な語彙」(深尾2001) • 「基礎専門語」(水元・池田2003) ・・・学術共通語彙の全面的抽出はしていない (角2010、バトラー後藤2010 は後述) • 英語教育では抽出もされ、幅広く利用されている • Academic Word List (Coxhead, 2000) University Word List (Xue & Nation, 1984)
2.研究目的学習負担軽減の重要性 • 第二言語・外国語語彙学習の負担は非常に大きい • 中級以降,頻出語句が減少 • 最頻出1000語では60~70%に達するテキストカバー率, それ以降は1000語で数パーセント以下 「中級の壁」 (国立国語研究所1962など) • 目的に即した語彙学習が重要 それなしでは学習効率が低下、挫折の原因にも
効率的な学術テキストの語彙学習 • 目的が限られる学習者 初めから専門語彙を学ぶほうが効率的か (Ward, 1999; Hyland & Tse, 2007) • (進学準備中など)専門を絞る前の段階 学術共通語彙を効率的に学ぶことが有効 • 田地野ほか(2007) -カリキュラムの段階に応じた語彙を想定 例)学術共通語彙文系共通語彙経済学用語 • 本研究もこの考え方を踏襲
留学生対象の日本語語彙リスト • これまでにもいろいろ(国立国語研究所1982にまとめ) • 初級語彙や専門語彙を含み 学術語彙に絞られたものではない • 選定方法も主観を交えたものがほとんど • 学術共通語彙的な性格を目指した語彙リスト • 角(2010)「学術基本用語集」 -大学受験用「現代国語」の語彙集に基づく AWLの意義に言及,しかし難解な低頻度語を多数採録 • バトラー後藤(2010)「小中学生のための日本語学習語リスト」 -AWLと類似の方法、児童・生徒対象,主観判定も採用 など • 方法も対象も異なる • 方法や妥当性の検証に計量的裏付けが乏しい
学習・教育用の語彙リストの評価 • 効率性の評価:(単位語数あたりの)テキストカバー率 = (単位語数あたりの)延べ語数の使用率の合計 =そのリストの語が,対象テキストで, 他の語彙より高い割合で出現するか • テキスト理解では,カバー率を上げて未知語の密度を減らすことが最も重要な要素の一つ (Hu & Nation, 2000など) (高田2006 にまとめ)
本研究の目的 • 幅広い分野の学術的テキストで一般的テキストより高いカバー率を示す語彙リストを作成 • カバー率の検証 妥当性,有用性を検証 留学生などの語彙学習負担の軽減 より有効な語彙学習カリキュラムの開発
3.研究方法対象テキストと計数単位 • 『現代日本語書き言葉均衡コーパス』(BCCWJ) モニター公開データ(2009年版)(国立国語研究所2009) • 書籍部分約2800万語のテキスト • 計数単位(語の区切り):UniDicの短単位 (ほぼ形態素レベル) • 形態素解析器:MeCab(工藤2006) • 解析用辞書:UniDic(伝ほか2009) (UniDicの出力をAntWordProfilerで使用するため, テキストエディタ上でマクロを作成して加工)
テキストの分類 • 学術領域の分類 • 学術領域の分類:科研費や留学生数統計の分類を参照 • 日本十進分類法などを手がかりに 人文系,社会系,理工系,生物・医学系の4領域に分類 • 専門(学術)テキストと一般テキスト • Cコード:出版社がつけるコード(千の位が販売対象コード) • 各領域について Cコード 3000番台=専門テキスト(約300万語) その他=一般テキスト(約2500万語)
専門(学術)テキストのタイトル例 言語分野 • 続昭和(→平成)日本語方言の総合的研究 • 国際コミュニケーションと国際関係 • 日英対照動詞の意味と構文 • 英語から日本が見える • 漢字のいい話 • 国語文字史の研究 • 「た」の言語学 • ことばの歴史 • 京阪系アクセント辞典 • 日本語モダリティの史的研究
特徴語の抽出(1) • AntConc (Anthony, 2007) のkeyness 機能を利用 • 対象テキスト:人文系,社会系,理工系,生物・医学系 4領域の各専門テキスト(計約290万語) • 参照テキスト:全領域の一般テキスト約2500万語 +「Yahoo知恵袋」約500万語(計約3000万語) • 対数尤度比 (log-likelihood ratio) (Dunning, 1993) • (正規分布などの)特定の分布を要求しない • テキストの大きさが異なる場合にも比較可能な値を返す (Leech, Rayson, & Wilson, 2001) • 適度な割合で特徴語を抽出 (Chujo & Utiyama, 2006)
特徴語の抽出(2) • AntConc (Anthony, 2007) のkeyness 機能を利用 • 対数尤度比が3領域以上で正の値すべて抽出 • 文理両面において使用される語を抽出するため • 旧日本語能力試験4級語彙、20000語より低いレベルの語は除外(予稿集に書き忘れました) • 「日本語を読むための語彙データベース」 (松下2011,ダウンロード可)の留学生用語彙ランクで 初級から超上級に分類 (ランク付けの方法については松下(2010)参照)
カバー率の検証方法 • AntWordProfiler(Anthony, 2009)を利用 • カバー率の検証 一般テキスト(会話,文芸書など) < 専門テキスト となるかどうか • 抽出時に使用したコーパスとテストコーパス • テストコーパス =学術共通語彙の抽出の際に使用していないコーパス
テストコーパス 予稿集p.245-246 • (MC) 会話:名大会話コーパス(日本語母語話者同士の雑談),約113万語 • (BS) 一般書:『現代日本語書き言葉均衡コーパス』2009年モニター版(国立国語研究所2009)「ベストセラー」部分(文芸テキスト数が53%,専門テキストなし),約230万語 • (PC) 一般書:「日英対訳文対応付けデータ」(内山・高橋2003)の日本語部分(文芸書,エッセイなど),210万語 • (JN) 新聞:日英新聞記事対応付けデータ (JENAAD) (Utiyama & Isahara, 2003)の日本語部分(1989-2001の「読売新聞」記事)約568万語 • (IS) 人文・社会系専門テキスト:新屋・松下編(未公刊)『日本語上級読解演習 国際学アラカルト』本文部分,約4万語 • (TB) 社会系専門テキスト:「中・上級社会科学系読解教材テキストバンク」(東京外国語大学留学生日本語教育センター1998)本文部分,約19万語 • (SS) 社会系専門テキスト:『留学生のための専門講義の日本語』(名古屋大学 国際化拠点整備事業2010 )全9冊中,社会系の3冊分の講義テキスト部分,約5万語 • (TN) 理工系専門テキスト:『留学生のための専門講義の日本語』(同上)全9冊中,理工系の5冊分の講義テキスト部分,約7万語 • (BM) 生物・医学系専門テキスト:『留学生のための専門講義の日本語』(同上)全9冊中,生物・医学系の1冊分の講義テキスト部分,約1万語
4.結果および考察抽出結果 • 学術共通語彙リスト (JAWL = Japanese Academic Word List) 0~Ⅷ9レベル,計2591語(表1) 予稿集p.246 • 中級の JAWLⅠ:学習・教育上,最も重要なリスト • 初級には学術共通語彙の数も少ない • JAWLⅠ559語 Academic Word List (Coxhead, 2000)570語に近い語数 • カバー率もAWLに非常に近い 抽出時使用の学術コーパスのカバー率 AWL: 10.0%JAWLⅠ: 11.1%
カバー率の検証(テストコーパス) • テストコーパス: 特徴語抽出時に使用していないコーパス • 学術テキストでのカバー率 AWL: 8.5% (Coxhead, 2000)9.3~11.1% (Hyland & Tse, 2007) JAWLⅠ: 9.7~11.1%一貫して高いカバー率(表2) 予稿集p.247 • 非学術テキストでのカバー率 AWL 創作テキスト: 1.4% JAWLⅠ 一般書(文芸書,エッセイなど):3%前後 会話:1%未満 • ただし,単純な比較はできない • AWLは英語のリスト • AWLは抽出時に基本語彙集 GSL (West, 1953)の2000語を除外 • AWLは “word family” 単位だが,JAWLは「語彙素」単位
サンプル・テキスト(Wikipedia 「文化人類学」より) 人類学は一般に、人類の進化や生物学的側面を研究する自然人類学と、人類の社会的・文化的側面を研究する文化人類学(Cultural Anthropology)あるいは社会人類学(Social Anthropology)に大別される。文化人類学の名称はアメリカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類学」の名称が用いられてきた。他のヨーロッパ諸国や日本においては民族学(英語圏でのEthnology、ドイツ語圏でのEthnologie)の名称も用いられている(民族学を一分野とする場合も多い)。民俗学(Folklore)もまた隣接分野として共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた生物学的側面から捉える。それに対して、文化人類学は自然の対義としての文化から人類を研究しようとする学問分野である。文化とは、進化の過程を経て形成された遺伝的な形質のことではなく、人類が後天的に学習した行動パターンや言語、人工物の総体を指している。したがって文化人類学の隣接科学には言語学と考古学があり、アメリカの学部ではこれらの学問に加えて自然人類学をあわせて総合的に教育されている。
初級語彙57.7% (旧日能試4級+3級 JAWL 06.8%含む) 人類学は一般に、人類の進化や生物学的側面を研究する自然人類学と、人類の社会的・文化的側面を研究する文化人類学(CulturalAnthropology)あるいは社会人類学(SocialAnthropology)に大別される。文化人類学の名称はアメリカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類学」の名称が用いられてきた。他のヨーロッパ諸国や日本においては民族学(英語圏でのEthnology、ドイツ語圏でのEthnologie)の名称も用いられている(民族学を一分野とする場合も多い)。民俗学(Folklore)もまた隣接分野として共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた生物学的側面から捉える。それに対して、文化人類学は自然の対義としての文化から人類を研究しようとする学問分野である。文化とは、進化の過程を経て形成された遺伝的な形質のことではなく、人類が後天的に学習した行動パターンや言語、人工物の総体を指している。したがって文化人類学の隣接科学には言語学と考古学があり、アメリカの学部ではこれらの学問に加えて自然人類学をあわせて総合的に教育されている。
初級語彙(JAWL0含む) +JAWLⅠ 20.4% 人類学は一般に、人類の進化や生物学的側面を研究する自然人類学と、人類の社会的・文化的側面を研究する文化人類学(CulturalAnthropology)あるいは社会人類学(SocialAnthropology)に大別される。文化人類学の名称はアメリカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類学」の名称が用いられてきた。他のヨーロッパ諸国や日本においては民族学(英語圏でのEthnology、ドイツ語圏でのEthnologie)の名称も用いられている(民族学を一分野とする場合も多い)。民俗学(Folklore)もまた隣接分野として共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた生物学的側面から捉える。それに対して、文化人類学は自然の対義としての文化から人類を研究しようとする学問分野である。文化とは、進化の過程を経て形成された遺伝的な形質のことではなく、人類が後天的に学習した行動パターンや言語、人工物の総体を指している。したがって文化人類学の隣接科学には言語学と考古学があり、アメリカの学部ではこれらの学問に加えて自然人類学をあわせて総合的に教育されている。
初級語彙(JAWL0含む) +JAWLⅠ計78.1% 人類学は一般に、人類の進化や生物学的側面を研究する自然人類学と、人類の社会的・文化的側面を研究する文化人類学(CulturalAnthropology)あるいは社会人類学(SocialAnthropology)に大別される。文化人類学の名称はアメリカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類学」の名称が用いられてきた。他のヨーロッパ諸国や日本においては民族学(英語圏でのEthnology、ドイツ語圏でのEthnologie)の名称も用いられている(民族学を一分野とする場合も多い)。民俗学(Folklore)もまた隣接分野として共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた生物学的側面から捉える。それに対して、文化人類学は自然の対義としての文化から人類を研究しようとする学問分野である。文化とは、進化の過程を経て形成された遺伝的な形質のことではなく、人類が後天的に学習した行動パターンや言語、人工物の総体を指している。したがって文化人類学の隣接科学には言語学と考古学があり、アメリカの学部ではこれらの学問に加えて自然人類学をあわせて総合的に教育されている。
初級語彙(JAWL0含む)+JAWLⅠ+JAWLⅡ6.4% 人類学は一般に、人類の進化や生物学的側面を研究する自然人類学と、人類の社会的・文化的側面を研究する文化人類学(CulturalAnthropology)あるいは社会人類学(SocialAnthropology)に大別される。文化人類学の名称はアメリカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類学」の名称が用いられてきた。他のヨーロッパ諸国や日本においては民族学(英語圏でのEthnology、ドイツ語圏でのEthnologie)の名称も用いられている(民族学を一分野とする場合も多い)。民俗学(Folklore)もまた隣接分野として共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた生物学的側面から捉える。それに対して、文化人類学は自然の対義としての文化から人類を研究しようとする学問分野である。文化とは、進化の過程を経て形成された遺伝的な形質のことではなく、人類が後天的に学習した行動パターンや言語、人工物の総体を指している。したがって文化人類学の隣接科学には言語学と考古学があり、アメリカの学部ではこれらの学問に加えて自然人類学をあわせて総合的に教育されている。
初級語彙57.7% (JAWL0含む) +JAWLⅠ20.4%+JAWLⅡ6.4% 計84.5% 人類学は一般に、人類の進化や生物学的側面を研究する自然人類学と、人類の社会的・文化的側面を研究する文化人類学(CulturalAnthropology)あるいは社会人類学(SocialAnthropology)に大別される。文化人類学の名称はアメリカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類学」の名称が用いられてきた。他のヨーロッパ諸国や日本においては民族学(英語圏でのEthnology、ドイツ語圏でのEthnologie)の名称も用いられている(民族学を一分野とする場合も多い)。民俗学(Folklore)もまた隣接分野として共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた生物学的側面から捉える。それに対して、文化人類学は自然の対義としての文化から人類を研究しようとする学問分野である。文化とは、進化の過程を経て形成された遺伝的な形質のことではなく、人類が後天的に学習した行動パターンや言語、人工物の総体を指している。したがって文化人類学の隣接科学には言語学と考古学があり、アメリカの学部ではこれらの学問に加えて自然人類学をあわせて総合的に教育されている。
初級・JAWLⅠ・Ⅱ84.5%+その他中級語彙 11.7%計96.2% 人類学は一般に、人類の進化や生物学的側面を研究する自然人類学と、人類の社会的・文化的側面を研究する文化人類学(CulturalAnthropology)あるいは社会人類学(SocialAnthropology)に大別される。文化人類学の名称はアメリカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類学」の名称が用いられてきた。他のヨーロッパ諸国や日本においては民族学(英語圏でのEthnology、ドイツ語圏でのEthnologie)の名称も用いられている(民族学を一分野とする場合も多い)。民俗学(Folklore)もまた隣接分野として共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた生物学的側面から捉える。それに対して、文化人類学は自然の対義としての文化から人類を研究しようとする学問分野である。文化とは、進化の過程を経て形成された遺伝的な形質のことではなく、人類が後天的に学習した行動パターンや言語、人工物の総体を指している。したがって文化人類学の隣接科学には言語学と考古学があり、アメリカの学部ではこれらの学問に加えて自然人類学をあわせて総合的に教育されている。
初級・中級語彙 96.2% +JAWLⅢ・Ⅳ1.5%計97.7% 人類学は一般に、人類の進化や生物学的側面を研究する自然人類学と、人類の社会的・文化的側面を研究する文化人類学(CulturalAnthropology)あるいは社会人類学(SocialAnthropology)に大別される。文化人類学の名称はアメリカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類学」の名称が用いられてきた。他のヨーロッパ諸国や日本においては民族学(英語圏でのEthnology、ドイツ語圏でのEthnologie)の名称も用いられている(民族学を一分野とする場合も多い)。民俗学(Folklore)もまた隣接分野として共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた生物学的側面から捉える。それに対して、文化人類学は自然の対義としての文化から人類を研究しようとする学問分野である。文化とは、進化の過程を経て形成された遺伝的な形質のことではなく、人類が後天的に学習した行動パターンや言語、人工物の総体を指している。したがって文化人類学の隣接科学には言語学と考古学があり、アメリカの学部ではこれらの学問に加えて自然人類学をあわせて総合的に教育されている。
JAWLⅠ+Ⅱ+Ⅲ+Ⅳ28.3% 人類学は一般に、人類の進化や生物学的側面を研究する自然人類学と、人類の社会的・文化的側面を研究する文化人類学(CulturalAnthropology)あるいは社会人類学(SocialAnthropology)に大別される。文化人類学の名称はアメリカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類学」の名称が用いられてきた。他のヨーロッパ諸国や日本においては民族学(英語圏でのEthnology、ドイツ語圏でのEthnologie)の名称も用いられている(民族学を一分野とする場合も多い)。民俗学(Folklore)もまた隣接分野として共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた生物学的側面から捉える。それに対して、文化人類学は自然の対義としての文化から人類を研究しようとする学問分野である。文化とは、進化の過程を経て形成された遺伝的な形質のことではなく、人類が後天的に学習した行動パターンや言語、人工物の総体を指している。したがって文化人類学の隣接科学には言語学と考古学があり、アメリカの学部ではこれらの学問に加えて自然人類学をあわせて総合的に教育されている。
サンプル・テキスト(Wikipedia 「有機化合物」より) 有機化学は、有機化合物すなわち炭素化合物の合成、性質についての研究を目的とする化学の分野である。伝統的には二酸化炭素や一酸化炭素、炭酸などは有機化合物に含めない。大体はC−C結合かC−H結合を持つものが有機化合物である。また、ある有機化合物を炭素以外(金属元素の場合も含む)の基で置換した構造を持つ化学物質も広義の有機化合物として有機化学の対象とされる物もある。 構造有機化学、反応有機化学(有機反応論)、合成有機化学、生物有機化学などの分野がある。 100を超える元素の中で炭素の化合物だけが特に取り上げられる理由は、炭素が無限の多様性をもつ物質を作る材料になりうるからである。実際、現在知られている化合物のうち、炭素以外の元素のみからなるものは、炭素を含むものにはるかに及ばない。また生体を構成するタンパク質や核酸、糖、脂質といった化合物もすべて炭素化合物である。
JAWLⅠ18.8% 有機化学は、有機化合物すなわち炭素化合物の合成、性質についての研究を目的とする化学の分野である。伝統的には二酸化炭素や一酸化炭素、炭酸などは有機化合物に含めない。大体はC−C結合かC−H結合を持つものが有機化合物である。また、ある有機化合物を炭素以外(金属元素の場合も含む)の基で置換した構造を持つ化学物質も広義の有機化合物として有機化学の対象とされる物もある。 構造有機化学、反応有機化学(有機反応論)、合成有機化学、生物有機化学などの分野がある。 100を超える元素の中で炭素の化合物だけが特に取り上げられる理由は、炭素が無限の多様性をもつ物質を作る材料になりうるからである。実際、現在知られている化合物のうち、炭素以外の元素のみからなるものは、炭素を含むものにはるかに及ばない。また生体を構成するタンパク質や核酸、糖、脂質といった化合物もすべて炭素化合物である。
JAWLⅠ18.8% +JAWLⅡ7.8%計26.6% 有機化学は、有機化合物すなわち炭素化合物の合成、性質についての研究を目的とする化学の分野である。伝統的には二酸化炭素や一酸化炭素、炭酸などは有機化合物に含めない。大体はC−C結合かC−H結合を持つものが有機化合物である。また、ある有機化合物を炭素以外(金属元素の場合も含む)の基で置換した構造を持つ化学物質も広義の有機化合物として有機化学の対象とされる物もある。 構造有機化学、反応有機化学(有機反応論)、合成有機化学、生物有機化学などの分野がある。 100を超える元素の中で炭素の化合物だけが特に取り上げられる理由は、炭素が無限の多様性をもつ物質を作る材料になりうるからである。実際、現在知られている化合物のうち、炭素以外の元素のみからなるものは、炭素を含むものにはるかに及ばない。また生体を構成するタンパク質や核酸、糖、脂質といった化合物もすべて炭素化合物である。
JAWLⅠ・Ⅱ 26.6%+JAWL Ⅳ・Ⅴ 6.4%計33.0% 有機化学は、有機化合物すなわち炭素化合物の合成、性質についての研究を目的とする化学の分野である。伝統的には二酸化炭素や一酸化炭素、炭酸などは有機化合物に含めない。大体はC−C結合かC−H結合を持つものが有機化合物である。また、ある有機化合物を炭素以外(金属元素の場合も含む)の基で置換した構造を持つ化学物質も広義の有機化合物として有機化学の対象とされる物もある。 構造有機化学、反応有機化学(有機反応論)、合成有機化学、生物有機化学などの分野がある。 100を超える元素の中で炭素の化合物だけが特に取り上げられる理由は、炭素が無限の多様性をもつ物質を作る材料になりうるからである。実際、現在知られている化合物のうち、炭素以外の元素のみからなるものは、炭素を含むものにはるかに及ばない。また生体を構成するタンパク質や核酸、糖、脂質といった化合物もすべて炭素化合物である。
日本語学術共通語彙の妥当性(1) • 初級語彙の占める割合との関係 • 学術テキストでは初級の一般語彙の割合が一般テキストより低い • 中級の学術共通語彙を足すと一般テキストでのカバー率に近づく • テキストカバー効率 (本研究のために考案) =テキストカバー率を,そのカテゴリーの異なり語数で割り,1000000をかけたもの =そのカテゴリーの語を1語学習することで 平均的にどのぐらい効率よくカバー率を上げられるか • 大きさの異なるテキスト間の数値比較には注意が必要 延べ語数と異なり語数の関係がテキストの大きさで異なるため • 同じテキスト中のカテゴリー間比較は可能 • この数値が大きいほど,そのカテゴリーの語彙を学ぶことで 効率よくそのテキストを理解できるようになることを予測
日本語学術共通語彙の妥当性(2) • JAWL は学術語彙の効率的な学習に適している おそらくは抽出方法も妥当 • JAWLのカバー率は上級や超上級では極めて小さいが • 他の語彙より,効率よく 学術テキストのカバー率を上げられる • 上級以降ではカバー率を上げるために数千語も必要 たとえ0.1%でも効率よく学べることは重要
領域別の特徴 • 新聞には初級語彙が少なく, 中級の学術共通語彙が多い • 理系(理工系,生物・医学系)には 文系(人文系,社会系)より上級の学術共通語彙が多い • 3領域語(JAWLⅡなど)に欠けている1領域(一般テキストと比較して学術テキストで高い割合を示さなかった領域) • 生物・医学系が1630語中613語(37.6%)と最多 • 以下,人文系440語(27.0%),理工系343語(21.0%),社会系234語(14.4%) 社会系は理工系や人文系との共通性が高い 生物・医学系は他の領域との共通性が相対的に低い
学術共通語彙の意味的特徴 • 抽象性が高く,論理操作に不可欠 • 範囲: 「占める」 「特殊」 • 関係: 「優れる」 「属する」 • 段階: 「当初」 「現状」 • 量的変化: 「減少」 「強化」 • 論述の展開(書き手のスタンス):「取り上げる」「まとめる」 など • 最頻出漢字: 「合」「定」「分」「一」「同」「数」「上」「体」「出」「大」 • 3領域語:「署名」「保健」など具体的なイメージの語も • 4領域語:そのような語が極めて少ない • 重要度のレベルが変わっても,その性格は変わらない
学術共通語彙の品詞(1) • 普通名詞:1072語(41.4%)例) 「形式」 「背景」 • 動名詞(=サ変語幹,スル動詞):882語(34.0%) 例)「設置」 「連続」 他のタイプの名詞とあわせて 2104語(81.2%)が名詞になり得る語 • 動詞(動名詞を除く):225語(8.7%) 例)「認める」 「述べる」 動名詞とあわせて1107語(42.7%)が動詞になり得る語 • 「形状詞」(ナ形容詞/名詞,解析用辞書UniDicの用語):95語(3.7%) 例) 「詳細」 「平等」 • イ形容詞:9語(0.3%)のみ例) 「著しい」 「等しい」
学術共通語彙の品詞(2) • 接辞:106語(4.1%)例) 「-期」 「-種」 「各-」 重要な位置を占める • 副詞:34語(1.3%)例) 「しばしば」 「あたかも」 • その他(助詞,助動詞,連体詞など):22語(0.8%) • 古語的な色彩を帯びた語が目立つ 例) 「のみ」 「つつ」 「べし」 「あらゆる」 「いかなる」 「我が」 「漠然」 • 「れる」「られる」(受身・可能・自発など)も 学術テキストに特徴的
学術共通語彙の(異なり語数)語種比率(1)(表1)学術共通語彙の(異なり語数)語種比率(1)(表1) • 漢語:一貫して4分の3前後(全体では75.2%)。 • 混種語も漢語的 • 48語中36語が「漢字1字+する」の組み合わせ 例) 「達する」 「応ずる」 「接する」 • 副詞も漢語的例) 「概して」 「総じて」 「単に」 学術共通語彙の77%程度が漢語系 • 学術共通語彙は 明治期に創出された新漢語(鈴木1981など)が多いか 現代中国語との間で意味・用法のずれも小さい 学術テキストの語彙理解では, 中国語系学習者は相当に有利
学術共通語彙の(異なり語数)語種比率(2)(表1)学術共通語彙の(異なり語数)語種比率(2)(表1) • 和語:JAWL 0 とⅠで20%を超えるが, それ以外では9~16%程度 一般テキストに比べかなり低い 一般に和語の比率(異なり語数)は 高頻度2000語除けばほぼ3分の1前後 (松下2009; 2010) ⇒ 語種比率の違いは, 母語による学習負担の違いに直結 ⇒ カリキュラム上も重要な問題