多言語研究と教育のための
Download
1 / 17

???????????? ???????????? ? ????????????? ? - PowerPoint PPT Presentation


  • 48 Views
  • Uploaded on

多言語研究と教育のための 多言語コーパス開発と利用 ― 中日対訳コーパスの事例から ―. 曹大峰 北京日本学研究センター・国立国語研究所. 1.多言語研究と教育の課題 2.多言語コーパスの種類と特徴 多言語コーパスの特性分析        対訳コーパスの特徴と利用モデル 3.多言語コーパスの利用例        中日対訳コーパスの事例を中心に. 1.多言語研究と教育の課題. ● 多言語社会と多言語学習への対応 ●多言語を対照的統合的に教育・研究. 言語. 言語. 言語. ● 通用的枠組みの導入・再建・応用 ● 多言語情報処理環境と手法の整備

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' ???????????? ???????????? ? ????????????? ?' - paloma-cooke


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
6737200

多言語研究と教育のための多言語コーパス開発と利用―中日対訳コーパスの事例から―

曹大峰

北京日本学研究センター・国立国語研究所


6737200

1.多言語研究と教育の課題

2.多言語コーパスの種類と特徴

多言語コーパスの特性分析

       対訳コーパスの特徴と利用モデル

3.多言語コーパスの利用例

       中日対訳コーパスの事例を中心に


6737200

1.多言語研究と教育の課題

●多言語社会と多言語学習への対応

●多言語を対照的統合的に教育・研究

言語

言語

言語

●通用的枠組みの導入・再建・応用

●多言語情報処理環境と手法の整備

●多言語のメリットとデメリットの活用

事象

言語

言語

言語

●新しい言語研究と教育の基盤創成


6737200

2.多言語コーパスの種類と特徴

○多言語コーパスは多種多様に開発が進んできたが、これまでの分類(並列コーパスと類似コーパス)では収まらず、その特徴分析と使い分けが必要となってきた。

単方向的関係双方向的関係

言語1

言語1

言語2

多方向的関係

対訳

対訳

対訳

対訳

言語1

言語2

対訳

対訳

対訳

言語3

言語

4

対訳

対訳

対訳

対訳

対訳


6737200

対訳コーパスの特徴と利用モデル(中日対訳コーパスの事例)

  • 北京日本学研究センター共同事業  中日共同研究と資金助成の成果

  • 中日両言語並列型の対訳コーパス

    単言語利用や多言語拡張も可能

  • 中日英WINDOWSで利用可能

    2000/ME/XP以上必要

  • 世界初の2000万字規模多ジャンルで原文と対訳で157件

  • 多分野研究と教育の利用可能

    言語・翻訳・文学・文化など

  • 多様な機能を持つ検索ツール付ダブルキーワード、定形表現、正規表現など

  • 基本的な情報付与対応/品詞/係受け、並列抽出表示可

  • ユニーコードと純正コード処理検索結果のコピーや再利用が簡単

  • データ種類の指定と選択可能ジャンル・語種・原文・訳文など

  • 研究利用に内部公開  多くの研究者や機関に広く利用中


6737200

らしい

好像

らしい

好像

好像

らしい

モデル1                 原文と原文の中日対等的研究

モデル2                原文と訳文の日中照応的研究

モデル3                原文と訳文の中日照応的研究

モデル4                 原例と訳例の日中参照的研究

モデル5                 原例と訳例の中日参照的研究

モデル6                            照応型中日対等的研究

モデル7                            参照型中日対等的研究

モデル8                            全方位的対照研究

らしい

らしい

好像

好像

好像

らしい

好像

らしい

らしい

らしい

好像

好像

好像

らしい

らしい

好像

らしい

好像

原文

好像

訳文

らしい

対等的(語レベル)

照応的(文・文章レベル)

好像

らしい

参照的(語レベル)


6737200

情绪表达

认知特性

行为特性

功能特征

语音特征

事实性

价值性

起因

强度

表情

核对

反应

传递

动作

自发

触发

平静

激动

一致

不同

认同

疑惑

一般

重大

压抑

开放

对自

对他

无关

关联

单纯

音素

复杂

音位

单个

音节

复数

上升

词调

平降

音调

音重

缓长

音长

急促

3.多言語コーパスの利用例

モデル1 原文と原文の対等的研究      ー感動詞の日中対照ー

○複数言語の原文を対象に研究する  アプローチ○研究対象の原文と原文の間、話題 は同じでも内容的に必ずしも対応し ない○異なる言語の言語表現や言語習慣 の違いを知るばかりではなく、発話者 の視点や認知スキーマなど知的文化 的背景を探索するのにも有効●曹・森山1999では中日両言語の感 動詞を原文コーパスから抽出して音 声特徴から感情・認知・行動を表現す る機能の面で両言語の異同を考察し た

◎中日共通的特性 ○中文独自的特性 ●日文独自的特性


6737200

モデル2と3 原文と訳文の照応的研究 -「だろう」と「吧」ー モデル2と3 原文と訳文の照応的研究 -「だろう」と「吧」ー 

○訳文との照応で、原文を研究するアプローチ○原文は研究対象、訳文は照応対象○訳文との照応で原文に関する探索を深めるのが主目的○原文と訳文の照応は文や文章レベルまであり、構文だけでなく場面 や文脈情報による対照研究が期待できる

考察結果

a.「だろう」は表4のように「吧」の対訳率が36%弱しかなく、また、「吧」は表5 のように用法分布が広く「だろう」の対訳率が6%に過ぎず、特に意志文、行 為文と軽い問い掛けの文では対訳が見られない。b.推測・確認要求・認識要求などの「吧」の文において「だろう」の対訳が36% 弱だが、事態内容に未確定な部分があるという前提未確定の「だろう」文に おいては、「吧」の対訳は見られない。c. 「だろう」と「吧」の非対訳は「未確定」と「対立事態配慮」という異なる基本義 に起因し、談話においてその用法の展開線が交差し両者の接点が対訳の 形でみられるようになる。


6737200

「だろう」の各用法の対訳率モデル2と3 原文と訳文の照応的研究 -「だろう」と「吧」ー 

用法

訳語

(94)

(382)

(54)

(96)

5(1)

(44)

吧(163)

2

35

30

8

30

10

吧?(83)

1

5

50

20

0

41

呢(61)

50

2

0

0

0

14

吗(54)

1

0.8

13

40

30

10

啊/呀(20)

9

1.6

2

2

0

9

その他(15)

6

2

2

1

0

0

φ(142)

20

24

0

24

30

16

大概(25)

0

7

0

0

0

0

可能(12)

0

3

0

0

0

0

会(22)

3

4

2

1

0

0

也许(22)

0

6

0

0

0

0

恐怕(12)

0

3

0

0

0

0

说不定(5)

0

1

0

0

0

0

一定(3)

0

0.8

0

0

0

0

难道(2)

2

0.3

0

0

0

0

是否(3)

1

0.3

2

0

0

0

その他(24)

4

4

0

4

10

0

(1)あいつ、今ごろ、何をしているだろう?/家里的“那一位”,现在正干什么呢?(砂の女1133)

(2)女は答えない。答える必要がないほ  ど、分りきったことだったのだろう。  逃げられなかったから、逃げなかった……おそらく、それだけのことなのだ。/女人没有回答。也许她觉得这是个无需回答的问题吧。因为逃不了,所以没有逃走。……恐怕就这么简单。(砂の  女688)

(3)「これだろう、お兄ちゃん」/“是这个吧?哥哥。”(黒雨279)

(4)「だって君の家、病人があるんだろう。」/“可是,你家里不是有病人吗?”(雪国351)

(5)「ほら、あすこにあの、ピンク色の  洋服を着たお嬢さんと一緒に踊ってい  るでしょう、あれがまアちゃんよ」 /“你看,那边有个人在和一位穿粉红色洋装的小姐跳舞(吧/φ)。他就是阿熊啊。”(痴人の愛716)

注:「か、な、ね、よ」等の助詞が付かない「だろう」の各用法の対訳率。用法類型:1、焦点推測、2、非焦点推測、3、確認要求、4、事実認識要求、5、眼前認識要求、6、中間用法。( )内は実例件数。


6737200

モデル2と3 原文と訳文の照応的研究 -「だろう」と「吧」ー 吧」の用法分布と対訳率

だろう

対訳率

用法

原例

推測

73(17)

23

判定21%

確認要求

31(14)

45

71

認識要求

17(12)

軽い問掛

24

0

意志

65

0

0

志24%

同意

29

許容

27

0

提案

41

0

誘い

81

0

勧め

32

0

働掛け47%

頼み

46

0

命令

144

0

呪詛

12

0

0

祈願

5

仮定

18

0

複文

7%

前提

27

0

例/提示

2/4

0

678(43)

6

(6)“唉,还是睡吧,”鸣凤叹了一口气,没精打采地说,一面解棉袄的钮扣。/「やっぱり眠ってしまおう」彼女は力なくそうつぶやくと、綿入れの上衣のホックをはずす。(jia165)

(7)巡警走近我说,“你自己雇车罢,他不能拉你了。”/巡査は私に近寄ってきて、いった。「ご自分で車を見つけてください。あの車夫は引けなくなりましたから」(nahan325)

(8)一直到十点钟,才剩下我们俩。他这才望了我一眼说:“怎么样,家里还好吧?”/十時になってやっと我々二人だげになれた。彼は私をみて「どうだ、家の方は?」(*どうだ、家 のほうはいいだろう。) (tyshcq558)

(9)一体、あの女は、どうやってこの新聞を手に入れたのだろう?……/究竟那女人是怎么弄到这份报纸的呢?……(砂女494)

(10) 「…私の生れは港なの。ここは温泉場でしょう。」/“…我出生在港市,可这里是温泉浴场。”(雪国134)

(11) 你应该搬到研究所去住。这样,你就有时间了。/あなたは研究所へ引っ越すべきだと思うわ。そうすれば時間ができるでしょう。(rdzn668)


6737200

モデルモデル2と3 原文と訳文の照応的研究 -「だろう」と「吧」ー 4と5 原例と訳例の参照的研究 -訳文の研究ー

○原文と訳文の用例を参照して訳文を研究するアプローチ○訳文は原文の対訳として原語の語調風格を残している○訳文は訳者の作物としてその理解や格調を示している


6737200

訳文に見えるもの、隠れるものモデル2と3 原文と訳文の照応的研究 -「だろう」と「吧」ー 

○原語で表面化しない含意や機能を訳語に顕在化(explicitness 顕化)○原文のさまざまな類義的用法を訳語に内包化(implicitness 隠化)○最近、比較文化や翻訳の研究では、訳語や訳文の研究価値が認めら れ、「interlanguage」(語際語、中間言語)という術語も定着○多言語コーパスはそのような中間言語の資源を原語付で提供可能

日中同形異義語「人間」の訳語から

○日本語対訳は17種も多い○58%は世間系、25%は人間界系  とその含意が顕在化○18%の略訳は内包化●因果関係の中→日顕在化や日→ 中内包化●人称代名詞の日→中顕在化や中 →日内包化


6737200

作品数モデル2と3 原文と訳文の照応的研究 -「だろう」と「吧」ー 

字数

件数

頻度

小説

21

250万

24

0.001

22

235万

0

0.000

論説文

1

13万

25

0.019

2

21万

20

0.010

モデル6と7と8 複合型対照研究 ー中日同形同義語「基本」ー

○モデルを複合的に利用して研究を広げたり深めるためのアプローチ○6=1+(2と3)、7=1+(4+5)、8=1+(2+3)+(4+5)○単一モデルで特定された研究側面を、全体的に総合的に捉える○もっと複雑な言語現象と文化現象を全方位的に考察するのに効果ある○複数言語の原文を研究の対象に、訳文照応と訳例参照の多方向から その異同を探索するとともに、その訳文に関する研究も期待できる

中日同形語「基本」の文体的特徴


6737200

中国語モデル2と3 原文と訳文の照応的研究 -「だろう」と「吧」ー (基本)

日本語(基本)

原例(小説(論説))

訳例(小説)

原例(小説(論説))

訳例(小説)

訳文

件数

件数

源語

件数

訳文

源語

件数

基礎

1

基本

0(11)

基本

4

基本/基礎

4+1 (12)

最低の

1

基本的

2

根本

0(3)

2

基本的

(7)

1+1

基礎

0(1)

本位

1

大体の/一通りの

根本的

1

ほとんど

2

核心

0(1)

基本的な

3 (4)

大体

5

基本的に

2

大抵

3

ほぼ/ほとんど

2+1

一応

2

大体/すっかり

+1

ともかく/一応

+2

(略訳、意訳)

(略訳、意訳)

0(4)

(縮訳)

2

2+4 (1+ 1)

17

24(25)

0(20)

9

中日同形語「基本」の全方位的対照


6737200

考察結果モデル2と3 原文と訳文の照応的研究 -「だろう」と「吧」ー 

○主として中国語と日本語の論説文   に使われ、日本語では小説の原例 にほとんど見られないほど文体的 性格が濃い○表と例12の対訳状況に見られるよう

 に、日本語では名詞用法しかないが、 中国語では副詞用法にも機能拡張 (訳文には顕在化)○「基本的に、ほぼ、ほとんど、大体、 すっかり、ともかく、一応」などとい う多数の対訳から見ても、「基本的 に」という日本語の副詞的派生形 より中国語の副詞用法に意味用法 が広い○訳例における中国語「基本」の副 詞用法は7割も高く、原例の3.3割 を大きく超え、日本語の副詞用法 を内包化する現象の表れで、中国 語の原語の特徴ではない

(12)ここに日本人の仕事に対する考え方の基本がよくあらわれている。/于此,清楚地反映了日本人对于工作的基本想法。(kiki437)

(13)那天晚上,佳佳的病基本好了,园园的功课也作完了,兄妹俩相继睡去。/その日の夜、佳佳の病気はほとんどよくなり、園園の勉強も終わって、兄妹は前後して寝床についていた。(hdbrx639)

(14)原来拟定三天的日程,两天一晚上就基本完成了。/三日の予定が二日一晩で一応終わった。(hdbrx1884)


6737200

言語教育への利用法モデル2と3 原文と訳文の照応的研究 -「だろう」と「吧」ー 

○対訳コーパスに基づく中日対訳情報辞典の開発

実例による新しい中日日中辞典の編纂

  言語研究と教育に役立つ辞書の誕生

○コーパスによる外国語学習法の開発と促進

文脈・コロケーション・対訳付きの言語学習資料の提供と利用   →観察学習の楽しみ・深みと効果の獲得

『投野由紀夫のコーパス超入門:コーパスでわかる英語学習の        コツ』(小学館)

『英会話コーパスドリル』(アルク)

『コーパス練習帳』(NHK出版)

『コーパスで一目瞭然―品詞別 本物の英語はこう使う!』 (小学館)

○研究成果の教育応用領域の開拓

○多文化共生のための言語教育を視野にいれた多言語研究


6737200

ご清聴ありがとうございましたモデル2と3 原文と訳文の照応的研究 -「だろう」と「吧」ー 

謝謝!


ad