corpus defini o e coleta l.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Corpus: definição e coleta PowerPoint Presentation
Download Presentation
Corpus: definição e coleta

Loading in 2 Seconds...

play fullscreen
1 / 43

Corpus: definição e coleta - PowerPoint PPT Presentation


  • 196 Views
  • Uploaded on

Corpus: definição e coleta. Tradução Técnica 2008 Stella E. O. Tagnin. O que é um corpus? (cf. Aurélio Eletrônico). (1) Conjunto de documentos, dados e informações sobre determinada matéria. (3) Conjunto de materiais significantes (enunciados lingüísticos, capas de revistas)

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Corpus: definição e coleta' - Pat_Xavi


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
corpus defini o e coleta

Corpus: definição e coleta

Tradução Técnica 2008

Stella E. O. Tagnin

o que um corpus cf aur lio eletr nico
O que é um corpus? (cf. Aurélio Eletrônico)

(1) Conjunto de documentos,

dados e informações

sobre determinada matéria.

(3) Conjunto de materiais significantes

(enunciados lingüísticos, capas de revistas)

constituído com vistas à análise

semiológica.

slide3

O que é um corpus hoje?

Uma coletânea de textos

em formato eletrônico,

compilada segundo critérios específicos,

considerada representativa de uma língua

(ou da parte que se pretende estudar),

destinada à pesquisa

crit rios de compila o
Critérios de compilação
  • Origem: textos autênticos
  • Objetivo: pesquisa
  • População: seleção
  • Formato: eletrônico
  • Representatividade: de que, para quem?
  • Extensão: de acordo com objetivos
a hist ria dos corpora
A História dos Corpora
  • Década de 60 – corpora de

1 milhão de palavras!

  • Brown – inglês americano
    • 200 textos de 5.000 palavras cada
    • 15 categorias distintas
  • LOB (Lancaster/Oslo/Bergen) – contrapartida em inglês britânico
os corpora atuais
Os Corpora Atuais
  • BNC – 1995 – 100 milhões de palavras
    • 90% língua escrita
    • 10% língua falada
  • Bank of English (Cobuild)
    • Birmingham 1987 – 20 milhões de palavras
    • Hoje perto de 500 milhões de palavras
    • corpus aberto – em constante atualização
qual a grande vantagem dos corpora
Qual a grande vantagem dos corpora?

Observação da

linguagem em uso

- natural -

contrapõe-se à introspecção Chomskyana

- gramatical -

qual a diferen a
Halliday

Desempenho

Descrição lingüística

Empirismo

Observação

Probabilidade

Chomsky

Competência

Universais lingüísticos

Racionalismo

Intuição - introspecção

Possibilidade

Qual é a diferença?
corpus linguist vs armchair linguist
Corpus linguist vs armchair linguist

“... I don’t think there can be any corpora, however large, that contain information about all of the areas of English lexicon and grammar that I want to explore...”

corpus linguist vs armchair linguist10
Corpus linguist vs armchair linguist

“... Every corpus [...] however small, has taught me facts that I couldn’t imagine finding out about in any other way.”

(Fillmore, C.J. “Corpus linguistics” or “Computer-aided armchair linguistics”. In Svartvik, Jan (ed.) Directions in Corpus Linguistics, Proceedings of Nobel Symposium 82, Stockholm, 4-8 August 1991, Berlin/NY: Mouton de Gruyter, 1992, 35-60)

lembrando
Lembrando...

Na tradução técnica o que se almeja é um

texto natural

fluente

para que servem os corpora
Para que servem os corpora?
  • Detectar padrões lexicais
    • Fraseológicos (colocações): palavras que co-ocorrem em freqüência maior do que esperada: sweeping victory, high and low > search high and low
    • Terminológicos: lucros e perdas, controle de qualidade, plantas geneticamente modificadas (alteradas??)
  • Compilação de dicionários e glossários
para que servem os corpora13
Para que servem os corpora?
  • Detectar padrões gramaticais
    • “coligações”: verbos seguidos de infinitivo ou gerúndio:
    • begin + to vs. start + -ing
  • Detectar a prosódia semântica:

cause vs causar

slide14

Concordância

family thinks Vicki Rock's former job at the plant causedher son's cancer.

but he denies that the plant causedleukemia in families that have brought suits against the company

One of two things could have causedthis error: The Pobox.com user whose web site you

Ok: BM causedTONS of problems over last few weeks…31: Holes that causedfuel leak on shuttle located in nozzle July 28: Columbia

reduce deaths, injuries, property damage, economic losses and human sufferingcausedby natural disasters.

slide15

ventos mais fortes do oeste e aumento de tempestades violentas, causoudanos sem precedentes nas propriedades situadas na costa

de 1992 na região central dos Estados Unidos. Por isso,

causougrande impacto a descoberta do oceanógrafo americano Dudley Chelton

membro do conselho executivo deve fazer é "A nossa empresa causouuma primeira boa impressão em consumidores potenciais suficientes para garantir

de 1995, quando já assumira a presidência do Banco Central, causourepercussão na imprensa o fato de ter passado o carnaval fato teve não teve a repercussão equivalente ao prejuízo que causoua centenas de empresas que hoje dependem prioritariamente da rede

reas de pesquisa
Áreas de Pesquisa
  • Lexicologia e lexicografia
  • Estudos lexicais
  • Compilação de dicionários
  • Estudos contrastivos
  • Tradução
  • Naturalidade da língua
reas de pesquisa17
Áreas de Pesquisa
  • Tradução
  • Normalização/ Simplificação/ Explicitação
  • Estratégias de tradução
  • Normas de tradução
  • Ensino e treinamento
  • Fontes de referência
corpora online ingl s
Corpora OnlineInglês
  • BNC:http://sara.natcorp.ox.ac.uk/lookup.html
  • COBUILD:http://www.collins.co.uk/Corpus/CorpusSearch.aspx
  • WebCorp:http://www.webcorp.org.ul/webcorp.html
corpora online portugu s
Corpora Online Português
  • COMPARA:

http://www.linguateca.pt/COMPARA

  • Lácio-Web:

http://www.nilc.icmc.usp.br/lacioweb

dicion rios baseados em corpora
Dicionários baseados em corpora
  • Oxford English Dictionary (2nd ed.), 1989
  • Longman Dictionary of Contemporary English (1980s)
  • Macmillan English Dictionary (2002)
os corpora quanto l ngua
Os corpora quanto à língua
  • monolíngües
  • bilíngües
  • multilíngües
corpora monol ng es
Corpora monolíngües
  • língua geral: jornalísticos e literários
  • língua de especialidade: técnicos
  • mistos
  • traduções
    • TEC - Translation English Corpus
  • corpus de referência (depende da pesquisa)
    • língua geral
    • variedade de gêneros
    • variedade de registros
corpora multil ng e
Corpora multilíngüe
  • comparáveis:
    • originais em duas ou mais línguas
  • paralelos:
      • originais + tradução/traduções
compara
COMPARA

Extratos de Ficção

Português  Inglês

Inglês Português

Textos alinhados Originais Traduções

Português 26 17

Inglês 15 27

Total 41 44

Palavras Originais Traduções O &T

Português 395244 452763 848013

Inglês 456075 439083 895158

Ptg & Ing 851319 891846 1743171

slide25

Then – Então – Aí – Daí - Depois

EBJB1(1018):

Then there are the three live parrots, two at Trouville and one at Venice; plus the sick parakeet at Antibes.

Há depois os três papagaios vivos, dois em Trouville e um em Veneza; mais o periquito doente em Antibes.

EBJB1(1033):

Then the parrot, returning its master's gaze with anunflinching eye, would murmur the cabbalistic word, and Henri's soul would be filled with the memory of his lost happiness.

Então o papagaio, retribuindo o olhar ao dono com um olho inflexível, murmurava a palavra cabalística e a alma de Henri enchia-se com a memória da sua felicidade perdida.

ESNG1(496):

Then there was the matter of her job.

Daí vinha a questão do seu emprego

alguns sites teis
Alguns sites úteis
  • Corpus Linguistics:

http://www.humcorp.bham.ac.uk/

  • Bibliography

http://www.athel.com/corpus_bibliography.html

  • Text Corpora

http://www.athel.com/corpus.html

  • David Lee’s Bookmarks for Corpus-based Linguists:
  • http://devoted.to/corpora
projeto e compila o de um corpus
Projeto e Compilação de um Corpus

1. Objetivo do corpus

perguntas de pesquisa

2. Projeto do corpus

a. estático ou dinâmico

b. falado ou escrito

c. monolíngüe ou multilíngüe (comparável ou paralelo)

d. gêneros e tipos de textos a serem incluídos

projeto e compila o de um corpus28
Projeto e Compilação de um Corpus

2. Projeto do corpus

e. domínios a serem incluídos

f. proporção dos textos

g. quantidade de textos

h. completos ou trechos

i. extensão dos textos

j. fonte dos textos

k. tamanho do corpus

projeto e compila o de um corpus29
Projeto e Compilação de um Corpus
  • Cabeçalho
    • quais informações são relevantes para o projeto?
    • que outras informações poderiam interessar a outros pesquisadores? - reusabilidade
slide30

Cabeçalho

  • <Header>   
    • <title>        
      • <filename> </filename> 
    • </title>    
    • <author>         
      • <name></name>    
    • </author>    
    • <sourceText>         
      • <language></language>         
      • <mode>[mode of delivery of textual content]</mode>        
      • <publisher></publisher>         
      • <pubPlace>[place of publication]</pubPlace>         
      • <date></date>
      • <copyright>[copyrights holder]</copyright>    
    • </sourceText>
  • </Header> 
slide31

<text>

<header>

<title>

<fileName> JO-IF-ESP-esp_01 </fileName>

<corpus> futebol </corpus>

<nPages> 2 </nPages>

<nWords> 935 </nWords>

<sample> íntegra </sample>

</title>

<sourceText>

<titleOfText> Santos no caminho certo </titleOfText>

<language> PB </language>

<source> O Estado de São Paulo </source>

<pubPlace> http://www.estado.com.br </pubPlace>

<date> 03.08.2004 </date>

<status> Original </status>

</sourceText>

<author>

<name> Válter Casagrande Júnior </name>

<gender> Masculino </gender>

<type> Individual </type>

</author>

slide32

<textClassification>

<textGenre>

<genre> informativo </genre>

</textGenre>

<textType> Editorial </textType>

<domain>

<generalDomain defined="auto-def"> Generalidades </generalDomain>

<specificDomain> Esporte </specificDomain>

</domain>

<distribution> Internet </distribution>

</textClassification>

</header>

projeto e compila o de um corpus33
Projeto e Compilação de um Corpus

4.Código de nomeação

(Manual Lácio-Web)

Meio de Divulgação, Gênero Textual, Fonte, Data

JO-IF-FSP-mu-05fev99_01

  • Meio de divulgação: jornal
  • Gênero textual: informativo
  • Fonte: nome do periódico: Jornal “Folha de São Paulo”
  • Caderno: “Mundo”
  • Data: 05 de fevereiro de 1999
  • Primeiro texto (deste caderno, nesta data

de publicação)

projeto e compila o de um corpus34
Projeto e Compilação de um Corpus

4.Código de nomeação

RE-IF-NE-cea-mar01_05

  • Meio de divulgação: revista
  • Gênero textual: informativo
  • Fonte: Revista “Nova Escola”
  • Caderno: “Cresça e Aconteça”
  • Data: mês de março de 2001
  • Quinto texto (deste caderno, nesta data

de publicação)

projeto e compila o de um corpus35
Projeto e Compilação de um Corpus

4.Código de nomeação

RE-IF-CI-#-nov00_03

  • Meio de divulgação: revista
  • Gênero textual: informativo
  • Fonte: Revista “Cerâmica Industrial”
  • Caderno: não há subdivisões no periódico
  • Data: mês de novembro de 2000
  • Terceiro texto (deste caderno, nesta data

de publicação)

projeto e compila o de um corpus36
Projeto e Compilação de um Corpus

4.Código de nomeação

RE-IF-CI-#-agodez01_02

  • Meio de divulgação: revista
  • Gênero textual: informativo
  • Fonte: Revista “Cerâmica Industrial”
  • Caderno: não há subdivisões no periódico
  • Data: período compreendendo os meses de agosto a dezembro de 2001
  • Segundo texto (deste caderno, nesta data de publicação)
projeto e compila o de um corpus37
Projeto e Compilação de um Corpus

5. Etiquetagem

  • morfossintática (POS-tagging)
  • sintática (parsing)
  • semântica
  • discursiva
  • terminológica
etiquetagem morfossint tica
<s>

Foi_VAUX

cercada_PCP

de_PREP|+

o_ART

maior_ADJ

sigilo_N

a_ART

chegada_N

de_PREP|+

a_ART

agência=de=publicidade_N

Saatchi_NPROP

$&_NPROP

Saatchi_NPROP

a_PREP|+

o_ART

Brasil_NPROP

._.

</s>

Etiquetagem morfossintática
etiquetagem sem ntica
Etiquetagem semântica

For the soup, preheat the oven to 160ºC (350ºF / moderate / Gas 4). <cut>Cut</cut> <veg>tomatoes</veg> lengthwise, discard seeds, place in a medium heatproof dishwith <season>garlic</season>, olive oil, <season>salt</season>, <season>pepper</season>, and <herb>parsley</herb> and <herb>basil</herb> sprigs tied by the stems. <cook>Bake</cook> for approximately 1 hour, until <veg>tomatoes</veg> are soft and fragrant, let cool and refrigerate for 2 hours, or up to 2 days. Discard wilted herbs and blistered tomato skin and puree in a <appl>blender</appl> until a smooth paste is obtained (if you want a soup with a more delicate texture, press mixture through a sieve). Complete withcold water as to obtain 1 L (1 qt) of soup, adjust <season>salt</season> and <season>pepper</season>, correct the acidity by adding a pinch of <season>sugar</season>, and refrigerate for at least 1 hour, or overnight.

etiquetagem sem ntica terminol gica
Caponata (1 hour and 30 minutes)

1 onion

2 <term>celery stalks</term>

1 <term>red bell pepper </term>

4 fully ripe tomatoes, peeled and seeded

1 small deep green zucchini (courgette)

2 medium eggplants (aubergines)

2 tablespoons <term>pine nuts</term>

2 garlic cloves, <term>finely chopped</term>

1 <term>bay leaf</term>

1 teaspoon oregano

¼ cup <term>red wine vinegar</term>

1 tablespoon sugar

2 tablespoons capers

2 tablespoons <term>dark raisins</term>

½ cup slivered green olives

1 cup flat-leaf parsley leaves

½ cup basil leaves

olive oil

salt and black pepper <term>to taste</term>

Etiquetagem semântica/terminológica
etiquetagem discursiva
Etiquetagem discursiva

<titRec> Pudim de Leite Condensado </titRec><coment> Pudim de leite condensado é uma sobremesa que dispensa elogios, ou qualquer palavra para definí-lo. É simplesmente o máximo!! </coment><ingr> Ingredientes: 1 lata de leite condensado 1 lata de leite 3 ovos essência de baunilha3 colheres de açúcar </ingr><modFaz> Modo de Preparo: Coloque o açúcar numa forma própria para pudim e leve ao fogo brando para caramelizar a forma. Bater todos os outros ingredientes no liqüidificador. Despeje o conteúdo na forma caramelizada. Levar ao forno em banho-maria. </modFaz><coment> Dica: para verificar se o pudim esta pronto, fure o pudim com um palito de dente, se o palito sair limpo, é que esta pronto, espere esfriar, desenforme e sirva. </coment>

etiquetadores do l cio web
Etiquetadores do Lácio-Web
  • MXPOST (não está funcionando)
  • TreeTagger
  • Brill
corpora de aprendizes
Corpora de Aprendizes
  • Aprendizes de Língua Estrangeira
  • Aprendizes de Tradução
  • Aprendizes de Língua Materna
  • O Projeto ICLE (International Corpus of Learner English)
  • http://cecl.fltr.ucl.ac.be/Cecl-Projects/Icle/icle.htm