1 / 31

Visão geral da Lingüística de Corpus

Visão geral da Lingüística de Corpus. Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho. Introdução. Primeiro corpus lingüístico eletrônico: Brown University Standard Corpus of Present-day American English 1964 1 milhão de palavras

corina
Download Presentation

Visão geral da Lingüística de Corpus

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho

  2. Introdução Primeiro corpus lingüístico eletrônico: • Brown University Standard Corpus of Present-day American English • 1964 • 1 milhão de palavras • Primeiro corpus eletrônico de linguagem falada: • 220 mil palavras – atribuído a Sinclair

  3. Objetivos do texto • Apresentar uma retrospectiva da Lingüística de Corpus • Apresentar os principais marcos de sua história • Discutir algumas questões teóricas e práticas subjacentes à área

  4. 1.1. A Lingüística de Corpus e seu histórico • Ocupação: coleta e exploração de corpora com o propósito de servirem para a pesquisa de uma língua ou variedade lingüística. • Exploração da linguagem por meio de evidências empíricas, extraídas por computador.

  5. Sentido original de “corpus”: CORPO • Grécia antiga: definição do Corpus Helenístico por Alexandre, o Grande • Antigüidade e Idade Média: produção de corpora de citações bíblicas • Século XX: corpus coletados, mantidos e analisados manualmente, com ênfase no ensino de línguas

  6. Corpus não-computadorizado que deu feição aos atuais: • SEU (Survey of English Usage) • Londres, a partir de 1959 • 1 milhão de palavras • Organizado em fichas de papel • Base para o desenvolvimento dos etiquetadores computadorizados contemporâneos • 1989: London-Lund Corpus – parte falada computadorizada

  7. Anos 50: teorias racionalistas da linguagem • Críticas à LC: corpora “gigantescos” não eram confiáveis • Invenção do computador tornou possível a compilação de maior quantidade de dados • 1960: mainframe • 1980: fitas magnéticas e microcomputadores pessoais

  8. Atualidade: • Grã-Bretanha – um dos centros de pesquisa mais desenvolvidos (Birminghan, Brighton, Lancaster, Liverpool, Londres) • Países escandinavos • Fora da Europa a LC não está tão desenvolvida • EUA: força da lingüística gerativa-transformacional

  9. EUA: desenvolvimento avançado na pesquisa em Processamento de Linguagem Natural (PLN) • Brasil: estágios iniciais voltados à PLN e à Lingüística Compuatacional • Parcerias entre empresas (finalidades comerciais) e universidades: pesquisas em LC ligadas à editoras • Pioneiro: Cobuild – Universidade de Birmingham com a editora Collins

  10. 1.2. Corpora de língua inglesa

  11. 1.3. Corpora de língua portuguesa

  12. 1.4. Corpora de outras línguas

  13. 1.5. Marcos da Lingüística de Corpus • “A história da Lingüística de Corpus está condicionada à tecnologia, que permite não somente o armazenamento de corpora, mas também a sua exploração e, por isso, está relacionada à disponibilidade de ferramentas computacionais para análise de corpus, dentre as quais se destacam as seguintes.” (p. 15)

  14. 1.6. Definição de corpus • Nem todo conjunto de dados é considerado corpus • Arquivo • Biblioteca eletrônica • Corpus: uma parte da biblioteca eletrônica, construído a partir de um desenho explícito, com objetivos específicos • Subcorpus: uma parte do corpus

  15. “Um conjunto de dados lingüísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso lingüístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise” (p. 18)

  16. Origem • Propósito • Composição • Formatação • Representatividade • Extensão

  17. Quatro pré-requisitos para a formação de um corpus computadorizado: • 1) O corpus deve ser composto de textos autênticos, em linguagem natural. • 2) Autenticidade dos textos subentende textos escritos por falantes nativos. • 3) O conteúdo do corpus deve ser escolhido criteriosamente. • 4) Representatividade.

  18. 1.7. Tipologia de Corpus • MODO: falado; escrito • TEMPO: sincrônico; diacrônico; contemporâneo; histórico • SELEÇÃO: de amostragem; monitor; dinâmico ou orgânico; estático; equilibrado • CONTEÚDO: especializado; regional ou dialetal; multilíngüe • AUTORIA: de aprendiz; de língua nativa • DISPOSIÇÃO INTERNA: paralelo; alinhado • FINALIDADE: de estudo; de referência; de treinamento ou teste

  19. Pluralidade de autoria • Origem da autoria • Meio • Integralidade • Especificidade • Dialeto • Equilíbrio • Fechamento • Renovação • Temporalidade • Tradução • Intercalação

  20. 1.8. Representatividade de corpus • “Não há critérios para a determinação da representatividade.” (p. 23) • “A representatividade está ligada à questão da probabilidade.” (p. 23) • Número de palavras • Número de textos • Número de gêneros

  21. 1.9. Extensão do corpus • Abordagens: • 1) Impressionística • 2) Histórica • 3) Estatística

  22. 1.10. Especificidade do corpus • “Um modo de atingir a representatividade total de um corpus é incluir nele toda a linguagem.” (p. 27) • “Os corpora gerais podem ser usados como fonte para criação de corpora especializados.” (p. 28) • “(...) normalmente, corpora compilados em pequena escala por pesquisadores individuais acabam sendo mais representativos do que os respectivos subcorpora dos corpora gerais.” (p. 28)

  23. 1.11. Adequação do corpus • “A adequação do corpus é tomada como dada. Assume-se que o corpus com o qual se esteja lidando e as perguntas feitas sejam adequados aos propósitos da investigação. Sem isso, a pesquisa não tem sentido.” (p. 29) • Questionamento da validade de corpora gerais.

  24. 1.12. Teorias de linguagem e Lingüística de Corpus • Lingüística Empírica = Abordagem empirista + linguagem como sistema probabilístico • Oposição entre Halliday (probabilidade) e Chomsky (possibilidade) • “A visão da linguagem como sistema probabilístico pressupõe que, embora muitos traços lingüísticos sejam possíveis teoricamente, ocorrem com a mesma freqüência.” (p. 31) • Padronização

  25. 1.12. Teorias de linguagem e Lingüística de Corpus • Lingüística de Corpus x lingüística chomskyana: • Foco no desempenho lingüístico, em vez de competência • Foco na descrição lingüística, em vez de universais lingüísticos • Foco numa visão mais empirista do que racionalista da pesquisa científica

  26. 1.13. Estatuto da Lingüística de Corpus • A LC é uma disciplina ou uma metodologia? • Não se dedica a um assunto definido e não se resume a um conjunto de ferramentas: assim poderíamos classificá-la como PERSPECTIVA: • “(...) é uma maneira de se checar a linguagem, e faz alusão ao conceito de teoria lingüística como janela que molda como enxergamos a linguagem.” (p. 37)

  27. 1.14. Tipos de pesquisa privilegiados • São empíricos e analisam os padrões reais de uso em textos naturais. • Utilizam coletâneas grandes e criteriosas de textos naturais, conhecidas por corpus, como a base da análise. • Fazem uso extensivo de computadores na análise, empregando técnicas automáticas e interativas. • Dependem de técnicas quantitativas e qualitativas.

  28. 1.14. Tipos de pesquisa privilegiados • 1) Compilação de corpus • 2) Desenvolvimento de ferramentas • 3) Descrição da linguagem • 4) Aplicação de corpora

  29. 1.15. Padrões de linguagem • Quais os padrões lexicais dos quais a palavra faz parte? • Em que estruturas ela aparece? • Padronização como regularidade expressa na recorrência sistemática de unidades coocorrentes de várias ordens (lexical, gramatical, sintática, etc). Podem ser formalizados em colocação, coligação, prosódia semântica.

  30. 1.16. Comentários finais • Painel geral do campo de investigação da Lingüística de Corpus • Dificuldades: quantidades de trabalhos novos e debate de cunho teórico • Proposta da Psicologia Cognitiva de Langacker – alternativa para explicação da padronização • “todo corpus me ensinou coisas sobre a linguagem que eu não teria descoberto de nenhum outro modo” (FILLMORE, p. 35)

More Related