1 / 31

Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas. Thereza Cristina de Souza Lima (Ms doutoranda em Estudos Lingüísticos – UNESP – Universidade Estadual Paulista). Perguntas mais freqüentes: O que é a Lingüística de Corpus?

tawny
Download Presentation

Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas Thereza Cristina de Souza Lima (Ms doutoranda em Estudos Lingüísticos – UNESP – Universidade Estadual Paulista)

  2. Perguntas mais freqüentes: • O que é a Lingüística de Corpus? • Em que / como a LC pode me ser útil como profissional? • Objetivo da oficina: • Despertar o interesse pela LC e a conscientização dos benefícios da mesma na área de ensino de idiomas

  3. Conceituação da L. C. A LC ocupa-se da coleta e exploração de corpora, ou conjunto de dados lingüísticos textuais coletados criteriosamente, com o propósito de servirem para a pesquisa de uma língua ou variedade lingüística. Como tal, dedica-se à exploração da linguagem por meio de evidências empíricas extraídas de computador (Berber Sardinha, 2004).

  4. What is a corpus? • In the language sciences a corpus is a body of written text or transcribed speech which can serve as a basis for linguistic analysis and description. Over the last three decades the compilation and analysis of corpora stored in computerized databases has led to a new scholarly enterprise known as corpus linguistics (Kennedy, 1998).

  5. O que é um corpus? Um conjunto de dados lingüísticos (pertencentes ao uso oral ou escrito da língua ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso lingüístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para descrição e análise (SANCHEZ, 1996).

  6. Inferência: • Há uma relação entre a LC e a lingüística computacional. • De acordo com Sinclair (1961), há 30 anos atrás, quando foram iniciadas pesquisas em LC, visando a evidências objetivas sobre a língua em uso, com base no empirismo e não na intuição, era considerado impossível processar textos com milhões de palavras. • Há 20 anos atrás, “marginally possible, but lunatic”. • Há 10 anos atrás, “possible but still lunatic”. • Hoje “it is very popular”.

  7. Ferramentas Computacionais para Análise de Corpus: • 1970: TAGGIT • 1979: CLAWS • 1987: TACT • 1988: OCT (Oxford Concordance Program) • 1993: MicroConcord • 1995: WordSmith Tools (Mike Scott)

  8. Exercise: • Write 3 sentences containing the word “umbrella”. • Compare your sentences with those of your classmates. • Now, compare it against this dictionary entry, taken from the Oxford Paperback Dictionary (1988 edition):

  9. Umbrella n. 1. a portable protection against rain, consisting of a circular piece of fabric mounted on a foldable frame of spokes attached to a central stick that serves as a handle. 2. any kind of general protection force or influence.

  10. Pré-requisitos para a formação de um corpus 1) Textos autênticos em linguagem natural. 2) Conteúdo criteriosamente escolhido, que corresponda às características desejadas. 3) Representatividade: do quê/para quem?

  11. Representatividade do corpus: - Extensão: Para ter representatividade o corpus deve ser o maior possível. • Quanto maior a quantidade de palavras, maior a probabilidade de aparecerem palavras de baixa freqüência. Exemplo: serviço como saque. • Representativo do quê? Representatividade ligada à probabilidade e ao sentido das palavras. • Representativo para quem? Ônus do usuário.

  12. Nossos Corpora de Pesquisa(231.721 L1/260.259 L2) • (1.1) A Descoberta do Mundo (DM) com 172.143 palavras • (1.2) Discovering the World (DW) com 194.167 palavras, tradução de Giovanni Pontiero • (2.1) Uma Aprendizagem ou O Livro dos Prazeres (ALP) com 36.385 palavras • (2.2) An Apprenticeship or the Book of Delights (ABD) com 40.321 palavras, tradução de Richard A. Mazzara e Lorri A. Parris • (3.1) Água Viva (AV) com 23.193 palavras • (3.2) The Stream of Life (TSL) com 25.771 palavras, tradução de Elizabeth Lowe e Earl Fitz • (4.1) Fragmentos semelhantes (re)aproveitados extraídos de (DM), (ALP) e (AV) com 5.729 palavras • (4.2) Fragmentos semelhantes (re)aproveitados extraídos de (DW), (ABD) e (TSL) com 7004 palavras

  13. Adequação do corpus: • Para ser adequado, o corpus deve ser afinado com os objetivos da análise, adequado aos interesses do pesquisador, que deve ter uma questão a investigar para a qual necessite de um corpus específico.

  14. Duas conclusões: • Relevância do corpus como fonte de informação, pois registra a linguagem natural, realmente utilizada por falantes e escritores da língua em situações reais; • A não-trivialidade da investigação da freqüência de ocorrências de traços lingüísticos (lexicais, sintáticos, semânticos e discursivos), pois é pelo conhecimento da freqüência atestada que se pode estimar a probabilidade teórica.

  15. Estatuto da LC: • LC não é disciplina nem metodologia, “não é um ramo da lingüística, mas a rota para a lingüística”(Hoey, 1997). • LC é uma perspectiva, uma maneira de se chegar à linguagem, uma nova empreitada de pesquisa, uma abordagem filosófica: Abordagem Baseada em Corpus/Corpus-based Approach.

  16. Tipos de Pesquisa Privilegiados: Características: • São empíricos e analisam padrões reais de usos em textos naturais; • Utilizam corpus como base de análise; • Fazem uso de computadores na análise; • Dependem de técnicas quantitativas e qualitativas;

  17. 4 Tipos de Pesquisadores • 1) Criar, compilar e salvar corpora para análises posteriores; • 2) Desenvolver ferramentas (softwares) para análise dos corpora; • 3) Usar corpora computadorizados para descrever o léxico e a gramática das línguas, preocupam-se não apenas com o que/onde/quando/por que foi dito/escrito, mas com que freqüência;

  18. 4) Explorar a descrição lingüística baseada em corpus para uso em uma variedade de aplicações tais como ensino/aprendizagem de línguas e tradução. “Although the scope of corpus linguistics may be defined in terms of what people do with corpora, it would be a mistake to assume that corpus linguistics is simply a faster way of describing how a language works… corpus linguistics analysis does reveal facts about a language which we might previously never thought of seeking ” (Kennedy, 1998).

  19. Pesquisas atuais relacionadas à LC: • Produção de dicionários, listas de palavras, gramáticas descritivas, estudos comparativos de variedades de fala diacrônicos e sincrônicos e outros estudos estilísticos e pedagógicos. • Estudos sobre a distribuição de fonemas, letras, pontuação, morfemas, colocações, classes de palavras específicas, padrões sintáticos e estruturas discursivas. Exemplo: Are we more likely to use different from, different to or different than?

  20. Corpus Linguistics Concordances

  21. The Corpus linguistics-researcher tasks: 1) Computerize and describe the frequency of tokens in a corpus; 2) Observe the usage of words by means of a computer tool named concordance; What is concordance? It is the list of the occurrences of a particular token, in which the node is centralized and surrounded by a co-text. Corpus LinguisticsConcordances

  22. Corpus LinguisticsConcordances • Programas Concordanciadores: Micro-concord; Windows Concordancer; WordSmith Tools; etc. • Observação dos Padrões: Visualização das Concordâncias e dos Colocados: Além da inspeção visual da tela da concordância, pode-se usar a lista de colocados para observar os padrões. Para ter acesso à concordance on line do BNC, entra-se no site: http://corpus.byu.edu/bnc/

  23. Concordances/Collocations • Por meio da ferramenta Concordance, o pesquisador pode observar “Collocation”, ou seja, cf Berber Sardinha (2004, p. 200) “associação não-aleatória entre itens lexicais” (uma associaçào não-aleatória é aquela que é mais comum do que o esperado) e para saber se uma associação entre palavras não é aleatória, precisamos de cálculos estatísticos, dentre os quais destacamos a razão O/E (observado/esperado); a MI (Mutual Information); e o T Score (Escore T). • Todos os cálculos estatísticos podem ser efetuados on line no endereço eletrônico: http://lael.pucsp.br/corpora/association/calc.htm.

  24. Uses of Concordances • Concordances can be used for a variety of purposes: • 1) To see a search pattern in several contexts; • 2) To provide researchers and students in general with information about the meaning and usage of words and phrases, which are unlikely to be found in dictionaries and give them an idea of which words typically belong together, such as which verbs go with which verbs or nouns; which prepositions with which verbs; which adjectives with which nouns; whether active or passive voice is more appropriate in a particular context, and so on.

  25. Corpus LinguisticsConcordance Exercise • Enter the BNC concordance and examine the first hundred concordances for “prices”. You will find different adjectives used to qualify the noun “prices”. How many can you find apart from high and low? Make a note of all of them, as well as of any accompanying words which you think might be useful.

  26. Corpus LinguisticsConcordance Exercise • The word “finding” is very frequent in academic research. Taking it as a node, what are the ten most frequent verbs that precede or follow it when it refers to findings related to research? You may use any concordance tool available on the web.

More Related