1 / 50

Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas. Sandra Maria Aluísio. Fórum  de Conhecimento e Tecnologia da Informação 9/12/2004 - Unicamp. Prefácio do Livro “Lingüística de Corpus” – Tony Sardinha, 2004.

herbst
Download Presentation

Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas Sandra Maria Aluísio Fórum  de Conhecimento e Tecnologia da Informação 9/12/2004 - Unicamp

  2. Prefácio do Livro “Lingüística de Corpus” – Tony Sardinha, 2004 Está em curso uma verdadeirarevolução no pensamento lingüístico, com implicações sérias sobre como respondemos a questões fundamentais, tais como o que é língua, como ela é organizada, como deve ser estudada, como deve ser ensinada. A mola propulsora dessa revolução é a tecnologia, mais especificamente o computador. ... Para entender essa revolução, é preciso acompanhar a Lingüística de Corpus, uma área que trata do uso de corpora computadorizados (coletâneas de textos, escritos ou de transcrições de fala, mantidas em arquivo de computador). Ao revelar uma quantidade surpreendente de evidências lingüísticas provindas de corpora eletrônicos, a Lingüística de Corpus questiona os paradigmas estabelecidos dos estudoslingüísticos e mostra novos caminhos para o lingüista, o tradutor, o lexicógrafo, e muitos outros profissionais.

  3. Há 15 anos atrás ... • A comunidade internacional que trabalha com Lingüística Computacional e Processamento de Língua Natural (PLN) teve o mesmo entusiasmo com métodos empíricos e estatísticos para análise da linguagem. • Entretanto, esse interesse em métodos estatísticos baseado em córpus reacendeu todas as velhas controvérsias: • filosofias racionalistas vs. empiristas, • metodologias baseadas em teoria vs. dirigidas por dados, • técnicas simbólicas vs. estatísticas.

  4. Com uma análise histórica do que aconteceu no eixo Estados Unidos – Europa podemos aprender e encurtar caminhos • para colocar o processamento e o estudo da língua portuguesa do Brasil mais próximos dos avanços de outras, principalmente o inglês. • Além disso, quanto a criação de córpus, podemos aproveitar para aprender com • os erros no desenvolvimento do BNC • discussões, ferramentas e padrões que estão sendo utilizados atualmente no desenvolvimento do ANC • e alavancar o Português do Brasil, trazendo-o para o cenário mundial das pesquisas em Lingüística de Córpus

  5. Continuando no prefácio... A influência mais visível no mundo contemporâneo está na preparação de dicionários. Hoje, todos os grandes dicionários da língua inglesa (de Oxford até Cambridge, Collins, Longman) são feitos com base em Lingüística de Corpus.

  6. Para o português do Brasil ... • Temos também um dicionário com ocorrências reais: o “Dicionário de Usos do Português do Brasil” (DUP), do Prof. Borba e equipe, lançado em 2002. • Entretanto, o córpus que deu base ao dicionário: • diferentemente dos para a língua inglesa, não foi construído como um consórcio entre editoras e/ou empresas de software, governo e academia • possui somente textos escritos • não está livremente e extensivamente disponível (ou a um baixo custo) para consulta/pesquisa, agora que o dicionário está pronto.

  7. Estrutura da Apresentação • Um pouco de História • Exemplos de trabalhos e forma de trabalho no NILC • Lácio-Web • Mestrado em Estudos Lingüísticos na UFSCar com três linhas de pesquisa (submetido à Capes): • Linguagem e Discurso, • Ensino e Aprendizagem de Língua e • Linguagem Humana e Tecnologia

  8. Algumas definições ... • Divisão histórica: • Lingüística Computacional na Lingüística, • Processamento de Língua Natural na Computação, • Reconhecimento/Tratamento da Fala (TF) na Engenharia Elétrica, • Psico-lingüística Computacional* (psicologia cognitiva) na Psicologia • Lingüística Computacional • é o estudo científico da linguagem a partir de uma perspectiva computacional. • Interesse em modelos computacionais de vários tipos de fenômenos lingüísticos. • Processamento de Língua Natural (PLN) • é uma ciência da computação que usa computadores para processar linguagem escrita e falada para aplicações práticas. • Inclui métodos e teorias para as fases de processamento, como é o caso da tradução de língua natural: análise fonético-fonológica , morfológica, sintática, semântica, pragmático-discursiva. • Linguagem Humana e Tecnologia abarca pesquisas em PLN e Lingüística Computacional.

  9. Depois da II Guerra Mundial • Análises empíricas e estatísticas da LN eram populares • Havia uma grande comunidade de lingüistas trabalhando com dados quantitativos nos EUA e Europa, estudando métodos para aprender informações léxicas e sintáticas de córpus Gramática Gerativa: fins dos 50’s inicio dos 60’s • A ênfase em julgamentos intuitivos sobre a gramaticalidade de textos ocasionou um confronto com os lingüistas quantitativos • Primeiro, Chomsky defendeu que lingüistas não deveriam ser meramente descritivos, mas sim • Segundo, Chomsky argumentou contra o aprendizado de uma língua a partir de córpus, pois acreditava que partes principais da linguagem são inatas e não aprendidas • A abordagem empirista também postula que existe alguma habilidade cognitiva presente no cérebro. A diferença entre as abordagens não é absoluta mas de grau • Polarização de opiniões; nenhuma interação produtiva

  10. 70’s e 80’s • Poucos grupos de PLN persistiram na abordagem probabilística • A abordagem baseada em regras dominou o campo, mesmo nas equipes industriais que trabalhavam com PLN • A comunidade de TF amadureceu e deu ênfase para a indução de modelos estatísticos da língua a partir de dados de treinamento Fim dos 80’s e começo dos 90’s • O campo de PLN deu um giro radical devido a duas razões: • incentivo da DARPA para a união das 2 abordagens • o aumento da disponibilidade de textos eletrônicos • Os problemas da comunidade de lingüistas computacionais estavam sendo resolvidos com sucesso pela comunidade de TF que utilizava aprendizado a partir de córpus em vez de construir manualmente regras para tratar estes problemas • A princípio, o interesse por métodos estatísticos baseados em corpus esquentou as controvérsias entreracionalismo vs. empirismo; as técnicas simbólicas vs. estatísticas

  11. 1994: The Balancing Act Workshop nos EUA • Foi planejado quando havia grande alvoroço nas duas comunidades: • mesmo que partes das comunidades estivessem trabalhando nas mesmas bases, não havia entrosamento para mostrarem os resultados. • Começou a busca pela combinação de abordagens. Fillmore 1992 in Svartvik (ed), p.35 • I don’t think there can be any corpora, however large, that contain information about all of the areas of English lexicon and grammar that I want to explore; all that I have seen are inadequate • Every corpus that I've had a chance to examine, however small, has taught me facts that I couldn't imagine finding out about in any other way • My conclusion is that the two kinds of linguists need each other. Or better, that the two kinds of linguists, wherever possible, should exist in the same body.

  12. Por que as coisas mudaram??? • Cada comunidade precisa da experiência da outra: • abordagens quantitativas facilitam • a aquisição automatizada ou semi-automatizada de conhecimento, • somam robustez e cobertura a sistemas de PLN restritos, e • permitem a extensão ou transporte para um novo conjunto de dados, nova tarefa ou domínio • abordagens quantitativas são dependentes da natureza dos dados utilizados e assim precisam também • de conhecimento lingüístico; • métodos indutivos tem melhor desempenho quando guarnecidos com conhecimento inicial preciso • Computadores mais rápidos, armazenagem mais barata e iniciativas para a construção de córpus se tornaram regra e não exceção.

  13. Necessidade da construção de sistemas que trabalham no mundo real e não mais os tradicionais sistemas de PLN que trabalhavam em domínios restritos. • Esta virada pede as vantagens de métodos quantitativos, pois essas aplicações trabalham com dados incorretos e, ao mesmo tempo os usuários estão se ajustando para aceitar resultados menos perfeitos. • Com as mudanças políticas e econômicas ocorridas no mundo, há uma grande ênfase em resultados e avaliações • caso das avaliações conjuntas e da disponibilização na Web de dados de treinamento para comparação de abordagens. • O próprio pêndulo intelectual, mesmo em outras áreas de pesquisa, está voltando para o empirismo, • procurando a construção de modelos da língua que levem em conta a incerteza e a variabilidade.

  14. E a Lingüística de Córpus? O que ela pode oferecer aos lingüistas tradicionais? • Começo dos anos 90´s: utilizava-se os termos “abordagem baseada em córpus” ou Análise Textual • Atualmente, existem várias conferências, incluindo a bianual “Corpus Linguistics” nas quais o público alvo é diverso: tanto da computação como lingüística; livros; córpus em várias línguas e ferramentas disponíveis na Web. • Essa área oferece uma oportunidade para: • Lingüistas tradicionais trabalharem de uma nova forma com as velhas disciplinas (como faz o lingüista computacional) • e juntamente com pesquisadores de PLN em outras tarefas que provavelmente nunca pensou em trabalhar! • Áreas de Pesquisa: compilação de córpus (crus ou anotados); desenvolvimento de ferramentas; descrição da linguagem; aplicação de córpus (ensino de línguas, reconhecimento de voz, tradução, etc.) • É uma área onde todos tem muito a aprender – pode ser a melhor chance que temos de começar a trabalhar de forma diferente

  15. Bibliografia • Brill, E. and Mooney, R. An Overview of Empirical Natural Language Processing, AI Magazine, Winter 1997, p. 13-24. • Klavans, J. and Resnik, P. The Balancing Act - Combining Symbolic and Statistical Approaches to Language, The MIT Press, 1996. • Church, K. and Mercer, R. Introduction to the Special Issue on Computational Linguistics Using Large Corpora, Computational Linguistics 19, p. 1-24, 1993. • Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999. • Daniel Jurafsky & James H. Martin. Speech and Language Processing. Prentice-Hall, 2000.

  16. The Núcleo Interinstitucional de Lingüística Computacional (NILC) wascreated in 1993 to foster research and development projects in ComputationalLinguistics and Natural Language Processing, such as Corpus and LexiconDevelopment, Automatic Summarization, Machine Translation, WritingSupporting Tools. Though it was originally conceived by scientists from theDepartment of Computer Science and Institute of Physics from theUniversidade de São Paulo (USP) in São Carlos, it now includes computerscientists, linguists and research fellows from Universidade Federal de SãoCarlos (UFSCar), Universidade Estadual Paulista (UNESP) of Araraquara. O ReGra foi a aplicação que deu origem ao NILC, em 1993, com financiamento da ITAUTEC-Philco e agências do governo Exemplos de trabalhos e forma de trabalho no NILC

  17. Comentários sobre os trabalhos • ReGra • Treinamento de Etiquetadores Morfossintáticos (taggers) a partir de grandes córpus • Extração Automática de Terminologia • Aprendizado Automático dos elementos da Estrutura Esquemática de Artigos Científicos • Todos os trabalhos acima utilizaram córpus de formas diferentes: • controlar a intuição lingüística; avaliação; anotar características manualmente, semi-automaticamente e automaticamente; treinamento de classificadores; extração de informação.

  18. ReGra • Corretor gramatical (baseado na gramática normativa) inserido no Office • Criado um córpus (o Córpus NILC com 35 milhões de ocorrências) com uma organização especial em 3 conjuntos: • textos corrigidos • textos semicorrigidos • textos não-corrigidos • Gramática do ReGra: criada manualmente segundo a abordagem simbólica (regras). • A gramática do ReGra será usada em uma ferramenta para criação de um córpus de desvio para anotar automaticamente os erros e permitir a sub-classificação manual deles e assim diminuir o tempo de anotação. É usada na ferramenta de suporte à escrita SCIPO • Córpus: usado para levantamento de padrões e avaliação do desempenho

  19. Taggers do Lácio-Web • Anotam automaticamente as sentenças de um texto com categorias gramaticais. • Certos algoritmos de treinamento exigem grande quantidade de palavras anotadas manualmente, cerca de 1 milhão. O Mac-Morpho (Lácio-Web) possui ~ 1,2 milhões de palavras • Treinados 3 taggers que usam modelos diferentes para futuramente criar um outro seguindo o modelo de combinação de classificadores para salientar os acertos dos 3 e evitar os seus erros. • Um dos modelos é simbólico (Brill), pois usa regras para representar o conhecimento aprendido ( vantagem de ser legível por humanos, comparado com grandes matrizes de probabilidades) • Córpus: usado para treinar classificadores segundo um aprendizado supervisionado que exigiu a anotação manual de cada palavra do córpus de treinamento (80%) • Não foi feita nenhuma inclusão de conhecimento lingüístico para pós-processamento ou melhorar a marcação de palavras desconhecidas

  20. Extração automática de terminologia • Extração de listas de candidatos a termos de um dado córpus de textos técnicos/científicos. • Existem 3 tipos de métodos: estatísticos, lingüísticos e híbridos (combinação dos 2 primeiros) • Projeto ExPorTer avaliou algoritmos dos 3 métodos; híbrido teve melhor desempenho em 2 córpus diferentes. • Córpus: usado como fonte da extração. Não há aprendizado da tarefa. • No método estatístico, há o cálculo de medidas estatísticas de associação para n-gramas (informação mútua, log-like, etc.) • No método lingüístico, há a aplicação de taggers, uso de padrões lingüísticos (subs-adj, subs-prep-subs) e padrões de definição/descrição para localizar o ponto de extração

  21. Classificador da estrutura esquemática de artigos • Anota automaticamente uma seção de um artigo com os elementos de uma estrutura esquemática pré-definida • Dada uma estrutura esquemática de uma seção do artigo, por exemplo o Resumo: • Contexto, Lacuna, Propósito, Metodologia, Resultado, Conclusão, Estrutura • o classificador utiliza um córpus com suas sentenças manualmente anotadas com os elementos acima, mas não trabalha com as sentenças diretamente e sim com vetores de atributos dessas sentenças: • Tamanho, localização, presença de citações, presença de expressões formulaicas, tempo, voz, presença de auxiliar modal, histórico • Córpus: • usado para treinar o modelo de anotação com um aprendizado supervisionado; • as sentenças são também processadas para criação dos atributos e nessa fase são utilizadas várias fontes de conhecimento lingüístico como taggers, regras sintáticas, listas de expressões padrões, etc.

  22. O Projeto Lácio-Web (LW) (1) Projetode 30 meses, financiado pelo CNPq e concluído em junho/ 2004 • Objetivos: • Desenvolvimento e distribuição gratuita na Web de vários tipos de córpus; • Elaboração de ferramentas de análise de lingüística: • Análise Qualitativa:construção de dicionários, descrição da língua, etc.; • Análise Quantitativa:estatísticas dos dados para etiquetadores, extratores, corretores, etc.; • Principais características: • Tipologia ortogonal e quadripartida de classificação de textos: • privilegia o Gênero, Tipo de Texto, Domínio e Meio de Distribuição; • Autorização de uso dos textos; • Interfaces de pesquisa e montagem de subcórpus via Web.

  23. LW – 6 córpus Lácio-Ref Mac-Morpho Par-C Comp-C Lácio-Sint Lácio-Sint Lácio-Dev Lácio-Dev aberto, paralelo (inglês-português) aberto, sincrônico, PB contemporâneo fechado, etiquetado aut. com lemas, etiquetas morfossintáticas e sintáticas. fechado, etiquetado aut. com lemas, etiquetas morfossintáticas e sintáticas. fechado, anotado morfossintaticamente (manualmente) aberto, comparável (textos jurídicos inglês-português) aberto, textos não revisados em relação à norma culta aberto, textos não revisados em relação à norma culta O Projeto Lácio-Web (LW) (2) Não implementados. Futuras pesquisas de mestrado e doutorado Todos implementados com cabeçalhos em XML com classificações tipológicas e bibliográficas e informações sobre o conjunto de caracteres.

  24. O Projeto Lácio-Web (LW) (3) • Interfaces de Pesquisa e Montagem de Subcórpus: • Pesquisa Simples: é a mais genérica e considera apenas 3 campos de pesquisa (Meio de Distribuição, Supergenêro e Gênero) ; • Pesquisa Avançada: é a intermediária e permite um refinamento dos campos de pesquisa; • Pode apresentar até 6 campos; • Pesquisa Personalizada: é a mais refinada e permite um recorte específico do subcórpus. • Pode apresentar até 15 campos;

  25. O Projeto Lácio-Web (LW) (4) • Interfaces de Ferramentas para aplicação nos subcórpus montados: • Contadores de Freqüência: • “Padrão” e “Por Palavra”: tratamento de lexia complexa (nomes próprios e palavras compostas); • Concordanciadores; • Etiquetadores Morfossintáticos: TreeTagger, Bril e MXPost;

  26. Material do LW e Disponibilizações Públicas • Material Institucional: • Fundação Victor Civita - Editora Abril, • Fapesp, • Associação Brasileira de Cerâmica, • Folha de São Paulo, • USP, • Editora Guanabara Koogan, and • Revista Brasil de Literatura Editora. • Material Individual: • teses e dissertações - site SABER • Pesquisadores do NILC (com artigos, teses e relatórios técnicos). • Primeira disponibilização em 20/1/2004; segunda em 30/6/2004; anúncio em várias listas relacionadas a córpus, por exemplo corpus-brasil@yahoogroups.com • Existe ainda material autorizado para ser disponibilizado.

  27. Página Principal do Portal (em Português)

  28. Os corporadisponíveis

  29. Tipos de Pesquisa e Arquivos Disponíveis

  30. Pesquisa Simples

  31. Informações adicionais

  32. Montagem de um subcorpus

  33. Finalizando o subcorpus

  34. Download e Ferramentas

  35. Contadores de Freqüência

  36. Tela de resultado dos Contadores de Freqüência Estou coletando a fala de seis crianças com idades entre 1 e 3 anos, num intervalo de aproximadamente quinze dias. O objetivo é formar um banco de dados longitudinal para descrever aspectos da aquisição lexical, tais como freqüência, vizinhança, essas coisas, que poderão ser utilizadas em outros trabalhos. A minha tese especificamente vai estar centrada em ... Paralelo a isto, porém, estou fazendo uma descrição do vocabulário das crianças em termos de freqüência, campo semântico, classe gramatical, tonicidade, número de sílabas e tipo de sílabas. É nesses aspectos que gostaria de utilizar os dados que acho que vcs dispõe, a fim de comparar a aquisição lexical infantil com dados do português como um todo. Ou seja: gostaria de saber se vcs. tem dados como: que classe gramatical é mais freqüente? Existem mais palavras dissílabas ou trissílabas? Qual a porcentagem de paroxítonas? essas coisas.

  37. O Concordanciador

  38. Resultado do Concordanciador

  39. Contexto ampliado do Concordanciador

  40. LW em Números • Lácio-Ref – pretende ser um grande córpus de Referência do PB, funcionando, por exemplo, como córpus de controle para comparação com um dado córpus de estudo. • 4,278 arquivos • 8,291,818 ocorrências • Par-C (córpus paralelo) • 646 arquivos em inglês e 646 in Português da Revista Pesquisa Fapesp • 893,283 ocorrências • Comp-C (gerador de córpus comparáveis) • Textos originais em Inglês e Português – obtidos com uma ferramenta de busca • Córpus de Referencia de Textos em Inglês (Ref-Ig) para o domínio jurídico • 29 arquivos e 61,149 ocorrências • No total, LW tem 5,708 files e 10,413,524 ocorrências

  41. Distribuição Final dos Textos no LW

  42. O Lácio-Web é hoje: • um Portal de acesso a córpus que disponibiliza gratuitamente: • 4 tipos distintos de córpus; • ferramentas lingüístico-computacionais para aplicação em subcórpus; • 3 tipos de interfaces de pesquisa e montagem de subcórpus; • ambiente de navegação dinâmica e didática que incentiva o uso de córpus • Futuramente, o Lácio-Web receberá ferramentas desenvolvidas em projetos do NILC como alinhadores de sentença, extratores de termos etc. • Será que precisamos de um Córpus Nacional do Português Brasileiro, seguindo os moldes dos megacórpus BNC e ANC?

  43. Projetos de Megacórpus • Contribuem para: • Descrição e ensino da língua • Desenvolvimento de Ferramentas de PLN • Criação de recursos (gramáticas e dicionários) Como o custo de criar e anotar córpus é muito alto tanto em recursos financeiros como em demanda de pessoal especializado, agências finnaciadoras e pesquisadores esperam amortizar esse custo pelo reuso desse recurso em mais de um projeto e por mais de um grupo de pesquisa, incluindo sua distribuição mundial. • O alto custo também força o desenvolvimento de arquiteturas de dados, formatos de codificação e formalismos de anotação para os recursos de língua que possibilitarão o intercâmbio • Um exemplo é o padrão XCES, (usa XML) que está sendo desenvolvido pelo grupo do projeto ANC ao mesmo tempo da criação do megacórpus

  44. Tipos de informações relevantes para codificação CES 1 – Documentation (header): bibliographic description of the document, character set, description of encoding convention, etc. 2 – Primary data 1.1 – Gross structure: volume, chapter, paragraph, footnotes, titles, tables, figures, etc. 1.2 – Sub-paragraph structures: sentences, quotations, words, abbreviations, dates, highligted words, etc. 3 – Linguistic annotation: linguistic information about segments e.g., POS and syntactic tagging, alignment of parallel texts. XCES valida a arquitetura de dados CES, na qual anotação lingüística (incluindo o cabeçalho) são mantidas em documentos separados que apontam o original, gerando um “hiperdocumento” composto do texto origina e todas as anotações

  45. Córpus do LW aberto, paralelo (inglês-português) Aberto, paralelo (Inglês-Português) Aberto, síncrono, PB contemporâneo fechado, anotado morfossintaticamente (manualmente) Fechado, anotado manualmente com etiquetas POS aberto, comparável (textos jurídicos inglês-português) aberto, comparável (textos jurídicos P-I) Lácio-ref + Ref-Ig Codificação dos Córpus do LW Lácio-Ref Mac-Morpho Par-C Comp-C Lácio-Ref, Par-C e Comp-C: cabeçalho XML com info bibliográfica e tipologias, conjunto de carcateres e codificação. Inserido manualmente Mac-Morpho: 2 formatos: 1) buscas --- etiquetas XML para nome do arquivo, título, subtítulo, parágrafo, sentença; 2) treinamento de taggers --- pares palavra–tag separados por linhas

  46. Conjunto de caracteres e codificação Parte da Descrição Bibliográfica Gênero e Sub-gênero Tipo de Texto Domínio e Sub-domínio Meio de Distribuição Cabeçalho do LW <?xml version="1.0" encoding="ISO-8859-1"?> <header> <>...</> <title> <fileName>RE-IF-F-ci-ago02_01.txt</fileName> <corpus>Referência</corpus> <nPages>1</nPages> <nWords>311</nWords> <sample>Íntegra</sample> </title> <>...</> <textClassification> <textGenre> <genre>Informativo</genre> <subgenre>Jornalístico</subgenre> </textGenre> <textType>Notícia</textType> <domain> <generalDomain defined="annotador-def">Científico/Ciências Biológicas</generalDomain> <specificDomain>Ecologia</specificDomain> <generalSecondaryDomain defined="annotador-def">Científico/Ciências Agrárias</generalSecondaryDomain> <specificSecondaryDomain>Medicina Veterinária</specificSecondaryDomain> </domain> <distribution>Revista</distribution> </textClassification> </header> • Cabeçalho de classificação em XML: • Informações Tipológicas: • Supergênero, Gênero, Subgênero, Tipo de Texto, Meio de Distribuição, Domínio, Subdomínio; • Informações Bibliográficas: • Nome do Autor, Editor, Local de Publicação, Data, Titulo, Subtítulo, Língua, Número de Páginas, Número de Palavras etc.;

  47. Base de Dados Subgenre Genre Y ... X ... Text type Z ... Text X Y Z K C N ... ... Dist. K ... Domain Subdomain N ... C ... Cabeçalho do LW <?xml version="1.0" encoding="ISO-8859-1"?> <header> <>...</> <title> <fileName>RE-IF-F-ci-ago02_01.txt</fileName> <corpus>Referência</corpus> <nPages>1</nPages> <nWords>311</nWords> <sample>Íntegra</sample> </title> <>...</> <textClassification> <textGenre> <genre>Informativo</genre> <subgenre>Jornalístico</subgenre> </textGenre> <textType>Notícia</textType> <domain> <generalDomain defined="annotador-def">Científico/Ciências Biológicas</generalDomain> <specificDomain>Ecologia</specificDomain> <generalSecondaryDomain defined="annotador-def">Científico/Ciências Agrárias</generalSecondaryDomain> <specificSecondaryDomain>Medicina Veterinária</specificSecondaryDomain> </domain> <distribution>Revista</distribution> </textClassification> </header>

  48. Corpo do Texto - LW • Texto e cabeçalho estão juntos em um arquivo • Não estamos seguindo a arquitetura de dados usada no XCES. • Não anotamos em XML vários elementos da gross structure, por exemplo, capítulos, parágrafos, sub-parágrafos, notas de rodapé • Esses elementos estão formatados e padronizados para permitir visualização fácil com quebra de linhas, caixa-alta, etc. • Somente a anotação de elementos gráficos, bibliografia, palavras-chave e resumo foram feitas em XML • Palavras com ênfase foram perdidas quando o texto foi convertido no formato txt (foi uma opção de projeto)

  49. Mestrado em Estudos Lingüísticos na UFSCar • Em julgamento pela CAPES; resposta no próximo dia 21/12 • A linha “Linguagem Humana e Tecnologia”, começa com 3 pesquisadoras do NILC (Gladis Maria de Barcellos Almeida, Lúcia Helena Machado Rino e Sandra Maria Aluísio) e foi pré-avaliada com elogios por trazer um diferencial. • Aceitará alunos da Computação e da Lingüística trabalhando com as abordagens baseada em córpus e simbólica e, principalmente, com a combinação dessas • Disciplinas Iniciais: • Introdução a Metodologias Baseadas em Conhecimento • Lingüística de Corpus • Introdução ao Processamento de Línguas Naturais (PLN) • Terminologia e Ferramentas Computacionais • Sumarização Automática (SA) • Seminários de Linguagem Humana e Tecnologia

  50. Links interessantes • Site do NILC: http://www.nilc.icmc.usp.br/nilc/index.html • Arquivo das mensagen das lista corpora: http://nora.hd.uib.no/corpora/archive.html • Site da Linguateca – córpus e ferramentas: www.linguateca.pt Obrigada!

More Related