1 / 28

Criando corpora pessoais Corpógrafo – presente e futuro

Criando corpora pessoais Corpógrafo – presente e futuro. Belinda Maia. PRESENTE. Corpógrafo. Um conjunto de ferramentas que permitem: Criar corpora Analisar corpora Extrair e catalogar itens linguísticos Armazenar o material estudado Exportar os resultados. Corpógrafo. Versão online:

ewa
Download Presentation

Criando corpora pessoais Corpógrafo – presente e futuro

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Criando corporapessoaisCorpógrafo – presente e futuro Belinda Maia

  2. PRESENTE

  3. Corpógrafo • Um conjunto de ferramentas que permitem: • Criar corpora • Analisar corpora • Extrair e catalogar itens linguísticos • Armazenar o material estudado • Exportar os resultados

  4. Corpógrafo • Versão online: • Tem todas as funções • Cada pessoa ou grupo trabalha num espaço próprio • O trabalho de cada espaço é privado • Versão descarregável • Tem de pedir licenças para certas funções • Não compatível com Windows

  5. Criar corpora • Colecção de textos • Limpeza de formatação – e.g. .doc, .pdf, .ps, .html • Fraseamento do texto • Dicionário • Registo de metadata • Referências bibliográficas, fontes, etc • Classificação - ‘medium’, género, domínio • Língua

  6. Criar corpora Organização – e reorganização - de textos em corpora Registo de metadata Relacionar corpora Alinhamento de textos paralelos Criação de corpora paralelos Exportação de corpora

  7. Analisar corpora Concordância frase – frase inteira Concordância Janela – até 15 átomos de cada lado Concordância KWIC – até 15 átomos ou 100 caráteres N-grams – até 15 – ordem alfabética / frequência

  8. Concordâncias • Pode ver • Metadata do texto fonte • Estatísticas do átomo / frase no corpus • Outra forma de concordância • Em concordância janela – pode reorganizar por colunas à esquerda ou direita

  9. Tipos de pesquisa • Por expressões regulares MySQL • Por PoS NooJ – em Francês, Inglês ou Português • Utiliza dicionários etiquetados • Por sequências de expressões regulares ou gramáticas NooJ

  10. Centro de conhecimento • Bases de dados terminológicas • Objectivo original – extracção de terminologia • Bases de dados fraseológicas • Objectivo mais recente – permitir extracção e classificação de • Itens do léxico geral • Expressões multi-palavras

  11. Bases de dados terminólogicas • BDs - multilingual • Ferramentas: • n-gram com filtros para extracção de ‘candidatos a termos’ • Possibilidade de pesquisar definições e relações semânticas • Escolha de termos > traz metadata do corpus • Dados terminológicos – registo de informação • Material multimedia

  12. Informação em BD • Geração de estatísticas dos termos • Frequência • Co-ocurrência em textos • Ferramenta para ‘bootstrapping’ textos a partir de termos escolhidos • Concordância de corpora comparáveis • Criação de relações semânticas pelo pesquisador

  13. BDs Fraseológicas Algumas funções iguais ou semelhantes às BDs terminológicas MAS Pesquisa com gramáticas NooJ – resultados > BD Relações discursivos (Rhetorical Structure Theory) Possibilidade de criar classificações do investigador

  14. Exportação de dados Exportação de corpora Exportação de BDs

  15. FUTURO

  16. Funcionamento Acelerar processamento Tornar possível manuseamento de maior quantidade de dados Permitir mais interacção entre áreas privadas quando desejado Criar possibilidade de projectos em grupo mais sofisticados

  17. Textos e corpora Ferramenta para ‘bootstrapping’ de textos na Net na área de ‘uploading’ textos Criar possibilidades de aceitar mais tipos de ficheiros - .docx, ppt, pptx, etc Criar possibilidade de utilizar Corpografo com línguas como polaco, russo, grego, e até árabe e chinês etc Melhorar sistema de limpeza de textos

  18. Listas do léxico • Actualmente podemos criar um ‘dicionário’ de cada texto ou corpus • Criar • ‘standard wordlists’ para comparação • + sistema estatística relacionado • Etiquetagem PoS automática + ferramentas de correcção

  19. Pesquisa de corpora My SQL - aumentar possibilidades com mais exemplos e tutorial próprio – para linguístas  Possibilidades de utilizar vários sistemas (semi-)automáticos de anotação Integração de uma ferramenta que permite ao utilizador criar a sua própria anotação

  20. Outras Ideias • Aumentar possibilidades de criar relações • Sintácticos • Semânticos • Criar possibilidades de visualizar as relações estabelecidos • Usar métodos estatísticos para criar ‘word clouds’ para futuro estudo e análise por linguístas > melhores ferramentas para data mining

  21. Aproveitar • Wordnet – original e em PT • Framenet – original e em PT • Outros maneiras ‘linguísticas’ de analisar a linguagem • …… • Sistemas informáticos > word clouds

  22. Por exemplo • http://news.bbc.co.uk/2/hi/americas/7813432.stm • What words did George Bush use most during this eight-year presidency?

  23. Wortschatz – Univ. Leipzig • http://corpora.informatik.uni-leipzig.de/?dict=uk • Computational • Linguistics • Artificial • Intelligence

More Related