Constru o manuten o e disponibiliza o de corpora
Download
1 / 31

- PowerPoint PPT Presentation


  • 47 Views
  • Uploaded on

Construção, Manutenção e Disponibilização de Corpora. Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio. III Workshop do Projeto PLN-BR - 9/5/2008 – ICMC-USP. Atividades do sub-projeto. Definição dos Protocolos e Padrões de Representação dos Documentos

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '' - vevina


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Constru o manuten o e disponibiliza o de corpora

Construção, Manutenção e Disponibilização de Corpora

Marcelo Muniz, Kleber Infante, Fernando Muniz

Sandra Aluísio

III Workshop do Projeto PLN-BR - 9/5/2008 – ICMC-USP


Atividades do sub projeto
Atividades do sub-projeto

  • Definição dos Protocolos e Padrões de Representação dos Documentos

  • Disponibilização dos Córpus de Treinamento

  • Construção da Plataforma de Acesso aos Córpus– o Portal de Córpus

    • PLUS: disponibilização do córpus global (PLN-BR FULL - 29.014.089 tokens ) no ambiente Philologic:

      http://moodle.icmc.usp.br/philologic-plnbr1/http://moodle.icmc.usp.br/philologic-plnbr2/http://moodle.icmc.usp.br/philologic-plnbr3/


Defini o dos protocolos e padr es de representa o dos documentos
Definição dos Protocolos e Padrões de Representação dos Documentos

  • 1.1 Adotamos o padrão XCES para anotação:

    • dos cabeçalhos dos textos dos córpus

    • da estrutura geral (parágrafos e sentenças)

  • 1.2 Essas 2 últimas foram geradas automaticamente com a ajuda do segmentador sentencial SENTER, citado acima.

  • 1.3 A anotação é stand-off, mas oferecemos também a intercalada, realizada por uma ferramenta disponibilizada pelo projeto do American National Corpus (ANC)

  • Estamos trabalhando na criação de um script independente que gere as 3 anotações (marcação lógica de parágrafos, de sentenças e cabeçalho XCES mínimo) para ser usado fora do ambiente do Portal

  • Um RT está para sair e deve descrever tanto as anotações estruturais quanto lingüísticas


  • Updates
    Updates Documentos

    • Estamos trabalhando na criação de um script independente que gere as 3 anotações (marcação lógica de parágrafos, de sentenças e cabeçalho XCES mínimo) para ser usado fora do ambiente do Portal

    • Um RT está para sair e deve descrever tanto as anotações estruturais quanto lingüísticas

    • Dois RT:

      • Aluísio, S. M., Muniz, F.A.M., Infante, K.M. (2007). Projeto Pln-Br: O Cabeçalho em Xml para os Textos do Córpus e o Editor Web de Cabeçalhos. Nilc-Tr-07-05, Junho 2007, 69 p.

      • Aluísio, S. M., Muniz, F.A.M. (2007). Instalação e Administração do Portal de Córpus do Projeto PLN-BR. Nilc-Tr-07-12, Outubro 2007, 17 p.


    Disponibiliza o dos c rpus de treinamento
    Disponibilização dos Córpus de Treinamento Documentos

    • Córpus Gold Standard (PLN-BR GOLD - 338.441 tokens) - Público

      • amostra aleatória estratificada e proporcional à distribuição do córpus global do projeto PLN-BR com relação aos textos dos cadernos.

      • Ela é formada por 1% dos textos do córpus maior e possui somente notícias e reportagens (o que equivale a 1.024 textos).

  • Córpus para treinamento de classificadores de conteúdo (PLN-BR CATEG - 9.780.220 tokens) – Restrito aos membros

    • Amostra com 29.999 textos, seguindo o mesmo tipo de amostra do Córpus Gold Standard


  • Updates1
    Updates Documentos

    • GOLD receberá a última versão das anotações POS, Phrases, WORDS, vinda do Palavras via script criado pelo grupo de Renata.


    Constru o da plataforma de acesso aos c rpus o portal de c rpus 1
    Construção da Plataforma de Acesso aos Córpus Documentos– o Portal de Córpus [1]

    • A plataforma possui:

      • um Editor Web de Cabeçalhos que preenche um banco de dados (BD) com informações dos cabeçalhos dos textos. Com os dados dos textos no BD há a possibilidade de:

        • várias formas de pesquisa aos textos dos córpus e montagem de sub-córpus.

  • O sub-córpus criado com as pesquisas:

    • é disponibilizado para download seguindo o padrão XCES, a partir dos dados do banco de dados e em texto crú

    • pode ainda ser consultado via uma ferramenta de exploração gráfica – o PEx-Corpus Tool [2]

      • O PEx-Corpus é uma adaptação do projeto Projection Explorer (PEx) que permite inspecionar visualmente um subcórpus para explorar o seu conteúdo e criar outros subcórpus com base numa seleção de tópicos.

        [1] http://www.nilc.icmc.usp.br:8180/portal/

        [2] http://www.lcad.icmc.usp.br/~paulovic/pex/


  • Updates resultados de pesquisa divulga o
    Updates: Resultados de Pesquisa, Divulgação Documentos

    • Só 1 artigo sobre o Portal – precisamos divulgar melhor o projeto que pode beneficiar muitos pesquisadores

    • Disponibilização do código do Portal na Incubadora Fapesp

      • Ótimo para divulgação e facilidade de acesso

      • Uso do Portal em 2 mestrados:

        • Filipi Silveira (Vera Strube) – agregou funcionalidades de compilação de córpus a partir de vários formatos e funcionalidades para análise de córpus e vai deixar disponível publicamente o Entrelinhas

        • Fernando Muniz (Sandra Aluísio) – vai integrar o Portal num ambiente colaborativo de geração de produtos terminológicos e-termos, integrar métodos prontos para extração de termos (do mestrado de Junior, aluno de Renata???) e trabalhar com o tema normatização de manuais de software, via simplificação textual


    Proposta de pesquisa artigos
    Proposta de pesquisa - artigos Documentos

    • Mostrar como o Portal pode ser integrado em projetos maiores de compilação/uso de córpus via 2 estudos de caso:

      • Entrelinhas (Vera Strube)

      • E-Termos + Métodos de Extração de Termos (Sandra, Gladis e Renata)

    • Mostrar usos do PLN-BR FULL para

      • Glosagem da Wordnet.Br e sua Indexação à WordNet de Princeton (Bento)

      • Aprendizagem Automática de Informações Lexicais (Violeta)


    Coisas que n o sei
    Coisas que não sei Documentos

    • Não sei como os córpus foram usados pelos subprojetos:

      • Sumarização Automática e Recuperação da Informação Textual

      • Representação do Conhecimento Textual

    • Mas adoraria saber ;)


    Fernando muniz
    Fernando Muniz Documentos

    • Vai explicar a parte técnica do Portal


    Portal de c rpus do projeto pln br

    Portal de Córpus do DocumentosProjeto PLN-BR

    Marcelo Muniz, Fernando Paulovich, Rosane Minghim, Kleber Infante, Fernando Muniz, Renata Vieira, Sandra Aluísio


    O portal de c rpus
    O Portal de Córpus Documentos

    • Desenvolvido usando tecnologias open source

    • Arquitetura Cliente-Servidor

    • Um portal de Córpus compatível com XCES

      • Baseado em um banco de dados que mapeia o formato XCES em entidades relacionais para permitir consultas rápidas

    • Acesso público em: http://www.nilc.icmc.usp.br:8180/portal/

    • Download do Portal disponível na Incubadora Fapesp:

      http://incubadora.fapesp.br/projects/portal-corpus/


    Constru o manuten o e disponibiliza o de corpora

    Client Side Documentos

    Server Side

    MySQL

    Header Editor +

    Corpus Uploader(java applet)

    texts

    XCES

    Browser(Portal)

    Web server(servlet container)

    search results

    PEx-Corpus Tool(java applet)

    XCES, text,

    annotations

    Senter + ANC Tools

    Portal de Córpus client/server architecture


    Portal de c rpus
    Portal de Córpus Documentos

    • Características

      • Acesso controlado

      • Córpus público ou privado

      • Inserir/Editar informações de cabeçalho (Header editor)

      • Inserir/Editar anotações stand-off (Header editor)

      • Funções de busca para construir subcorpora

        • Text type, keywords, Bibliographic data, newspaper sections

      • PEx-corpus tool (visual document map)


    Efetuando buscas
    Efetuando buscas Documentos

    • Efetuar login

    • Selecionar córpus

    • Selecionar tipo de Busca

    • Fazer download do resultado

    • Mapeamento de documentos através da ferramenta PEx-Corpus


    Efetuando buscas1
    Efetuando buscas Documentos



    Header editor
    Header Editor Documentos

    • Acesso restrito

      • Usuário, senha, endereço do servidor, nome da base de dados

    • Possui uma interface gráfica (java applet) que permite ao usuário

      • criar, manter e visualizar informações do cabeçalho de textos que estão armazenados em um banco de dados MySQL

    • Cada córpus é armazenado em um base de dados diferente

    • Opção de inserir vários textos de uma vez



    Administra o do portal
    Administração do portal Documentos

    • Administração de usuários

    • Administração de Córpus

      • Criar, desativar, alterar

    • Atualização do portal com notícias

    • Configurações gerais

      • Links, arquivos, páginas do portal

    • www.nilc.icmc.usp.br:8180/portal/admincp/index.jsp


    Recomenda es
    Recomendações Documentos

    • A utilização da ferramenta de busca e do PEx-Córpus pode ser feita a partir de qualquer computador com acesso à internet e um navegador web disponível.

    • A utilização do Header Editor preferencialmente deve ser feita em ambiente de INTRANET.


    Portal interno
    Portal Interno Documentos

    • Acesso restrito – Cadastro independente do Portal de Córpus

    • Endereço:

      http://www.nilc.icmc.usp.br:8180/portalinterno/

    • Córpus disponíveis:

      PLN-BR CATEG (30.000)

      PLN-BR FULL (100.000)


    Pln br full no philologic
    PLN-BR FULL no Philologic Documentos

    • Acesso restrito

    • Parte 1 - 1994-1997

      • http://moodle.icmc.usp.br/philologic-plnbr1/

    • Parte 2 - 1998-2001

      • http://moodle.icmc.usp.br/philologic-plnbr2/

    • Parte 3 - 2002-2005

      • http://moodle.icmc.usp.br/philologic-plnbr3/


    Contato fernando muniz@gmail com

    contato Documentos

    fernando.muniz@gmail.com

    Obrigado!