1 / 17

HAREM 2.0 Proposta Luís Sarmento e Cristina Mota

HAREM 2.0 Proposta Luís Sarmento e Cristina Mota. Objectivos Pistas Tarefas Constituição das colecções de trabalho Metodologia de avaliação. Objectivos. (Reconhecemos a importância do HAREM para o desenvolvimento na área em português).

Download Presentation

HAREM 2.0 Proposta Luís Sarmento e Cristina Mota

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. HAREM 2.0PropostaLuís Sarmento e Cristina Mota • Objectivos • Pistas • Tarefas • Constituição das colecções de trabalho • Metodologia de avaliação

  2. Objectivos (Reconhecemos a importância do HAREM para o desenvolvimento na área em português) • Abrir a discussão à comunidade relativamente ao futuro do REM • Estabelecer um roteiro com objectivos em termos de extracção de informação • Propor um conjunto de extensões e de alterações que nos parecem realistas e alcançáveis no prazo de um ano

  3. Pista Robusta 1 • Descrição • Detecção e Classificação de EM em textos sem capitalização • Motivações • Permitir REM sobre texto que não possui originalmente informação acerca da grafia ou a grafia é irregular: • gerado por um reconhecedor de voz • mails, blogs, etc. • Obrigar à definição/caracterização de EM sem recorrer ao uso da capitalização • [m|M]inistro dos Negócios Estrangeiros • [c|C]onstante de Planck

  4. Pista Robusta 1 [Implicações] • Levanta imensos problemas na determinação da delimitação das EM, sendo necessário caracterizar com maior precisão a tarefa • A identificação terá de ser mais inteligente • análise do contexto muito mais importante • utilização de certos recursos lexicais para “identificar” inícios / fins… • Poderá diluir a diferença entre “Identificar” e “Classificar”

  5. Pista Robusta 2 • Descrição • Teste dos sistemas em várias colecções datadas de forma diferente mas do mesmo género e domínio • Motivação • Verificar de que forma os sistemas se comportam quando expostos a variações na dimensão temporal • Ajudar a testar a importância da actualização (ou não) dos almanaques ou das regras

  6. Pista Robusta 2 [Problemas] • Será que a definição actual das tarefas é apropriada à realidade de outras épocas? • Como isolar o impacto prático das variações no eixo tempo? • Como garantir que a colecção permite isolar o factor tempo?

  7. Tarefas • Identificação • Classificação Semântica • Classificação Morfológica • Papel semântico • Extra: Capitalização (Pista Robusta)

  8. Tarefa Extra [Capitalização] • Descrição • Corrigir/uniformizar a capitalização de entidades mencionadas em textos sem capitalização • Motivação • Tarefa essencial de pós-processamento em sistemas de reconhecimento de fala, como por exemplo sistemas de ditado e legendagem

  9. Tarefa “Alargada” • Descrição: • Marcação de todas as menções a uma entidade, sejam, nomes próprios, nominais ou pronominais • Ergónimos, nacionalidades, “categorias”: • … <Diana Santos>, {investigadora portuguesa}… • A {multinacional americana} <Microsoft>… • A <Fundação Oriente> ... porque nesta {instituição} ... • <Pauleta> afirma ... até porque a equipa nao {o} apoiou. • Motivações: • Estes elementos são muito importante para: • Extracção de Informação (factoides, definições) • RAP: a resposta pode não ser uma EM mas algo muito relacionado e “fácil” de marcar • Preparação para uma futura tarefa [Harem 3.0] que inclua a detecção de co-referência • Aguçar o apetite para tarefas de “chunking”

  10. Mas não é complicado? • Em certos casos não, porque pode já estar incluído na regra de classificação da EM: • … <Diana Santos>, {investigadora portuguesa}… • Noutros casos é porque as categorias podem ser abertas… mas pode ser muito interessante começar a produzir corpora com toda esta marcação

  11. Tarefa “3 em 1” • Até agora considerou-se 2 tipos de marcação: • Morfológica • Semântica (2 níveis: classe e tipo) • Durante a discussão das regras houve bastante polémica acerca da filosofia da marcação • Mas pensamos que toda a gente concordará a vantagem de marcar as entidades como elas são “mencionadas” • O HAREM foi mais longe que outras avaliações

  12. Tarefa “3 em 1” • Contudo, houve na nossa opinião uma mistura de dois factores na marcação semântica: • Classificação & Papel Semântico • “Portugal acusa Bruxelas de ser parcial na atribuição de verbas aos países membros” • Como deve ser marcado semanticamente “Portugal”? • ORG? Segundo as regras do HAREM sim… • Depreende-se que “Portugal” está a substituir “Governo Português” que é uma Organização mas este salto ontológico é “arriscado” • Porque…

  13. Porque… • Qual será a pergunta natural?… • “Quem acusou Bruxelas de ser parcial…?” • “Que país acusou Bruxelas de ser parcial…?” • “Portugal, o país produtor de Vinho do Porto, acusa Bruxelas de ser parcial na atribuição de verbas aos países membros”

  14. Então… • Porque não decompor a classificação semântica em dois eixos: • Classificação semântica “intrínsica” • Papel Semântico • “Portugal acusa Bruxelas de ser parcial na atribuição de verbas aos países membros” • Portugal: • GEOPOL::País (não arrisco dizer LOC ou ORG) • Papel: Agente

  15. Um esclarecimento • Note-se que não há “perda” da noção de “forma de menção”: ainda estamos a falar de “entidades mencionadas” • Pode haver vários papéis: • “agente” • “paciente” / “objecto”… • Podem ser acrescentados / especializados há medida que se torne interessantes

  16. Implicações… • Pode levar a ter que repensar a estrutura de classificação do HAREM • Pode ser que se resolvam algumas “ambiguidades”… e que se criem outras? • Permite olhar para a marcação de uma forma mais rica. • Obriga a uma análise mais profunda, provavelmente implica análise sintáctica e semântica

  17. Metodologia de Avaliação • Várias Colecções Douradas • pretende-se analisar a consitência do resultado de cada em sistema em diversas colecções cujas propriedades são neste momento complexas de caracterizar e que portanto podem ter idiossincrasia especificias • Será que os sistemas apresentam oscilações significativas em diferentes colecções.

More Related