1 / 33

7. Mineração de Texto ("Text Mining")

7. Mineração de Texto ("Text Mining"). O Que É Mineração de Texto?. É a expressão que se dá para o problema de classificar documentos Por exemplo: classificação por tópico  esporte, economia, “spam e-mail”, etc ‘esporte’, ‘economia’, ‘spam’ são classes

rafi
Download Presentation

7. Mineração de Texto ("Text Mining")

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 7. Mineração de Texto ("Text Mining")

  2. O Que É Mineração de Texto? • É a expressão que se dá para o problema de classificar documentos • Por exemplo: classificação por tópico  esporte, economia, “spam e-mail”, etc • ‘esporte’, ‘economia’, ‘spam’ são classes • No mundo de documentos, usa-se mais rótulo (“label”) • Documento: texto não-estruturado, em oposição a texto estruturado • Mineração de Texto  Classificação de Documentos

  3. O Que É Mineração de Texto?(2) • Processos de classificação ‘clássicos’ • Classificação de Documentos Estruturados • Cada documento é representado por uma linha (ou registro, ou instância) de uma tabela não-normalizada • Tipos de processo • Classificação Supervisionada • Classificação Não-Supervisionada

  4. O Que É Mineração de Texto?(3) • Documento transformado em uma representação numérica estruturada • f : w  L w é um vetor de atributos (palavras)  Dicionário L é um rótulo (“label”) • O problema é transformado, aproximadamente, em um processo de classificação ‘clássico’

  5. Transformação de Documentos em Vetores Numéricos

  6. Transformação de Documentos em Vetores Numéricos (2) • Dicionário (“dictionary”, “feature”) • Palavras relevantes que podem estar presentes em um documento • word1, word3, word6, ..., wordN • Dado um dicionário e um documento, o documento é transformado num vetor de números • Na forma mais simples, vetor de 1s e 0s, representando a presença ou ausência de de palavras individuais • Na tabela do slide anterior (“spreadsheet”), cada linha é um vetor em que um documento  por exemplo, um artigo  foi transformado

  7. Transformação de Documentos em Vetores Numéricos (3) • “Label” • Representa um atributo de classificação • Binário • 1 (positivo), Financeiro • 0 (negativo), ñ Financeiro • O problema de classificar artigos pode ser agora resolvido com um algoritmo ‘clássico’ de mineração de dados • Mais de um “label”? • Dicionários temáticos, ou locais • n “spreadsheets”, um para cada “label”

  8. Geração de Vetores • Padronização de formato dos documentos • O software TMSK adota o padrão XML • “Tokenizaton” • Cada palavra relevante para o dicionário é um “token” • Para vetores binários, é assinalada a presença ou não de um “token” (palavra) • Para vetores não-binários, a freqüência do “token” é a métrica • Há vários modelos de freqüência (ver o livro “Text Mining”, na Bibliografia) • “Stemming” ou “Lemmatization” • “Tokens” sinônimos  “Token” • Note que, se o dicionário for grande, os vetores tendem a ser esparsos • Necessidade de técnicas de compressão de vetores

  9. Vetores Esparsos

  10. Classificação de Documentos • Similaridade • Modelagem Estatística • Regras de Decisão

  11. Similaridade

  12. Similaridade (2) • Compute the similarity of newDoc to all documents in collection C • Select the k documents that are most similar to newDoc • The answer is the label that occurs most frequently in the k selected documents

  13. Similaridade (3) • Métodos Lineares de Escore (“Linear Scoring Methods”) • Cada atributo (palavra) do vetor tem um peso • O peso de um atributo indica quão distinguível é o atributo para rotular o documento • Se um atributo é muito freqüente em todos os documentos do conjunto-treinamento, então não é significativo, e seu peso deve ser comparativamente pequeno • Os pesos são induzidos do conjunto-treinamento

  14. Similaridade (4) Linear Model • Um Exemplo New Document

  15. Similaridade (5) • O problema é distinguir entre duas classes • Escore positivo prediz a classe positiva (rótulo = ‘sim’) • Escore negativo prediz a classe negativa (rótulo = ‘não’) D é o documento wj é o peso para a j-ésima palavra do dicionário b é uma constante xjé 1 ou 0, dependendo da presença ou não da j-ésima palavra

  16. Similaridade (6) • Família “k-Nearest-Neighbor” • O método básico • Mede a distância entre dois vetores, representando respectivamente dois documentos • Distância(x,y)=(x1-y1)2 + ... + (xm-ym)2 • Quanto maior a distância, mais fraca a conexão entre os documentos

  17. Similaridade (7) • Contagem de palavras, com bonificação D(i) de uma coleção é comparado com o novo documento No. de documentos em que a palavra j ocorre na coleção

  18. Similaridade (8) • “Cosine Similarity” • O método clássico de comparar documentos no campo de “Information Retrieval” Freqüência da palavra j em um documento

  19. Similaridade (9) • Desempenho do algoritmo do slide 12 • Listas invertidas Documents List of Words

  20. Modelagem Estatística • Naïve Bayes

  21. Modelagem Estatística (2) • Considere um novo documento D • P(Class=1D)=((1-.75)x.25x.5x.5)x.4=.00625 • P(Class=0D)=((1-.5)x.67x.33x.5)x.6=.03333 • P(Class=1D)=.00625/(.00625+.03333)=16% • P(Class=0D)=.03333/(.00625+.03333)=84% 0 1 1 1

  22. Regras de Decisão • Regras induzidas de relatórios de ganhos em bolsas de valores, fornecidos pela agência Reuters shr  earn div  earn dividend  earn payout  earn qtr  earn earnings & sees  earn quarter & cts  earn split  earn profit  earn OTHERWISE  ~earn

  23. Regras de Decisão (2) • Cada regra é uma frase, simplesmente uma conjunção de palavras • Dado um novo documento D • Se qualquer das frases ...  earn é encontrada, D é classificado como um relatório de ganho na Bolsa • Diz-se também que o rótulo (“label”) do documento é positivo (em relação a ganhos na Bolsa) • Se nenhuma das frases é encontrada no documento, então D não é um relatório de ganho na Bolsa  TRUE  ~earn • Diz-se também que o rótulo do documento é negativo

  24. Regras de Decisão (3) • Algoritmos WEKA • ID3, J48, Prism, ... • Problemas • Não trabalham com vetores esparsos • Inferem ... Wordi = ‘0’ ..., o que não queremos • Necessidade de novos algoritmos

  25. Regras de Decisão (4) • Avaliação da qualidade de modelos de regras de decisão

  26. Regras de Decisão (5) • Os melhores modelos -- conjuntos de regras (“RSet”) – são aqueles assinalados com ‘*’ e ‘**’, respectivamente • Têm as melhores acurácias de teste • Melhores estimativas de acerto em classificar novos documentos • Comparativo dos modelos ‘*’ e ‘**’ • As acurácias de teste são próximas, ‘*’ é um pouco melhor • Os desvios padrão (“Standard Deviation” – SD) são próximos, ‘*’ é um pouco melhor • O modelo ‘**’ é bem mais acionável (média de 3 palavras, contra média de 7 palavras) • Note a importância, também, da métrica desvio padrão

  27. Sobre Métricas de Qualidade de Classificação de Documentos • Métricas de Qualidade • As mesmas para documentos estruturados • Acurácia de teste • Precisão • “Recall” • Média Harmônica (“F-Measure”) • O exemplo de “spam e-mail” visto é na verdade mineração de texto

  28. Sobre o Software de Mineração de Texto • TMSK: Text-Miner Software Kit • Manual do Usuário: http://www.dsc.ufcg.edu.br/~sampaio/cursos/2006.2/PosGraduacao/MineracaoDeDados/TexTMiningSoftware/tmsk.pdf • Instalador: http://www.dsc.ufcg.edu.br/~sampaio/cursos/2006.2/PosGraduacao/MineracaoDeDados/TexTMiningSoftware/installtmskj.exe

  29. Sobre o Software de Mineração de Texto (2) • TMSK: Text-Miner Software Kit • Classificadores • Naïve Bayes (nbayes, testnbayes) • Método Linear de Score (linear, testline) • Parâmetros para testnbayes • Limiar de probabilidade (“Probability-threshold”) • Deve ser excedido para uma classificação positiva • Default: 0.5 • Limiar de rejeição (“Reject-threshold”) • Deve ser excedido para qualquer classificação (positiva ou negativa) • Default: 0.5 • Parâmetros para linear • Feature-type: binary, tf, tf*df • Default: tf • Parâmetros para testline • Decision-threshold

  30. Sobre o Software de Mineração de Texto (3) • TMSK: Text-Miner Software Kit • testnbayes • Probability-threshold: 70% • Se classificação positiva > 70% OK senão classificação negativa • Reject-threshold: 60% • Classificação positiva: 45% • Classificação negativa: 55% • Decisão: documento não-classificado

  31. Sobre o Software de Mineração de Texto (4) • TMSK: Text-Miner Software Kit • Recuperando documentos similares: matcher • Casa um documento com um conjunto de documentos e recupera os mais similares ao primeiro

  32. Sobre o Software de Mineração de Texto (5) • RIKTEXT: Rule Induction Kit for Text • Manual do Usuário: http://www.dsc.ufcg.edu.br/~sampaio/cursos/2006.2/PosGraduacao/MineracaoDeDados/TexTMiningSoftware/riktext.pdf • Instalador: http://www.dsc.ufcg.edu.br/~sampaio/cursos/2006.2/PosGraduacao/MineracaoDeDados/TexTMiningSoftware/installriktext.exe

  33. Sobre o Software de Mineração de Texto (6) • Induz Regras de Classificação de documentos em Positivos e Negativos • O modelo é uma lista ordenada de regras <conjunçao-de-palavras-do-dicionário>  positivo • A última regra da lista ordenada é TRUE  negativo • O algoritmo de predição pára na primeira regra casada • Entradas para TMSK e RIKTEXT • Dicionário de Dados • Documentos XML • Representações vetoriais de documentos

More Related