1 / 31

Minería de texto

Minería de texto. Análisis Documental. Información.

Download Presentation

Minería de texto

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Minería de texto Análisis Documental

  2. Información La producción y crecimiento del volumen de información digital, en los últimos años ha sido de forma exponencial, de tal suerte que en la actualidad es necesario contar con equipos de cómputo de alto rendimiento con capacidad de almacenamiento, desde varios gigabytes hasta varios terabytes.

  3. Problema El crecimiento en la producción de la información digital y los diferentes formatos que se utilizan para su almacenamiento, hacen difícil el acceso a la información, dado que los contenidos no se encuentran indizados y organizados.

  4. Análisis documental

  5. Indización La indización consiste en dos puntos, el primero es identificar los términos dentro de un documento y segundo en determinar la importancia del término dentro del documento a través de su frecuencia de ocurrencia.

  6. Minería de texto Es el área más reciente de investigación del procesamiento automático de la información. Su objetivo es descubrir tendencias, desviaciones y asociaciones, de la colección de textos en formato digital.

  7. Minería de texto La minería de texto es el proceso encargado del descubrimiento de conocimientos que no existían explícitamente en ningún texto de la colección, pero que surgen de relacionar el contenido de varios de ellos. (Swanson, 1991, p. 280-289)

  8. Minería de texto El descubrimiento de información significativa y esencial de los documentos en grandes corpus textuales electrónicos, estructurados y no estructurados.

  9. Minería de texto Clasificar y organizar documentos según su contenido; es decir, preseleccionar automáticamente grupos de documentos con un tema específico.

  10. Categorías

  11. Categorías

  12. Minería de texto

  13. El procesamiento de texto Los textos son representados en estructuras que permitan su análisis automático 01 D end_punctuation :,=;/. 01 N compress '[]| 01 N to_blank !"()-{}<>;:.?/\@*%=^_`~ 01 N comma 01 N del_subfield_code 01 N char_conv FILING-KEY-10 01 N del_lead_space 01 N to_lower 01 N pack_spaces 01 F char_conv FILING-KEY-01 FILING-KEY-01 ##### # line_utf2line_utf unicode_to_filing_01 FILING-KEY-02 ##### # line_utf2line_utf unicode_to_filing_02 FILING-KEY-10 ##### # line_utf2line_utf naco_diacritics FILING-KEY-11 ##### # line_utf2line_utf unicode_to_filing_11

  14. Extracción de palabras

  15. Análisis Consiste en realizar una cuantificación de las características (es decir, de los términos) de los documentos.

  16. Modelo vectorial  Una de las técnicas utilizadas en la minería de texto es el Modelo de Espacio Vectorial, en donde cada documento es modelado como un vector de dimensión n y es representado de la siguiente manera: ,

  17. Frecuencia de las palabras a) Se calcula la frecuencia de las palabras en el documento, donde K representa el término en el documento I

  18. Frecuencia total b) Se calcula la frecuencia total del término K en todos los documentos

  19. Frecuencia de palabras

  20. indización

  21. Ley de Zipf • Texto en lenguaje natural. • Se cuentan las palabras y se ordenan de mayor a menor frecuencia de aparición, F • El número de orden de cada palabra es su rango, R • Análisis de la frecuencia de las palabras F=K/R FxR=K La frecuencia , F, de aparición de una palabra en un texto es inversamente proporcional a su rango, R. Frecuencia por el rango igual a constante (k) “Ley del mínimo esfuerzo”

  22. Frecuencias de Stopword

  23. Ley de Zipf

  24. Frecuencias de Stopword

  25. Ley de Zipf

  26. Semejanza de documentos

  27. Matriz de documentos a) Si se realiza el cálculo de similitud entre renglones se pude determinar la semejanza entre documentos.

  28. Matriz de documentos b) Si se realiza el cálculo de similitud entre columnas se pueden obtener las relaciones entre términos.

  29. Archivos digitales en texto Total de títulos procesados 1868 (Año 2005) Total de archivos 22721 Tiempo de proceso 60 minutos Total de palabras 162723663 Stopwords 117323884 (72.90%) Palabras útiles 45399779 (27.90%)

  30. Palabras/Diccionario

  31. Questions?

More Related