Técnicas de clasificación de documentos

Técnicas de clasificación de documentos Generalidades y método de la matriz de similaridad

Antes de empezar, I • Baeza (5.3) • Estrategias de feedback local: expandir la q con términos correlados con los de la propia q. • Los términos correlados están presentes en clusters obtenidos del conjunto de docs recuperados • Lás técnicas usadas son: • Clusters de asociación: se basa en la co-ocurrencia de de raíces o términos en los documentos. Aquellos que ocurren con frecuencia tienen algún tipo de asociación sinónima. • Clusters Métricos: tienen en cuenta dónde ocurren las co-ocurrencias de términos o raíces. • Clusters Escalares: Se basa en la idea de que dos raíces o términos con entornos similares deben tener algún tipo de relación de sinonimia. Se calculan vectores de correlaciones y se comparan escalarmente.

Antes de empezar, II • Baeza (5.4) • Estrategias de Análisis Global: tratan de obtener información no sólo del conjunto de docs recuperados sino de la colección completa de docs. • Algunas técnicas usadas: • Thesauros similares: se construyen mediante relaciones término a término, no en el sentido de presencia/ausencia, sino en la idea de que los términos son conceptos y se indexan por los documentos en que aparecen. • Thesauros Estadísticos: se pretende que los términos que expandan la q deben tener un alto poder de discriminación, con lo que deben tener una baja frecuencia, lo cual va en contra de la cantidad de información que proporcionan (están en pocos docs).

Tipos de variables • 1.- Cuantitativas o numéricas • Peso, talla, edad,… • 2.- Ordinales • Posición, orden, lista, … • 3.- Cualitativas o categóricas • Color, raza, … • 4.- Dicotómicas • Sexo, presencia/ausencia, … • se codifican con 2 valores

Codificación de variables • En el tránsito de homogeneización 1 a 4 se pierde información (salvo excepciones, paso 3 a 4) • Ej.: Paso 1 a 3: definiendo categorías • Variable: peso • Valores: x>0 • Categorías • Delgado: <70 • Grueso: 70 - 85 • Gordo: 85 - 100 • Obeso: >100 • Observación: “Carlos pesa 73 Kg.” <-> “Carlos es grueso”

Codificación de variables • Codificación Disyuntiva Completa • Mecanismo de codificación de variables cualitativas sin pérdida de información • Incrementa los requisitos de memoria • Consiste en generar una variable dicotómica por cada categoría • Ej.: • Variable x: color • Categorías: verde, azul, marrón, negro • x = azul <-> (v, a, m, n) = (0, 1, 0, 0)

Técnicas de análisis multivariante • “Conjunto de técnicas estadísticas y matemáticas para analizar, describir e interpretar observaciones multidimensionales procedentes de la observación de más de una variable.” (Cuadras 1981) • El AM se caracteriza por ofrecer una gran cantidad de técnicas exploratorias aplicables a numerosas disciplinas experimentales

Técnicas de AM • Análisis Factorial • Modelo lineal para explicar un conjunto extenso de variables observables mediante factores. • Análisis de Datos • Análisis de Coordenadas Principales • Método de la Matriz de similaridad • Análisis de Correspondencias • Distancia de la Chi-cuadrado o de Benzecri (basada en frecuencias) • Análisis de Proximidades (multidimensional scaling) • Utiliza distancias euclídeas y no euclídeas y disimilaridades entre objetos • Clasificación (clustering) • Taxonomía numérica (problema de definición) • Jerarquías indexadas y Geometría ultramétrica • Algoritmos de clasificación • Análisis Discriminante (problema de decisión) • Partiendo de k poblaciones, se trata de clasificar un individuo del que se conocen n valores de otras tantas variables observadas.

Coordenadas principales, I • Gower 1966 • Adecuado para variables cuantitativas • a : presentes comunes • d : ausentes comunes, etc.

Coordenadas principales, II • Coeficiente de similaridad • Creciente en a • Decreciente en b y en c • Simétrica en b y en c • Grado de semejanza entre wi y wj en relación con los n caracteres estudiados

Coeficientes de similaridad y matriz de similaridad, III

5 4 3 2 1 0 Otras consideraciones sobre ACP • No existen criterios que permitan decidir a priori el coeficiente de similaridad más adecuado • Depende de: tipo de datos y peso que se desea: a, b, c, d • Conviene tener en cuenta que: • sij no deben ser función de d • Falsea la similaridad • S debe ser semidefinida o definida positiva • Facilita la representación • Sij debe verificar la propiedad ultramétrica • Útil para conseguir una clasificación jerárquica de los objetos Matriz de similaridades Jerarquía Indexada (dendograma) Algoritmo de clasificación

Técnicas de clasificación de documentos

Técnicas de clasificación de documentos

Presentation Transcript

SER ADOLESCENTE NO ES F CIL T cnicas de Modificaci n de Conducta

Educaci n, gu as, pautas y t cnicas de actuaci n ante diferentes tipos de comportamientos

T cnicas de estudio: Lectura de comprensi n

CLASIFICACI N DE LOS SERES VIVOS

CLASIFICACI N DE LOS SERES VIVOS

T cnicas de AN LISE DE RISCO

Curso: T cnicas de direcci n colegiada. Entrenamiento metodol gico para la gesti n de la direcci n.

T cnicas para condu o de reuni es

Introducci n a las T cnicas de Programaci n con MatLab

T CNICAS DE MEDIA O

Clasificaci n de los versos seg n el n mero de s labas:

An lisis de datos procedentes de un Sistema de Detecci n de Gusanos mediante t cnicas de clustering

Linguagens de Programa o Conceitos e T cnicas

Curso: T cnicas de direcci n colegiada. Entrenamiento metodol gico para la gesti n de la direcci n.

T CNICAS DE SEPARACI N DE MEZCLAS

PRODUCTOS DE ORTOPEDIA: -LICENCIA DE FABRICACI N -CLASIFICACI N -REQUISITOS ESENCIALES

T cnicas de B squeda

2.2 Clasificaci n qu mica de rocas gneas

T cnicas FEC, Correctoras de Errores

T CNICAS DE COMUNICACI N

M todos e t cnicas de pesquisa: tipos de pesquisa e t cnicas de investiga o cient fica

ELECCIONES DE VOCALES PARA LAS JUNTAS DE CLASIFICACI N