correlaci n n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Correlación PowerPoint Presentation
Download Presentation
Correlación

Loading in 2 Seconds...

play fullscreen
1 / 25

Correlación - PowerPoint PPT Presentation


  • 248 Views
  • Uploaded on

Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente e Y la dependiente (Y “depende” de X). Altura y peso de niños. Peso = f(Altura)

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Correlación' - graceland


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
correlaci n

Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente e Y la dependiente (Y “depende” de X).

  • Altura y peso de niños. Peso = f(Altura)
  • Velocidad máxima que alcanza un coche y potencia de su motor. Velocidad = f(Potencia)
  • Presupuesto para adquisiciones y número de libros que puede adquirir una biblioteca. Libros = f(Presupuesto)
  • Si se hace una lista ordenando las palabras según su frecuencia de aparición en un texto extenso, se encuentra que hay una correlación entre frecuencia y posición o rango en esa lista. Frecuencia = f(Rango) =>(Ley de Zipf)

Correlación

La relación puede ser claramente causal o no.

  • La potencia del motor de un coche es la causa de que alcance una mayor velocidad, así como un mayor presupuesto el que se puedan comprar más libros. (X es la “causa” de Y)
  • En cambio, el rango de una distribución tipo Zipf no es la causa de la frecuencia; en todo caso, la frecuencia es la causa del rango. (Y es la “causa” de X)
  • La relación altura – peso tiene parte de causalidad, pero también existen otros factores. (X y otros factores son la causa de Y)

Cuando se hacen correlaciones hay que analizar bien el fenómeno para no caer en errores

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

correlaciones esp reas

X

Y

Z

Correlaciones espúreas

Hay que evitar las denominadas correlaciones espúreas o espurias, es decir, que llevan a conclusiones erróneas. Ocurren cuando dos variables, X e Y, son realmente independientes entre sí, pero dependientes ambas de una misma causa común, Z.

Ejemplo de correlación espúrea: Cierto biólogo inglés publicó un estudio en el que se comprueba que en los pueblos y ciudades con más cigüeñas en los campanarios, X, nacen más niños, Y. Llegó a la conclusión de que “los niños los trae la cigüeña”.

Lo cierto es que tanto el número de cigüeñas, X, como el de niños, Y, dependen de la causa común, Z, que es el tamaño del pueblo o ciudad. En las poblaciones grandes hay siempre más cigüeñas y más niños. Tanto cigüeñas como niños están correlacionados con el tamaño de la población, pero no entre ellos mismos.

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

nubes de puntos

No hay correlación

Correlación positiva

Correlación negativa

Nubes de Puntos

Sea un conjunto de pares de valores de las variables X e Y. Si los representamos en un diagrama de dispersión obtendremos una “nube de puntos” que nos dará una idea gráfica de la posible correlación entre ambas variables.

Y

Y

Y

X

X

X

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

algunos tipos de correlaciones
Algunos tipos de correlaciones

Modelo Lineal

Correlación lineal positiva

Correlación lineal negativa

  • Potencial
  • Logarítmica
  • Otros tipos
  • Potencial inversa
  • Exponencial negativa
  • Otros tipos
  • Potencial
  • Exponencial positiva
  • Otros tipos

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

modelos lineales
Modelos Lineales

Ecuación Explícita de la Recta

y = a + bx

y

Los valores de “y” se calculan multiplicando “x” por la pendiente, b, y sumándole la ordenada en el origen, a

b

a

x

a .- Ordenada en el orígen. Punto de corte con el eje de ordenadas o “eje y”. En este punto x está en el “origen” es decir x=0

b .- Pendiente. Grado de inclinación de la recta. Si es positiva, la recta es creciente. Si es negativa es decreciente. Es el cociente entre el incremento que se produce en la variable dependiente, Y, cuando se incrementa la variable independiente, X.

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

ejemplos de rectas
Ejemplos de Rectas
  • Recta decreciente, ya que la pendiente es negativa
  • La recta decrece una unidad de y por cada unidad de x, es decir b=-1
  • Cuando x=0, y=4. La ordenada en el origen, a, vale 4
  • Recta creciente, ya que la pendiente es positiva
  • La recta crece dos unidades de y por cada unidad de x, es decir b=2
  • Cuando x=0, y=1. La ordenada en el origen, a, vale 1

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

recta de regresi n m nimo cuadr tica

d10

d8

d9

d5

d6

d4

d3

d2

d1

Recta de Regresión Mínimo-Cuadrática
  • La recta de regresión es la que se obtiene a partir de la nube de puntos y es la que representa mejor la distribución de esos puntos como modelo lineal.
  • Se suele emplear el método de los Mínimos Cuadrados, que consiste en encontrar aquella recta tal que la suma de los cuadrados de las distancias, di, de los puntos a la recta sea la mínima posible.

y

  • Bajo esta condición se puede demostrar que la pendiente, b, y la ordenada en el origen, a, se determinan mediante:

x

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

ejemplo 1 regresi n lineal
Ejemplo 1. Regresión Lineal

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

covarianza

En una distribución bidimensional puede ocurrir que las dos variables guarden algún tipo de relación entre si.

Elcoeficiente de correlación lineal mide el grado de intensidad de esta posible relación entre las variables. Este coeficiente se aplica cuando la relación que puede existir entre las varables es lineal (es decir, si representaramos en un gáfico los pares de valores de las dos variables la nube de puntos se aproximaría a una recta).

Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relación entre ambas variables: mientras más alto sea el alumno, mayor será su peso.

Elcoeficiente de correlación lineal mide el grado de intensidad de esta posible relación entre las variables. Este coeficiente se aplica cuando la relación que puede existir entre las varables es lineal (es decir, si representaramos en un gáfico los pares de valores de las dos variables la nube de puntos se aproximaría a una recta).

No obstante, puede que exista una relación que no sea lineal, sino exponencial, parabólica, etc. En estos casos, el coeficiente de correlación lineal mediría mal la intensidad de la relación las variables, por lo que convendría utilizar otro tipo de coeficiente más apropiado.

Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor es representar los pares de valores en un gráfico y ver que forma describen.

El coeficiente de correlación lineal se calcula aplicando la siguiente fórmula:

Es decir:

Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x,y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamaño de la muestra.

Denominador se calcula el produto de las varianzas de "x" y de "y", y a este produto se le calcula la raíz cuadrada.

Los valores que puede tomar el coeficiente de correlación "r" son: -1 < r < 1

Si "r" > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de la otra). La correlación es tanto más fuerte cuanto más se aproxime a 1.

Por ejemplo: altura y peso: los alumnos más altos suelen pesar más.

Si "r" < 0, la correlación lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlación negativa es tanto más fuerte cuanto más se aproxime a -1.

Por ejemplo: peso y velocidad: los alumnos más gordos suelen correr menos.

Si "r" = 0, no existe correlación lineal entre las variables. Aunque podría existir otro tipo de correlación (parabólica, exponencial, etc.)

De todos modos, aunque el valor de "r" fuera próximo a 1 o -1, tampoco esto quiere decir obligatoriamente que existe una relación de causa-efecto entre las dos variables, ya que este resultado podría haberse debido al puro azar.

Covarianza

Recordemos que...

Media aritmética: Suma de los valores que toma una variable dividida entre el número total, n, de valores sumados.

Varianza: Es una medida de lo que se dispersan los valores de una muestra respecto de su media. Se determina con cualquiera de las formulas equivalentes siguientes:

La varianza, V, es también el cuadrado de la desviación típica, S.

Cuando se trata de una distribución bidimensional...

Covarianza: Es una medida de lo que se dispersan los valores de una muestra bidimensional tanto del valor medio de la x como del valor medio de la y. Se determina mediante la expresión:

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

coeficiente de correlaci n de pearson r
Coeficiente de Correlación de Pearson, r

Bondad de los ajustes

  • El coeficiente de correlación de Pearson, r, nos permite saber si el ajuste de la nube de puntos a la recta de regresión obtenida es satisfactorio.
  • Se define como el cociente entre la covarianza y el producto de las desviaciones típicas (raiz cuadrada de las varianzas)
  • Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar mediante cualquiera de las dos expresiones siguientes:

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

grado de correlaci n

Hay correlación no lineal

No hay correlación

Correlación lineal positiva

Correlación lineal negativa

Grado de Correlación
  • El coeficiente de correlación, r, presenta valores entre –1 y +1.
  • Cuando r es próximo a 0, no hay correlación lineal entre las variables. La nube de puntos está muy dispersa o bien no forma una línea recta. No se puede trazar una recta de regresión.
  • Cuando r es cercano a +1, hay una buena correlación positiva entre las variables según un modelo lineal y la recta de regresión que se determine tendrá pendiente positiva, será creciente.
  • Cuando r es cercano a -1, hay una buena correlación negativa entre las variables según un modelo lineal y la recta de regresión que se determine tendrá pendiente negativa: es decreciente.

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

coeficiente de determinaci n r 2
Coeficiente de Determinación, R2
  • Para estimar la bondad de un ajuste frecuentemente se prefiere utilizar el Coeficiente de Determinación, R2, que es el Coeficiente de Correlación elevado al cuadrado.
  • Se determina mediante cualquiera de las dos expresiones siguientes:
  • Su valor oscila entre 0 y +1.
  • Cuando hay una buena correlación lineal, R2 es muy cercano a +1. Normalmente se acepta para valores de R2 >= 0’99.
  • Cuando no hay correlación o bien ésta no es lineal, R2 es bajo e incluso cercano a cero

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

ejemplo 2 regresi n lineal
Ejemplo 2: Regresión lineal

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

ejemplo 3 citro n saxo
Ejemplo 3: Citroën Saxo

Correlación Potencia - Velocidad

Conclusiones:

  • Potencia y velocidad son dos variables correlacionadas según un modelo lineal, cuya ecuación es:
  • El ajuste es excelente.
  • La correlación es positiva, ya que la pendiente también lo es.
  • Por cada CV de potencia, la velocidad máxima se incrementa en 0’75 Km/h
  • Es posible predecir qué velocidad se podría alcanzar a partir de una potencia determinada o bien a la inversa, determinar qué potencia se necesita para alcanzar una velocidad.
  • Estas predicciones se pueden realizar sin restricciones dentro del rango analizado (Interpolación). En cambio, fuera del rango sólo son posibles si no nos alejamos excesivamente de él (Extrapolación)

1.6i 16V VTS

V = 0’75 P + 117 R2 = 0’9915

1.6i VTS

1,4i SX

1.1i SX

1.5D SX Furio

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

interpolaci n y extrapolaci n
Interpolación y Extrapolación

Ecuación:

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

ejemplo 4 relaci n profesores alumnos en las universidades espa olas
Ejemplo 4: Relación Profesores/Alumnosen las Universidades Españolas
  • Trazar la gráfica de la distribución
  • Calcular parámetros de la distribución
  • ¿ Cuál es la Universidad con mejor proporción profesor/alumno?
  • ¿Qué Universidad tiene la peor ratio y cuántos profesores necesitaría para equilibrarla?
  • Calcular los valores teóricos de profesores de la Universidad de Granada si ésta tenía 55123 alumnos en el curso 1994-95.
  • Calcular los valores de la FBD si ésta tenía 1100 alumnos

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

R2=0.998 b=0.0515 a=-17

ejemplo 4 gr fica de distribuci n relaci n profesores alumnos en universidades
Ejemplo 4: Gráfica de distribuciónRelación Profesores/Alumnos en Universidades

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

modelos no lineales

Log y

Log x

Ln y

y

x

Log x

Modelos No Lineales

Antes de proceder a la regresión, hay que transformar la ecuación no lineal, y = f(x), en otra del tipo Y = A + BX, donde Y, X, A y B son funciones de y, x, a y b respectivamente.

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

ejemplo 5 el p ndulo de galileo
Ejemplo 5: El Péndulo de Galileo

Una de las principales aportaciones de Galileo Galilei (1564-1642), fue encontrar la relación entre el tiempo o periodo de oscilación de un péndulo y su longitud. Esto permitió construir por primera vez en la historia relojes de gran precisión basados en péndulos. Dicen que la idea de correlacionar estas variables se le ocurrió en la iglesia de su ciudad natal, Pisa, mientras, absorto, observaba cómo oscilaban las lámparas del techo...

Estos datos podrían corresponder a un hipotético experimento realizado por Galileo...

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

las deducciones de galileo
Las deducciones de Galileo

Para encontrar el modelo que relaciona periodo de oscilación, T, con la longitud del péndulo, L, Galileo bien pudo hacer las siguientes deducciones...

No es lineal

No es exponencial

Tampoco es logarítmica

Es potencial

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

c lculos de la regresi n potencial para el p ndulo de galileo
Cálculos de la Regresión Potencial para el Péndulo de Galileo

Como vamos a ajustar a un modelo potencial, hacemos el cambio de variables: X = log x e Y = log y. Por lo demás se procede exactamente igual a una regresión lineal, ajustando a una expresión del tipo Y = A + BX. Por último, de B y A calculados se despejan b y a respectivamente.

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

ley del p ndulo

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

Ley del Péndulo

Generalizando...

Se deduce que...

El periodo de oscilación de un péndulo es proporcional a la raíz cuadrada de su longitud

ejemplo 6 regresi n exponencial m todo del c14 para dataci n arqueol gica
Ejemplo 6: Regresión Exponencial. Método del C14 para datación arqueológica
  • A partir de los datos adjuntos en los que se dan valores de carbono 14 residual respecto del tiempo transcurrido, determina:
  • Parámetros de la distribución de %C14-Tiempo, sabiendo que es exponencial negativa
  • Cuánto C14 quedará en el hueso que llevo en la mano si ambos tenemos 12.000 años.

Se observa que la nube de puntos se alinea cuando se toman logaritmos en la “y”. Por tanto, el modelo es exponencial, y como decrece, es exponencial negativo.

Solución:

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

c lculo de la regresi n exponencial para el c14
Cálculo de la Regresión Exponencial para el C14

Como se está ajustando un MODELO EXPONENCIAL hacemos el cambio de variable Y =LN(y), quedando x igual (X = x). En este caso A = Ln(a) y B = b.

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

los modelos en bibliometr a
LOS MODELOS EN BIBLIOMETRÍA

La Bibliometría está fundamentada en un conjunto de “leyes empíricas”. Estas leyes se han establecido gracias a estudios cuantitativos en los que interviene el recuento de nº de artículos, nº de revistas, nº de autores, etcétera. Las distribuciones que correlacionan estas variables se ajustan mediante regresión lineal por el método de los mínimos cuadrados.

Las principales leyes y el tipo de modelo al que corresponden son las siguientes:

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)