domingo, 21 de octubre de 2012

Clasificación de los diferentes tipos de Regresiones

La Regresión es una modelización matemática, mediante una función, de la relación entre variables. La fórmula tipo de todas las regresiones es: y=f(x), donde la "y" es una variable, llamada dependiente, y la "x" puede ser una variable (llamada independiente) o pueden ser varias variables (llamadas, entonces, variables independientes).
Existen muchos tipos de regresiones debido a que en la naturaleza existen muchos tipos diferentes de relaciones entre variable que podemos intentar modelizar matemáticamente.
Si la "x" es una variable hablamos de Regresión simple, si es un conjunto de dos o más variable (lo que llamamos un vector de variables) hablamos de Regresión múltiple.
Si la "f(x)" es una función lineal hablamos de Regresión lineal, si no es una función lineal hablamos de Regresión no lineal.
Si la y es una variable cuantitativa con muchos valores posible (si es lo que llamamos una variable continua) hablamos de Regresión (así, a secas, sin otro calificativo), si es una variable cualitativa entonces hablamos de Regresión logística.
Combinando estas tres vías de clasificación podemos obtener muchos tipos de regresiones, pero los más  usuales son:
1. Regresión lineal simple.
2. Regresión lineal múltiple.
3. Regresión logística simple.
4. Regresión logística múltiple.




jueves, 11 de octubre de 2012

DESVIACIÓN ESTÁNDAR versus ERROR ESTÁNDAR



Supongamos tres equipos de investigación que estudian la variable altura en una misma población: el equipo A, el equipo B y el equipo C. Los tres equipos estudian, pues, la misma realidad.
El equipo A toma una muestra de tamaño 100, calcula la media (M) y la desviación estándar (DE) y resulta que la M es 171 y la DE es 10.
El equipo B toma una muestra de tamaño 400 y resulta que al calcular la M y la DE obtiene los siguientes valores: 170.5 y 10.
El equipo C toma una muestra de tamaño 10000 y resulta que al calcular la M y la DE obtiene los valores: 170 y 10.
El que las medias sean valores tan parecidos y los de DE sean idénticos, es debido a que los tres equipos están estudiando la misma población y es perfectamente posible que suceda algo así. Es cierto que el que sean las DE exactamente iguales es un poco ficticio y me permite explicarme mejor pero no es descabellado pensar que en un caso real sean muy similares. Por otro lado, es lógico que no haya mucha diferencia entre los cálculos que pueda hacer cada equipo en sus muestras. Es cierto que los tamaños muestrales son distintos, pero todas las muestras son de la misma población. Aquí la estructura poblacional domina sobre el tamaño muestral.
A la hora de construir un intervalo del 95% de la variable altura el equipo A dará el intervalo (151, 191), el B (150.5, 190.5) y el C (150,190). Recordemos que estos intervalos se construyen tomando la media y restándole y sumándole dos veces la desviación estándar. Así se construye un intervalo en el que está el 95% de los valores individuales de la variable, siempre y cuando la variable se distribuya según el ritmo de una campana de Gauss, de una distribución normal (Suele tomarse este más menos dos desviaciones estándar por aproximación, pero lo exacto sería calcular 1.96 multiplicado por la desviación estándar). Observemos, pues, que se trata de intervalos muy parecidos, prácticamente iguales y observemos, también, que aquí el tamaño muestral no interviene, no juega un papel decisivo. Aquí domina la estructura poblacional.
Pero si los tres equipos nos dieran un intervalo del 95% DE LA MEDIA (Observad que lo pongo con mayúsculas) serían: (169, 173) el del equipo A, (169.5, 171.5) el del equipo B y (169.8, 170.2) el del equipo C. Y aquí sí que habría diferencias importantes. Y aquí sí que interviene el tamaño muestral. Aquí no es tan determinante la estructura poblacional y sí lo es, por el contrario, el tamaño muestral. Porque el intervalo es ahora un intervalo de la media.
Es fundamental distinguir estos dos tipos de intervalos. Los construidos antes y los construidos ahora. En el fondo es un problema de saber si estamos ante UNA PREDICCIÓN o ante UNA DESCRIPCIÓN. Los intervalos que los tres equipos daban primero (Los  (151, 191), (150.5, 190.5) y (150, 190)) son una DESCRIPCIÓN de una realidad, de la variabilidad de una variable (la altura) y, en este caso, la realidad domina sobre el tamaño muestral. Son intervalos muy similares. Y es así por este dominio de la realidad. Sin embargo, a la hora de predecir es el tamaño muestral el que domina sobre la realidad. En estos intervalos DE LA MEDIA (Los  (169, 173), (169.5, 171.5) y (169.8, 170.2) no significa que el 95% de alturas están entre sus límites sino significa que tenemos una confianza del 95% de que la verdadera media poblacional (que es un número desconocido que pretendemos predecir) está dentro del intervalo. Estamos tratando de PREDECIR un valor no de DESCRIBIR la variabilidad de una variable. Y en este tipo de intervalos de la media el tamaño de la muestra sí que es determinante porque marca la precisión que tenemos para hacer una predicción. Cuanto mayor sea el tamaño de muestra más precisión y, por lo tanto, más estrecho será el intervalo. Y por una razón fundamental: Cuanto más pequeño es un tamaño muestral más diferencias (más dispersión) habrá entre las diferentes medias que calculemos a las diferentes muestras posibles. Y, por el contrario, cuanto más grande sea el tamaño muestral más proximidad habrá entre las muestras posibles. Esto es crucial entenderlo: Entre muestras pequeñas habrá más diferencias que entre muestras grandes.
Para entender esto hay que profundizar en la noción de variable en estadística. Una variable cuantitativa es una medida que podemos evaluar a unas entidades determinadas. El peso, la altura, la renta en 2010 son variables que podemos medir a personas. El número de sílabas es una variable que podemos medir a toda palabra del castellano. El número de trabajadores lo es para empresas, etc.
Pues bien, algo muy importante: LA MEDIA MUESTRAL ES UN NÚMERO PARA UNA MUESTRA PERO TAMBIÉN DEBE VERSE COMO UNA VARIABLE. La media muestral debe verse también como una variable, una variable que tiene valores distintos según la muestra que tengamos, una variable que se puede medir a toda muestra de un tamaño n que obtengamos en una población. Cuando tomamos una muestra de una población la muestra que tenemos es una de las muchísimas muestras que podríamos tener. Por lo tanto, la media muestral también es una variable, una variable que varía según la muestra que tengamos, y, como variable que es, tiene media y DE. Una media y una DE que nunca tendremos realmente, porque en un estudio tenemos una muestra de cierto tamaño, no todas las muestras posibles de dicho tamaño; pero sí podemos tenerlas idealmente, teóricamente, conceptualmente; que significa, en estadística, algo así como aproximadamente.
Y ahora veamos un teorema muy importante en Estadística: Si una variable sigue una distribución normal la media muestral de esta variable, como variable, también es una normal. Una normal también con su media y su desviación estándar. Su media es, exactamente, la misma que la de la variable original; o sea: M. Su DE es la de la variable original dividido por la raíz cuadrada del tamaño de muestra: DE/raíz(n). O sea, si una variable sigue una distribución N(M, DE) la media muestral, como variable, sigue una distribución N(M, DE/raíz(n)). Al aumentar el tamaño de muestra disminuye la dispersión de esa media como variable, por aquello que hemos dicho antes: Entre muestras pequeñas hay más diferencias que entre muestras grandes, por lo tanto al aumentar el tamaño muestral las medias posibles calculadas a las distintas muestras posibles van pareciéndose cada vez más entre ellas. De ahí que la precisión a la hora de construir intervalos de confianza de la media dependa del tamaño muestral. Cuanto mayor es el tamaño de la muestra, como la n está en el denominador, DE/raíz(n) es cada vez menor y los intervalos de predicción de la media poblacional serán cada vez más estrechos, más precisos. Porque el intervalo de la media es una PREDICCIÓN de la media poblacional
Teníamos tres equipos: el A, el B y el C, estudiando las alturas de una misma población. Los tres equipos trabajaban con distinto tamaño de muestra: el A con tamaño 100, el B con tamaño 400 y el C con 10000. Pero los tres tenían medias y DE muy próximas, por eso los intervalos del 95% de valores individuales de la variable estudiada, los intervalos que DESCRIBEN la variabilidad de la variable, son muy similares. Sin embargo, los intervalos de confianza del 95% de la media, los que PREDICEN, que dan cada equipo son muy distintos: (169, 173), (169.5, 171.5) y (169.8, 170.2).
Veamos cómo calcula cada equipo su intervalo de confianza del 95% de la media. Para el equipo A, DE/raíz(n) vale 10/raíz(100)=10/10=1. Por lo tanto, la media muestral sigue una distribución N(171, 1). Para el equipo B, DE/raíz(n) vale 10/raíz(400)=10/20=0.5. Por lo tanto, la media muestral sigue una distribución N(170.5, 0.5). Para el equipo C, DE/raíz(n) vale 10/raíz(10000)=10/100=0.1. Por lo tanto, la media muestral sigue una distribución N(170, 0.1).
Puede entenderse, pues, que si construyen un intervalo de confianza del 95% de la media tomen la media más menos dos DE/raíz(n) porque este cociente es la DE de la media. A esta DE de la media muestral, vista ésta como variable, se le denomina ERROR ESTÁNDAR.
El error estándar es, pues, una DE, pero una DE de la media muestral, y en general de una predicción cualquiera. Es una DE que, además, se construye a partir de la DE de la variable original. Se entiende, pues, que el intervalo del 95% del equipo A sea (169, 173), el del B sea (169.5, 171.5) y el del equipo C sea (169.8, 170.2), basta con restar y sumar dos veces sus respectivas DE; o sea, sus errores estándar (EE). El EE que tenía la media muestral del equipo A hemos visto que era 1, de ahí el 171 más menos 2. El EE que tenía la media muestral del equipo B era 0.5. Dos veces ese EE nos lleva al intervalo 170.5 más menos 1. El EE que tenía la media muestral del equipo C era 0.1. Dos veces ese EE nos lleva al intervalo 170 más menos 0.2. Recordemos que en una distribución normal cualquiera la media más menos dos DE construye un intervalo de confianza del 95%. En este último caso es media más menos dos EE porque estamos hablando de la DE de una predicción y eso siempre le llamamos ERROR ESTÁNDAR.
Tener muestras más grandes nos permite construir intervalos más estrechos a la hora de hacer predicciones.
Es muy importante, pues, diferenciar cuándo se dan intervalos de la variación de una variable con finalidad DESCRIPTIVA, como cuando los tres equipos daban los intervalos (151, 191), (150.5, 190.5) y (150, 190), construidos con la DE de la variable estudiada, de cuándo se dan intervalos de la media o de otra predicción, con finalidad, entonces, PREDICTIVA, como los (169, 173), (169.5, 171.5) o (169.8, 170.2) construidos con la DE de esa predicción vista como variable. DE que para distinguirla la denominamos ERROR ESTÁNDAR y que siempre depende de la DE de la variable estudiada y del tamaño muestral. Es básico ver esta diferencia.
El término ERROR ESTÁNDAR es, pues, en realidad, una DESVIACIÓN ESTÁNDAR, pero reservado siempre para nombrar desviaciones estándar de predicciones, de estimaciones de un número: medias, porcentajes, odds ratios, correlaciones, etc.