domingo, 21 de octubre de 2012

Clasificación de los diferentes tipos de Regresiones

La Regresión es una modelización matemática, mediante una función, de la relación entre variables. La fórmula tipo de todas las regresiones es: y=f(x), donde la "y" es una variable, llamada dependiente, y la "x" puede ser una variable (llamada independiente) o pueden ser varias variables (llamadas, entonces, variables independientes).
Existen muchos tipos de regresiones debido a que en la naturaleza existen muchos tipos diferentes de relaciones entre variable que podemos intentar modelizar matemáticamente.
Si la "x" es una variable hablamos de Regresión simple, si es un conjunto de dos o más variable (lo que llamamos un vector de variables) hablamos de Regresión múltiple.
Si la "f(x)" es una función lineal hablamos de Regresión lineal, si no es una función lineal hablamos de Regresión no lineal.
Si la y es una variable cuantitativa con muchos valores posible (si es lo que llamamos una variable continua) hablamos de Regresión (así, a secas, sin otro calificativo), si es una variable cualitativa entonces hablamos de Regresión logística.
Combinando estas tres vías de clasificación podemos obtener muchos tipos de regresiones, pero los más  usuales son:
1. Regresión lineal simple.
2. Regresión lineal múltiple.
3. Regresión logística simple.
4. Regresión logística múltiple.




jueves, 11 de octubre de 2012

DESVIACIÓN ESTÁNDAR versus ERROR ESTÁNDAR



Supongamos tres equipos de investigación que estudian la variable altura en una misma población: el equipo A, el equipo B y el equipo C. Los tres equipos estudian, pues, la misma realidad.
El equipo A toma una muestra de tamaño 100, calcula la media (M) y la desviación estándar (DE) y resulta que la M es 171 y la DE es 10.
El equipo B toma una muestra de tamaño 400 y resulta que al calcular la M y la DE obtiene los siguientes valores: 170.5 y 10.
El equipo C toma una muestra de tamaño 10000 y resulta que al calcular la M y la DE obtiene los valores: 170 y 10.
El que las medias sean valores tan parecidos y los de DE sean idénticos, es debido a que los tres equipos están estudiando la misma población y es perfectamente posible que suceda algo así. Es cierto que el que sean las DE exactamente iguales es un poco ficticio y me permite explicarme mejor pero no es descabellado pensar que en un caso real sean muy similares. Por otro lado, es lógico que no haya mucha diferencia entre los cálculos que pueda hacer cada equipo en sus muestras. Es cierto que los tamaños muestrales son distintos, pero todas las muestras son de la misma población. Aquí la estructura poblacional domina sobre el tamaño muestral.
A la hora de construir un intervalo del 95% de la variable altura el equipo A dará el intervalo (151, 191), el B (150.5, 190.5) y el C (150,190). Recordemos que estos intervalos se construyen tomando la media y restándole y sumándole dos veces la desviación estándar. Así se construye un intervalo en el que está el 95% de los valores individuales de la variable, siempre y cuando la variable se distribuya según el ritmo de una campana de Gauss, de una distribución normal (Suele tomarse este más menos dos desviaciones estándar por aproximación, pero lo exacto sería calcular 1.96 multiplicado por la desviación estándar). Observemos, pues, que se trata de intervalos muy parecidos, prácticamente iguales y observemos, también, que aquí el tamaño muestral no interviene, no juega un papel decisivo. Aquí domina la estructura poblacional.
Pero si los tres equipos nos dieran un intervalo del 95% DE LA MEDIA (Observad que lo pongo con mayúsculas) serían: (169, 173) el del equipo A, (169.5, 171.5) el del equipo B y (169.8, 170.2) el del equipo C. Y aquí sí que habría diferencias importantes. Y aquí sí que interviene el tamaño muestral. Aquí no es tan determinante la estructura poblacional y sí lo es, por el contrario, el tamaño muestral. Porque el intervalo es ahora un intervalo de la media.
Es fundamental distinguir estos dos tipos de intervalos. Los construidos antes y los construidos ahora. En el fondo es un problema de saber si estamos ante UNA PREDICCIÓN o ante UNA DESCRIPCIÓN. Los intervalos que los tres equipos daban primero (Los  (151, 191), (150.5, 190.5) y (150, 190)) son una DESCRIPCIÓN de una realidad, de la variabilidad de una variable (la altura) y, en este caso, la realidad domina sobre el tamaño muestral. Son intervalos muy similares. Y es así por este dominio de la realidad. Sin embargo, a la hora de predecir es el tamaño muestral el que domina sobre la realidad. En estos intervalos DE LA MEDIA (Los  (169, 173), (169.5, 171.5) y (169.8, 170.2) no significa que el 95% de alturas están entre sus límites sino significa que tenemos una confianza del 95% de que la verdadera media poblacional (que es un número desconocido que pretendemos predecir) está dentro del intervalo. Estamos tratando de PREDECIR un valor no de DESCRIBIR la variabilidad de una variable. Y en este tipo de intervalos de la media el tamaño de la muestra sí que es determinante porque marca la precisión que tenemos para hacer una predicción. Cuanto mayor sea el tamaño de muestra más precisión y, por lo tanto, más estrecho será el intervalo. Y por una razón fundamental: Cuanto más pequeño es un tamaño muestral más diferencias (más dispersión) habrá entre las diferentes medias que calculemos a las diferentes muestras posibles. Y, por el contrario, cuanto más grande sea el tamaño muestral más proximidad habrá entre las muestras posibles. Esto es crucial entenderlo: Entre muestras pequeñas habrá más diferencias que entre muestras grandes.
Para entender esto hay que profundizar en la noción de variable en estadística. Una variable cuantitativa es una medida que podemos evaluar a unas entidades determinadas. El peso, la altura, la renta en 2010 son variables que podemos medir a personas. El número de sílabas es una variable que podemos medir a toda palabra del castellano. El número de trabajadores lo es para empresas, etc.
Pues bien, algo muy importante: LA MEDIA MUESTRAL ES UN NÚMERO PARA UNA MUESTRA PERO TAMBIÉN DEBE VERSE COMO UNA VARIABLE. La media muestral debe verse también como una variable, una variable que tiene valores distintos según la muestra que tengamos, una variable que se puede medir a toda muestra de un tamaño n que obtengamos en una población. Cuando tomamos una muestra de una población la muestra que tenemos es una de las muchísimas muestras que podríamos tener. Por lo tanto, la media muestral también es una variable, una variable que varía según la muestra que tengamos, y, como variable que es, tiene media y DE. Una media y una DE que nunca tendremos realmente, porque en un estudio tenemos una muestra de cierto tamaño, no todas las muestras posibles de dicho tamaño; pero sí podemos tenerlas idealmente, teóricamente, conceptualmente; que significa, en estadística, algo así como aproximadamente.
Y ahora veamos un teorema muy importante en Estadística: Si una variable sigue una distribución normal la media muestral de esta variable, como variable, también es una normal. Una normal también con su media y su desviación estándar. Su media es, exactamente, la misma que la de la variable original; o sea: M. Su DE es la de la variable original dividido por la raíz cuadrada del tamaño de muestra: DE/raíz(n). O sea, si una variable sigue una distribución N(M, DE) la media muestral, como variable, sigue una distribución N(M, DE/raíz(n)). Al aumentar el tamaño de muestra disminuye la dispersión de esa media como variable, por aquello que hemos dicho antes: Entre muestras pequeñas hay más diferencias que entre muestras grandes, por lo tanto al aumentar el tamaño muestral las medias posibles calculadas a las distintas muestras posibles van pareciéndose cada vez más entre ellas. De ahí que la precisión a la hora de construir intervalos de confianza de la media dependa del tamaño muestral. Cuanto mayor es el tamaño de la muestra, como la n está en el denominador, DE/raíz(n) es cada vez menor y los intervalos de predicción de la media poblacional serán cada vez más estrechos, más precisos. Porque el intervalo de la media es una PREDICCIÓN de la media poblacional
Teníamos tres equipos: el A, el B y el C, estudiando las alturas de una misma población. Los tres equipos trabajaban con distinto tamaño de muestra: el A con tamaño 100, el B con tamaño 400 y el C con 10000. Pero los tres tenían medias y DE muy próximas, por eso los intervalos del 95% de valores individuales de la variable estudiada, los intervalos que DESCRIBEN la variabilidad de la variable, son muy similares. Sin embargo, los intervalos de confianza del 95% de la media, los que PREDICEN, que dan cada equipo son muy distintos: (169, 173), (169.5, 171.5) y (169.8, 170.2).
Veamos cómo calcula cada equipo su intervalo de confianza del 95% de la media. Para el equipo A, DE/raíz(n) vale 10/raíz(100)=10/10=1. Por lo tanto, la media muestral sigue una distribución N(171, 1). Para el equipo B, DE/raíz(n) vale 10/raíz(400)=10/20=0.5. Por lo tanto, la media muestral sigue una distribución N(170.5, 0.5). Para el equipo C, DE/raíz(n) vale 10/raíz(10000)=10/100=0.1. Por lo tanto, la media muestral sigue una distribución N(170, 0.1).
Puede entenderse, pues, que si construyen un intervalo de confianza del 95% de la media tomen la media más menos dos DE/raíz(n) porque este cociente es la DE de la media. A esta DE de la media muestral, vista ésta como variable, se le denomina ERROR ESTÁNDAR.
El error estándar es, pues, una DE, pero una DE de la media muestral, y en general de una predicción cualquiera. Es una DE que, además, se construye a partir de la DE de la variable original. Se entiende, pues, que el intervalo del 95% del equipo A sea (169, 173), el del B sea (169.5, 171.5) y el del equipo C sea (169.8, 170.2), basta con restar y sumar dos veces sus respectivas DE; o sea, sus errores estándar (EE). El EE que tenía la media muestral del equipo A hemos visto que era 1, de ahí el 171 más menos 2. El EE que tenía la media muestral del equipo B era 0.5. Dos veces ese EE nos lleva al intervalo 170.5 más menos 1. El EE que tenía la media muestral del equipo C era 0.1. Dos veces ese EE nos lleva al intervalo 170 más menos 0.2. Recordemos que en una distribución normal cualquiera la media más menos dos DE construye un intervalo de confianza del 95%. En este último caso es media más menos dos EE porque estamos hablando de la DE de una predicción y eso siempre le llamamos ERROR ESTÁNDAR.
Tener muestras más grandes nos permite construir intervalos más estrechos a la hora de hacer predicciones.
Es muy importante, pues, diferenciar cuándo se dan intervalos de la variación de una variable con finalidad DESCRIPTIVA, como cuando los tres equipos daban los intervalos (151, 191), (150.5, 190.5) y (150, 190), construidos con la DE de la variable estudiada, de cuándo se dan intervalos de la media o de otra predicción, con finalidad, entonces, PREDICTIVA, como los (169, 173), (169.5, 171.5) o (169.8, 170.2) construidos con la DE de esa predicción vista como variable. DE que para distinguirla la denominamos ERROR ESTÁNDAR y que siempre depende de la DE de la variable estudiada y del tamaño muestral. Es básico ver esta diferencia.
El término ERROR ESTÁNDAR es, pues, en realidad, una DESVIACIÓN ESTÁNDAR, pero reservado siempre para nombrar desviaciones estándar de predicciones, de estimaciones de un número: medias, porcentajes, odds ratios, correlaciones, etc.

viernes, 14 de septiembre de 2012

Els leucòcits


La leucocitosi és solament un factor de risc y no un diagnòstic definitiu

En la època prevacuna Hib i PV-7 la presencia de febre i leucocitosi indicaven risc de bacterièmia (10 % incidència si > 39,5º y > 15000 leucòcits. )

Avui en dia, amb la disminució de la incidència de BO el valor predictiu és molt baix (2-3%)

Alguns autors es qüestionen la utilitat del recompte

jueves, 13 de septiembre de 2012

martes, 1 de noviembre de 2011

Conjuntos de números


De todos los conjuntos posibles los más usados en la construcción del mundo de las matemáticas son los conjuntos de números: Los conjuntos cuyos elementos son números. Son los más usados porque en matemáticas es muy usual tratar con magnitudes, con valores, con números que hacen referencia a una característica. Los números son el alfabeto de las magnitudes de cualquier naturaleza.
            Potencialmente hay infinitos conjuntos de números. Los cinco conjuntos de números más populares, más usuales, son el conjunto de los naturales, el de los enteros, el conjunto de los racionales, el de los números reales y el de los complejos.
N es el conjunto de los números naturales, Z el de los números enteros, Q el de los racionales, R el de los reales y C el de los números complejos. Unos dentro de otros. Unos como subconjuntos de otros. (Un conjunto es subconjunto de otro conjunto cuando todos sus elementos -los del subconjunto- están incluidos en el otro conjunto). Así los naturales son un subconjunto de los enteros; éstos, a su vez, son un subconjunto de los racionales, etc. Todos, en última instancia, son subconjuntos de los números complejos, que se constituye en el techo de todos los posibles conjuntos de números.
            El conjunto de los números naturales N es el formado por los siguientes números: {1,2,3,…}.
Los puntos suspensivos indican que tenemos la posibilidad de continuar indefinidamente.
            Kronecker dijo en una ocasión que los números naturales los creó Dios y todos los demás los crearon los hombres. De hecho es el conjunto de números más familiar para nuestra intuición, para nuestra capacidad de percibir la discretización de las cosas de nuestro mundo. Las cosas las agrupamos, y se agrupan, en cantidades que son números naturales. Decimos un coche, o cinco personas, o siete libros.
            Un número es una entidad matemática con vida propia, como toda entidad matemática, y que, como sucede también con toda entidad matemática, además, puede actuar como modelo, como representación, como aproximación, de la cantidad, de la magnitud de una característica de una entidad cualquiera.
            El conjunto de los números enteros Z es el formado por los números naturales, el cero y los naturales con signo negativo; o sea, el formado por los siguientes números:{…,-2,-1,0,1,2,…}.
Los puntos suspensivos aquí se toman desde la izquierda, porque podemos extendernos indefinidamente hacia la izquierda, y hacia la derecha, porque, como sucede con los naturales, podemos continuar indefinidamente hacia la derecha.
            Los números enteros los podemos usar como modelo, como representación de muchas situaciones: Si en un banco tenemos, en una cuenta, 1000 pesetas y nos pagan un recibo de la luz que es de 2000 pesetas, nos aparecerá un saldo de -1000, y esto lo entendemos todos. Dentro del conjunto de los números naturales no existe ningún número, ningún modelo, para representar este saldo negativo. En los enteros sí lo tenemos.
            Los números negativos se entienden y se usan hoy en día con total normalidad, pero no siempre ha sido así. Incluso hoy en día no es sencilla su comprensión por ciertas personas de algunas generaciones. A ciertas personas mayores si se les pregunta cuánto es 5 menos 8 dicen que cero. Si a cinco se le quita ocho no queda nada, dicen, si se les pide que razonen el porqué.
            El conjunto de los números racionales Q es el formado por los siguientes números:{a/b; a y b son enteros y b es distinto de cero}.
            Esta es la expresión abstracta del conjunto. Se lee así: El conjunto de los números racionales está formado por elementos x tales que x es igual a un cociente cualquiera de dos números enteros con la única condición de que la q no sea el cero en ningún caso.
            El conjunto de los números racionales está formado por cocientes de números enteros. Son las fracciones: 1/2, 3/4, etc. Buen modelo también para situaciones reales, comerciales, cotidianas, para formas de hablar, etc. Decimos la mitad, o tres cuartas partes. Son expresiones que entendemos todos. Los racionales se crearon para modelizar este tipo de situaciones. En general, cuando algo puede dividirse en fragmentos de la misma magnitud q y tomamos p fragmentos de esos, entonces hemos tomado el número racional p/q.        
            El conjunto de los números reales R es el conjunto de los números racionales más el de los irracionales. Los irracionales son los números que no pueden expresarse en forma de un cociente de enteros. Por ejemplo: el número pi, el número e, la  2, etc. Estos números no pueden expresarse en forma de fracción. Sus decimales no siguen una ordenación regular. Tienen infinitos decimales y, además, imprevisibles. Esto de imprevisibles es fundamental porque, por ejemplo, 10/3 es un número racional que tiene infinitos decimales también, pero son claramente previsibles, son siempre el mismo número: el 3.
            Estos números surgen de la necesidad de representar valores reales como la relación entre el diámetro y el perímetro en una circunferencia o la longitud del diámetro en un cuadrado de lado uno, para cuya representación no nos valen los racionales. No hay ningún racional que nos proporcione la longitud del diámetro de un cuadrado de lado uno, de la misma forma que no había ningún número natural que nos representara un saldo negativo de mil pesetas.
            Cada número real ocupa una posición en la denominada recta real. La recta está ocupa en todos sus puntos. No ocurriría lo mismo si representáramos los racionales. En este caso habría agujeros. En la posición del número pi , por ejemplo, habría un agujero, porque el número pi no es un número racional.
            El conjunto de los números complejos C es el conjunto de los siguientes números: {a+bi; donde a y b son números reales e i es igual a la raíz cuadrada de -1}.
            Un número complejo tiene la forma a+bi. La a es la llamada parte real y la b es la llamada parte imaginaria. Los números reales son los números complejos en los que la parte imaginaria es igual a cero. Uno puede decir: Tengo 24+0i años. Cualquier número, en realidad, es un número complejo.
            Estos números resuelven ecuaciones como, por ejemplo, x2+1=0. No hay ningún número real que sea solución de esta ecuación porque no hay ningún número real que elevado al cuadrado (que multiplicado por él mismo) dé -1, que es lo que debería suceder para que la igualdad fuera cierta.
            Como puede apreciarse cada tipo de número es una respuesta a algún tipo de situación real. Cada tipo de números aporta algo nuevo que era imposible encontrar en los anteriores.
            Los números complejos son el techo de todos los números. Los demás son diferentes subconjuntos de éstos y, como tales, son, en realidad, complejos. Por ejemplo, los números reales son complejos en los que la b es igual a cero. Como la b, en los complejos, puede ser cualquier número real, y como los reales son los complejos para los que la b es igual a cero, los reales se ven ahora como una muy pequeña parte respecto al total de números complejos.
            Es muy interesante ver cómo unos conjuntos de números están incluidos dentro de otros. Los naturales están dentro de los enteros, los enteros dentro de los racionales, los racionales dentro de los reales y los reales están dentro de los complejos. Todos son, pues, complejos.
            Se pueden ver los números complejos como puntos de un plano en el que una dimensión es la llamada parte real del número, la a, y la otra dimensión la parte imaginaria, la b. De esta forma cada número complejo ocupa una posición distinta en este plano, una posición definida por dos componentes: su parte real y su parte imaginaria.
            Aunque estos conjuntos de números son los más usuales en matemáticas no son los únicos conjuntos de números importantes. Hay otros conjuntos de números que en gran parte pueden ser partes de estos conjuntos básicos vistos, pero que es muy importante especificar por la enorme importancia que tienen. Por ejemplo: el conjunto de números reales comprendidos entre el cero y el diez, incluidos ambos. Este conjunto en lenguaje más técnico se le suele denominar el intervalo cerrado de números reales entre el cero y el diez. Escrito en lenguaje matemático:[0,10].
De este conjunto no nos hemos escapado de manejarlo nadie. Es el conjunto de notas posibles tras un examen. En España la forma de puntuar habitual de los exámenes es mediante un número que va del cero al diez, de un número de este intervalo cerrado. Es cerrado porque el cero y el diez pueden ser notas. Si el cero y el diez no pudieran nunca ponerse como notas pero sí cualquier nota entre ellos el intervalo sería el denominado “abierto”. Y se escribiría entonces (0,10) De la misma forma hay los semiabiertos:[0,10) y (0,10]. La interpretación de estos intervalos es obvia si se proyecta lo explicado anteriormente.
Otro conjunto de números importante: El intervalo de números reales del cero al cien. Escrito:[0,100]. Continuamente hablamos en porcentajes. Pues tomamos entonces valores de este conjunto.
Otro conjunto:[0,1]. Este es un conjunto de números muy usual en el mundo de las probabilidades. Las probabilidades las solemos expresar en tanto por uno. Por ejemplo, en una moneda equilibrada decimos que la probabilidad de cara es 0,5.
Otro:[-1,1]. Muy usual para indicar las correlaciones entre dos características evaluadas en ciertos individuos. Por ejemplo, podemos oír o leer que en una muestra estudiada se ha comprobado que entre la altura y el peso hay una correlación de 0,78. Este valor de correlación por el cálculo que implica siempre está comprendido entre el -1 y el 1.
Otro índice muy popular en la Química: El pH. Es un número entre 1 y 14. Por lo tanto, el pH es un valor de un intervalo [1,14].