RECURSOS ESTADÍSTICOS" DISTRIBUCIÓN NORMAL,PRUEBA DE HIPÓTESIS"
DISTRIBUCIÓN NORMAL
La distribución normal (en ocasiones llamada distribución gaussiana) es la distribución continua que se utiliza más comúnmente en estadística. La distribución normal es de vital importancia en estadística por tres razones principales:
- Muchas variables continuas comunes en el mundo de los negocios tienen distribuciones que se asemejan estrechamente a la distribución normal.
- La distribución normal sirve para acercarse a diversas distribuciones de probabilidad discreta, como la distribución binomial y la distribución de Poisson.
- La distribución normal proporciona la base para la estadística inferencial clásica por su relación con el teorema de límite central.
En la distribución normal, uno puede calcular la probabilidad de que varios valores ocurran dentro de ciertos rangos o intervalos. Sin embargo, la probabilidad exacta de un valor particular dentro de una distribución continua, como la distribución normal, es cero. Esta propiedad distingue alas variables continuas, que son medidas, de las variables discretas, las cuales son contadas. Como ejemplo, el tiempo (en segundos) se mide y no se cuenta. Por lo tanto, es factible determinar la probabilidad de que el tiempo de descarga para una página principal en un navegador de la Web esté entre 7 y 10 segundos o que la probabilidad de que el tiempo de descarga esté entre 8 y 9 segundos, o la probabilidad de que el tiempo de descarga esté entre 7.99 y 8.01 segundos. Sin embargo, la probabilidad de que el tiempo de descarga sea exactamente de 8 segundos es cero.
La distribución normal tiene importantes propiedades teóricas:
- Tiene una apariencia de forma de campana (y, por ende, es simétrica).
- Sus medidas de tendencia central (media, mediana y moda) son todas idénticas.
- Su “50% central” es igual a 1.33 desviaciones estándar. Esto significa que el rango intercuartil está contenido dentro de un intervalo de dos tercios de una desviación estándar por debajo de la media y de dos tercios de una desviación estándar por encima de la media.
- Su variable aleatoria asociada tiene un rango infinito (-∞ < X < ∞).
En la práctica, muchas variables tienen distribuciones que se asemejan a las propiedades teóricas de la distribución normal.
PRUEBA DE HIPÓTESIS
Una prueba de hipótesis es un procedimiento, con el que se busca tomar una decisión sobre el valor de verdad de una hipótesis estadística. Al realizar una prueba de hipótesis decidimos si rechazar o no rechazar esa hipótesis estadística. Basamos la decisión en la evidencia muestral.
Una prueba de hipótesis es un procedimiento, con el que se busca tomar una decisión sobre el valor de verdad de una hipótesis estadística. Al realizar una prueba de hipótesis decidimos si rechazar o no rechazar esa hipótesis estadística. Basamos la decisión en la evidencia muestral.
Un esquema muy simplificado que resume el proceso sería el siguiente:
Por eso muchas veces se compara un proceso de prueba de hipótesis con un juicio: hay que recoger evidencias para analizar si la hipótesis de base (la inocencia del acusado en el caso del juicio) se sostiene o se rechaza.
Ejemplo intuitivo
Entender muy bien que es una prueba de hipótesis implica comprender muchos conceptos (variable, parámetro, hipótesis estadística, estadístico de prueba, etc). Y también las relaciones entre ellos. Pero la idea general de que es una prueba de hipótesis no es difícil de entender. De hecho, es muy intuitiva. Vamos a ver un ejemplo que en forma natural expresa el razonamiento y procedimiento detrás de una prueba de hipótesis.
Situación
Un fabricante de galletitas produce paquetes en los cuales el peso nominal impreso es de gramos. Pero el contenido real en gramos es una variable aleatoria. No tienen exactamente gramos todos los paquetes. El fabricante, basándose en información histórica, afirma que la media de esa variable es gramos con un desvío estándar de gramos. Se desconfía de la afirmación del fabricante acerca de que gramos. Se quiere analizar si en realidad el peso promedio de los paquetes es inferior a gramos.
La variable
La variable que nos interesa observar es : peso en gramos de un paquete de galletitas de la fábrica.
Las hipótesis en juego
Las dos afirmaciones que se contraponen en esta situación son:
- Afirmación del fabricante, que llamaremos hipótesis nula: la media de es 500:
- Afirmación alternativa: Hipótesis alternativa: la media de es menor que 500:
No podemos conocer el verdadero valor del parámetro, pero podemos estimarlo
Cómo se trata de una discusión acerca del valor de un parámetro, no es fácil decidir cuál afirmación es correcta. Habría que medir todos los paquetes de la producción para conocer la verdadera esperanza de . En general esto es inviable. Para no tener que medir el peso en todos los paquetes de la producción se puede tomar una muestra aleatoria de paquetes, y analizar si los valores observados de son o no coherentes con la afirmación del fabricante.
Para lo que sigue a continuación es requisito saber sobre la distribución de la variable media muestral.
Supongamos que se toma una muestra aleatoria de 100 paquetes, y se mide el peso (utilizando una balanza muy precisa) en cada uno de los paquetes. Obtenemos entonces una muestra aleatoria de la variable :
Sabemos que la medía muestral es un buen estimador de la media poblacional . Entonces vamos a calcular la media muestral del peso de los 100 paquetes, para contrastarla con la hipótesis nula.
- Si obtenemos un valor de “muy inferior a 500”, es decir una diferencia “muy grande”, rechazaremos la hipótesis nula.
- Si obtenemos un valor de “muy cercano a 500”, es decir una diferencia “pequeña”, diremos que no existe evidencia suficiente para rechazar la hipótesis nula.
Veamos que conclusión sacaríamos en los siguientes casos.
Caso A de evidencia muestral: se obtiene una media muestral muy contraría a la afirmación inicial
Si se obtiene que el promedio de los pesos es de gramos, podríamos concluir que la evidencia muestral no es compatible con la afirmación del fabricante. Se obtuvo un valor muy por debajo de 500 gramos. Podríamos rechazar la afirmación del fabricante. No puede ser cierto que , pero que se observe . Cómo de hecho se observó, entonces rechazamos la hipótesis nula.
Caso B de evidencia muestral: se obtiene una media muestral “cercana” a la afirmación inicial
Si se obtiene que el promedio de los pesos es de gramos, podríamos pensar que el valor de obtenido es muy cercano al valor de propuesto por la hipótesis inicial… y entonces concluir que no hay evidencia contraria a esa hipótesis.
Caso C de evidencia muestral: se obtiene una media muestral que no es concluyente “a simple vista” respecto de la afirmación inicial
Si se obtiene que el promedio de los pesos de 100 paquetes es de gramos… ¿Qué concluimos? ¿Es coherente con una media poblacional de 500 o no? Este caso resulta más dilemático y no permite decidir tan fácilmente. Se presenta el problema de decidir que es “cerca” y que es “lejos” de 500. Más adelante vamos a ver cómo se decide un punto de corte o punto crítico que permite definir una zona “cercana” (zona de no rechazo) y una zona “lejana” (zona de rechazo).
Definición intuitiva
Entonces una prueba de hipótesis es un proceso en el que, partiendo de dos hipótesis estadísticas contrapuestas (una nula y una alternativa), tomamos información muestral para decidir si se rechaza o no la hipótesis inicial en favor de la hipótesis alternativa.
Problema del abordaje intuitivo que acabamos de hacer
El problema que tiene este abordaje es que no queda bien definido que sería que esté “cerca” o “lejos” de 500 gramos. Para el caso A y B elegimos valores que “a ojo” parecen muy por debajo (421,3) o muy cercanos (499,8) a 500. Pero tenemos que poder tener un criterio objetivo con el que tomar la decisión sobre si la evidencia muestral es contraría o no a la afirmación inicial. A continuación, nos vamos a meter con esta complicación técnica. Pero la idea básica de que es una prueba de hipótesis, es la que comentamos en este ejemplo.
Qué es un estadístico de prueba?
Esta es la definición más difícil de esta serie. Por eso vamos a dar muchos ejemplos.
Un estadístico de prueba es:
- Una variable aleatoria
- De distribución conocida
- Que vincula a un parámetro de interés, con un estimador de ese parámetro.
Vamos a ver algunos ejemplos de estadísticos de prueba que nos van a interesar más adelante.
EJEMPLO 1
Si , y , es una muestra aleatoria de , y conocemos entonces:
Es un estadístico de prueba. Porque es una variable aleatoria, con distribución conocida (normal estándar), y que relaciona al parámetro con su estimador .
Observación: no demostramos recién por qué es esa la distribución de . No nos interesa hacerlo acá para no distraer la atención. Pero la fundamentación tiene que ver con:
- Si es normal, una combinaicón lineal de va a ser normal también.
- La esperanza de es .
- La varianza de es
- La estandarización de variables aleatorias normales.
EJEMPLO 2
Si , y , es una muestra aleatoria de , y no conocemos pero lo estimamos con entonces:
Es un estadístico de prueba. Porque es una variable aleatoria, con distribución conocida (de student grados de libertad), y que relaciona al parámetro con su estimador .
Observación: no demostramos por qué es esa la distribución. Hay que aceptarlo así :).
EJEMPLO 3
Si tiene una distribución desconocida, y , es una muestra aleatoria de (con ), y no conocemos pero lo estimamos con entonces:
Es un estadístico de prueba. Porque es una variable aleatoria, con distribución conocida (en realidad aproximadamente conocida, porque se aproxima a la distribución normal estándar), y que relaciona al parámetro con su estimador .
Observación: no demostramos por qué es esa la distribución. Tiene que ver con el teorema central del límite.
EJEMPLO 4
Si y es una muestra aleatoria de , con entonces:
Es un estadístico de prueba. Porque es una variable aleatoria, con distribución conocida (en realidad aproximadamente conocida, porque se aproxima a la distribución normal estándar), y que relaciona al parámetro con su estimador .
Observación: no demostramos por qué es esa la distribución. Tiene que ver con el teorema central del límite.
EJEMPLO 5
Si y , es una muestra aleatoria de , entonces:
Es un estadístico de prueba. Porque es una variable aleatoria, con distribución conocida, y que relaciona al parámetro con su estimador .
Observación: no demostramos por qué es esa la distribución. Hay que aceptarlo así :).
Una tabla que resume las condiciones que deben darse, el parámetros de interés y un estadístico de prueba adecuado es la siguiente:
¿Qué es una hipótesis estadística?
Una hipótesis estadística es una afirmación acerca de la distribución de una variable aleatoria.
- Si la afirmación es sobre el valor de un parámetro, es una hipótesis estadística paramétrica.
- Si la afirmación es sobre la forma de la distribución de probabilidades, es una hipótesis estadística no paramétrica.
Veamos algunos ejemplos de afirmaciones y establezcamos si son o no son hipótesis estadísticas.
- Afirmación 1: “La molécula de agua está compuesta por dos átomos de hidrógeno y un átomo de oxígeno”.
- Afirmación 2: “La variable X tiene distribución Binomial”.
- Afirmación 3: “La media de una muestra de 100 observaciones es de gramos”
- Afirmación 4: “La media de la variable es ”
- Afirmación 5: “La media de la variable es ”
La afirmación 1 predica sobre la composición de una molécula. Será una afirmación… pero no es de tipo “estadístico”. Y en particular no dice nada sobre ninguna variable aleatoria. No es una hipótesis estadística.
La afirmación 2 predica sobre la forma que tiene la distribución de una variable aleatoria. Está diciendo algo acerca de una variable aleatoria. Así que podemos decir que es una hipótesis estadística. Pero es una hipótesis estadística no paramétrica.
La afirmación 3 es sobre la media muestral de una variable aleatoria. La media muestral no es un parámetro, sino que es una variable aleatoria. No es una hipótesis estadística porque no afirma nada ni sobre el tipo de distribución (binomial, normal, etc…) ni sobre sus parámetros.
La afirmación 4 sí es una hipótesis estadística (paramétrica) porque asevera que el parámetro media poblacional de cierta variable es igual a 134.
Ejemplo de prueba de hipótesis detallado paso a paso (incluyendo los detalles “técnicos”)
El enunciado
Un fabricante de galletitas produce paquetes en los cuales el peso nominal impreso es de 500 gramos. Pero el contenido real es una variable aleatoria con distribución normal. No tienen exactamente 500 gramos todos los paquetes. El fabricante, basándose en información histórica, afirma que la media de esa variable X es gramos con un desvío estándar de 5 gramos. Se desconfía de la afirmación del fabricante acerca de que gramos. Se quiere analizar si en realidad el peso promedio de los paquetes es inferior a 500 gramos.
Para esto se toma una muestra de tamaño 100, y se obtiene una media muestral de gramos.
Realizar una prueba de hipótesis con un nivel de significación de .
La variable
La variable sobre la que vamos a trabajar es : peso real de un paquete de galletitas de 500 gramos de la fábrica.
El enunciado afirma que la distribución de es normal. No se conoce , pero sí se conoce .
Hipótesis nula e hipótesis alternativa
es la hipótesis nula. Hipótesis nula es la hipótesis de no cambio. Es la hipótesis de que todo queda igual. Hay otra hipótesis que es la hipótesis de cambio. Siempre en esta hipótesis va a estar el igual.
es la hipótesis alternativa. Es complementaría a la nula. Niega a la hipótesis nula.
Las hipótesis son complementarias. La nula tiene el símbolo de igualdad siempre. Entonces en la otra no puede aparecer el igual. En la hipótesis alternativa se utiliza o bien el símbolo de distinto , o bien mayor o bien menor .
Error de tipo 1 y error de tipo 2
Uno querría tomar la decisión correcta. Rechazar la hipótesis nula, cuando esta es falsa, es una decisión correcta posible. No rechazar la hipótesis nula, cuando esta es verdadera es otra forma de tomar una decisión correcta.
Pero cuando se toma una decisión basada en información muestral, se pueden cometer errores. Si la hipótesis nula fuera verdadera, y tomamos la decisión de rechazarla estaremos cometiendo un error. Este error se conoce cómo el error de tipo 1. Si la hipótesis nula fuera falsa, y no la rechazamos estaríamos cometiendo otro error. Este otro error se conoce cómo el error de tipo 2.
En un proceso de prueba de hipótesis, no es posible tener garantía absoluta de no estar cometiendo algún error.
Comentarios
Publicar un comentario