PRUEBA DE HIPÓTESIS

PRUEBAS DE BONDAD DE AJUSTE

Una hipótesis estadística se definió como una afirmación o conjetura acerca de la distribución f(x,q) de una o más variables aleatorias. Igualmente se planteó que la distribución podía tener uno o más parámetros desconocidos, que denotamos por q y que la hipótesis se relaciona con este parámetro o conjunto de parámetros En otros casos, se desconoce por completo la forma de la distribución y la hipótesis entonces se relaciona con una distribución específica f(x,q) que podamos asignarle al conjunto de datos de la muestra. El primer problema, relacionado con los parámetros de una distribución conocida o supuesta es el problema que hemos analizado en los párrafos anteriores. Ahora examinaremos el problema de verificar si el conjunto de datos se puede ajustar o afirmar que proviene de una determinada distribución. Las pruebas estadísticas que tratan este problema reciben el nombre general de "Pruebas de Bondad de Ajuste".

Se analizarán dos pruebas básicas que pueden aplicarse: La prueba Chi - Cuadrado y la prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la categoría de lo que en estadística se denominan pruebas de "Bondad de Ajuste" y miden, como el nombre lo indica, el grado de ajuste que existe entre la distribución obtenida a partir de la muestra y la distribución teórica que se supone debe seguir esa muestra. Ambas pruebas están basadas en la hipótesis nula de que no hay diferencias significativas entre la distribución muestral y la teórica. Ambas pruebas están basadas en las siguientes hipótesis:

H0: f(x,q) = f0(x,q)
H1: f(x,q) ¹ f0(x,q)

donde f0(x,q) es la distribución que se supone sigue la muestra aleatoria. La hipótesis alternativa siempre se enuncia como que los datos no siguen la distribución supuesta. Si se desea examinar otra distribución específica, deberá realizarse de nuevo la otra prueba suponiendo que la hipótesis nula es esta nueva distribución. Al especificar la hipótesis nula, el conjunto de parámetros definidos por q puede ser conocido o desconocido. En caso de que los parámetros sean desconocidos, es necesario estimarlos mediante alguno de los métodos de estimación analizados con anterioridad.

Para formular la hipótesis nula deberán tenerse en cuenta los siguientes aspectos o criterios:

a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la distribución que siguen los tiempos de falla de unos componentes, podríamos pensar en una distribución exponencial, o una distribución gama o una distribución Weibull, pero en principio no consideraríamos una distribución normal. Si estamos analizando los caudales de un río en un determinado sitio, podríamos pensar en una distribución logarítmica normal, pero no en una distribución normal.
b)
Histograma. La forma que tome el histograma de frecuencia es quizás la mejor indicación del tipo de distribución a considerar.

10.1. Prueba Chi Cuadrado (ji dos)

Esta prueba se usa cuando se quiere probar la hipótesis de que unos datos muestrales provienen de una determinada distribución.

La prueba chi cuadrado se basa en la comparación entre la frecuencia observada en un intervalo de clase y la frecuencia esperada en dicho intervalo, calculada de acuerdo con la hipótesis nula formulada. Es decir, se quiere determinar si las frecuencias observadas en la muestra están lo suficientemente cerca de las frecuencias esperadas bajo la hipótesis nula.

Para esta prueba es necesario agrupar o distribuir las observaciones de la muestra en intervalos de clase, preferiblemente del mismo tamaño. El estadístico de prueba está definido como:

donde: Oi = Total de valores que caen en el intervalo i.
Ei = Número esperado de valores en el intervalo i.
k = Número de intervalos de clase en que se distribuyen las observaciones.

Si los límites del intervalo de clase i están dados por Xi-1 y Xi, como lo ilustra la presente gráfica, el número esperado de observaciones para ese intervalo está dado por:

Ei =nPi

donde Pi representa la probabilidad de que una observación quede en el intervalo i, de acuerdo con función de densidad que se esté analizando, y n es el número total de observaciones.

La probabilidad de que una observación caiga en el intervalo i está dada por:


siendo f0(x,q) la función de densidad de la variable aleatoria X, bajo la hipótesis nula.

Para ver que distribución sigue el estadístico X², considere la siguiente situación:

Suponga que las observaciones de la muestra pueden clasificarse en dos intervalos o categorías. Sea Y1 el número de observaciones que caen en la categoría 1, y sea P1 su respectiva probabilidad.

Si el tamaño de muestra es lo suficientemente grande, Y1 (que sigue una distribución binomial) puede aproximarse por una distribución normal con valor esperado nP1 y varianza nP1(1-P1). Por lo tanto, la variable Z definida a continuación sigue una distribución normal estándar, y Z² una distribución chi cuadrado con un grado de libertad.

Si definimos Y2 como Y2 = n - Y1, y P2 = 1 - P1, se tiene que Z² se puede desagregar de la siguiente manera:

Ahora suponga que las observaciones pueden clasificarse no en dos sino en k clasificaciones mutuamente excluyentes, y sean Yi y Pi el número de variables que caen en la categoría i y la probabilidad respectiva. La distribución conjunta de Y1, Y2,...,Yk tiene una distribución multinomial con parámetros n, P1, P2,... y Pn, donde Pk = 1 - P1 - P2 -... -Pk-1. Se puede demostrar que la variable Z2 definida a continuación sigue una distribución chi cuadrado con k-1 grados de libertad:


Comparando la expresión anterior con el estadístico X² definido previamente, vemos que este estadístico sigue también la distribución chi cuadrado con k - 1 - p grados de libertad, siendo p el número de parámetros estimados para definir completamente la función f0(x,q). Sin embargo para que esta suposición sea válida se requiere que el número esperado de observaciones en cada intervalo de clase sea por lo menos 5 (Ei ³ 5). Si esta condición no se cumple, es necesario agrupar en uno los resultados de varios intervalos de clase.

Según lo anterior se acepta la hipótesis nula si X² £ , donde el valor representa el valor de la distribución chi cuadrado con k-1-p grados de libertad y un nivel de significancia de a (es el valor de distribución chi cuadrado que tiene un área de a a su derecha).

Algunas consideraciones que hay que tener en cuenta con respecto a la aplicación de esta prueba son las siguientes:

1) El número de intervalos de clase debe ser por lo menos cinco. Para facilidad de los cálculos y la identificación de la posible distribución tampoco debería ser muy grande ( k £ 20).
2) El número esperado de observaciones en cada intervalo debe ser mayor o igual a cinco; en caso contrario, deberían agruparse varios intervalos para lograr esto.
3) Al realizar los cálculos para Pi hay que tener en cuenta los intervalos extremos como casos especiales, a saber:

· Cálculo de P1. Aunque el primer intervalo incluye aquellos valores observados que están ente X0 y X1, sólo corresponde a los resultados de una muestra. El hecho de que no se hayan observado en la muestra valores menores o iguales que x0 no implica que en la pobla ción de donde se toma la muestra no se puedan presentar valores menores o iguales que x0. Por lo tanto, el cálculo de P1 corresponde a la probabilidad de que la variable aleatoria sea menor o igual que X1, y no únicamente entre X0 y X1. Es decir,

· Cálculo de Pn. De manera similar, el último intervalo corresponde no sólo a los valores que están entre Xk-1 y Xk, sino que comprende también los valores de la población que sean mayores que Xk, así éstos no se hayan presentado en la muestra. Por lo tanto, Pk se calcula como:

Ejemplo. A un grupo de 80 empleados se les ha aplicado una prueba de habilidad espacial. En una graduación de 0 a 100 han obtenido las puntuaciones dadas en la tabla siguiente. Se pide verificar la hipótesis de que los puntajes se pueden ajustar a una distribución normal.

Solución. A continuación se hace el desarrollo completo de la prueba de bondad de ajuste, partiendo de distribución de los datos en intervalos de frecuencia y la construcción del histograma.

· La muestra tiene un puntaje promedio de 55.8 y una desviación estándar de 18.6 puntos.
· El puntaje mínimo fue de 14 y el máximo de 93.
· La amplitud o rango está dado por Rango = R = Rango = Xmax - Xmin = 93 - 14 = 79
· El número de intervalos de clase, calculado usando la fórmula de Sturgess, está dado por:
k = 1 +3.32 Log10 (80) = 7.32 » 8
· La amplitud o ancho del intervalo está dado por = » 10
La distribución de frecuencia muestra que los puntajes se pueden aproximar razonablemente bien por una distribución normal. Por lo tanto la hipótesis formuladas son:

H0: f(x,q) = N(m, s²),
H1: f(x,q) ¹ N(m, s²),

La tabla siguiente presenta los valores distribuidos en los intervalos de clase y la frecuencia absoluta de cada intervalo, correspondiente al número de observaciones que caen en él. Igualmente se presentan en la tabla los cálculos necesarios para realizar la prueba chi cuadrado.

Los principales cálculos se resumen a continuación:

En general Pi, la probabilidad de que una observación quede en el intervalo i está dada por:

Como la variable aleatoria X se distribuye normalmente (m, s²), entonces Pi puede expresarse como:

donde j(zi-1) y j (zi) son las probabilidades de que la variable aleatoria normal estándar Z sea menor o igual a zi-1 y zi, respectivamente.

Al realizar los cálculos para Pi se tuvieron en cuenta los intervalos extremos como casos especiales, a saber:

· Cálculo de P1. El cálculo de P1 corresponde a la probabilidad de que la variable aleatoria sea menor o igual que X1, (igual a 24). Es decir,

· Cálculo de P8. El último intervalo corresponde a los valores de la población que sean mayores que xn (84 en nuestro caso). Por lo tanto, P8 se calcula como:


· Para los demás valores Pi se calculó como: Pi = F(Xi) - F(Xi-1) = j(zi)- j(zi-1)

El valor chi cuadrado calculado es X² = 1.46. El valor crítico con un nivel de significancia del 5% y 7 grados de libertad es 14.07. Por lo tanto, se concluye que no hay evidencia para rechazar la hipótesis de que el puntaje obtenido en la prueba de habilidad se puede representar mediante una distribución normal con un puntaje medio de 55.8 puntos, y una desviación estándar de 18.6 puntos.

Ejemplo. Para verificar un generador congruencial de número aleatorios se generó una secuencia de 100 números, los cuales se distribuyeron en 10 intervalos de clase igualmente espaciados, y que se presentan en la tabla siguiente. Se desea probar, mediante la prueba chi cuadrado, la hipótesis de que los números generados se distribuyen uniformemente entre 0 y 1. Use un nivel de confianza del 1%.

Las hipótesis a plantear son las siguientes:

H0: f(x,q) = U(0,1) = 1
H1: f(x,q) ¹ U(0,1)

La figura de la página siguiente nos muestra el histograma de frecuencia respectivo.

La probabilidad de que una observación caiga en el intervalo i está dada por:

donde f0(x,q) = 1 ya que se trata de la distribución uniforme (0,1).

En nuestro caso, tratándose de la distribución uniforme y para k intervalos de clase igualmente espaciados, la probabilidad de que una observación quede en el intervalo i está dada por:

Pi = 1/k = 1/10 = 0.10, i = 1, 2 ,,, k

Entonces el número esperado de valores en cada intervalo está dado por:

Ei = pi N = N/k = 100/10 = 10, i = 1, 2 ,,, k

 

Prueba de uniformidad Chi Cuadrado

El estadístico de prueba X² = 9.6 y el valor crítico = 21.7 para un nivel de significancia del 1%, lo cual nos lleva a aceptar la hipótesis de que los valores generados provienen de una distribución uniforme. El valor P sería de 0.38.

Ejemplo. La tabla siguiente presenta la distribución de frecuencia del número de defectos encontrados en el análisis de los últimos 200 artículos producidos en un proceso de producción. Usando un nivel de confianza del 5% se desea verificar mediante una prueba chi cuadrado si dichos valores proceden de una distribución de Poisson con una media de3.5 defectos por artículo.

Solución. Las hipótesis planteadas son las siguientes:

H0: f(x,l) = Poisson (l = 3.5)
H1: f(x, l) ¹ Poisson (l = 3.5)

La tabla siguiente presenta los cálculos requeridos para realizar la prueba de bondad de ajuste. Para el cálculo de f(x,l) que es una distribución de Poisson se usó la siguiente relación:


Solución. El estadístico de prueba X² = 20.0 y el valor crítico = 14.07 para un nivel de significancia del 5%, lo cual nos lleva a rechazar la hipótesis de que el número de defectos del proceso sigue una distribución de Poisson con una media de 3.5 defectos por artículo.

El número medio de defectos observados en la muestra está dado por:

Podría pensarse que el número de defectos en el proceso sí sigue una distribución de Poisson, pero con un parámetro diferente de 3.5, posiblemente 3.0. (Verifique que si se plantea como hipótesis nula H0: f(x,l) = Poisson (l = 3.0) el estadístico de prueba es 2.6 y en este caso no se rechaza la hipótesis nula.

10.2. Prueba de Smirnov - Kolmogorov (S-K)

En esta prueba también se está interesado en el grado de concordancia entre la distribución de frecuencia muestral y la distribución de frecuencia teórica, bajo la hipótesis nula de que la distribución de la muestra es f0(x,q) e interesa probar que no existe diferencia significativa. La prueba trabaja con la función de distribución ( distribución de frecuencia acumulativa). Esta prueba pertenece al campo de la Estadística No Paramétrica.

Sea F0(x) la función de distribución teórica para la variable aleatoria X, y representa la probabilidad de que la variable aleatoria X tome un valor menor o igual a x (también se interpreta como la proporción esperada de observaciones que tengan un valor menor o igual a x). Es decir:

Sea Sn (x) la función de distribución empírica, calculada con base en los valores observados de la muestra n observaciones. Sn (x) representa la proporción de valores observados que son menores o iguales a x, y está definida como:

Sn (x) = P ( X £ x/ dados los resultados muestrales) = m/n

donde m es el número de valores observados que son menores o iguales a x.

En la prueba de Smirnov-Kolmogorov se está interesado en la mayor desviación entre la función de distribución teórica y la empírica, es decir entre F0 (x) y Sn(x), para todo el rango de valores de x. Bajo la hipótesis nula se espera que estas desviaciones sean pequeñas y estén dentro de los límites de errores aleatorios. Por lo tanto, en la prueba S-K se calcula la mayor desviación existente entre F0 (x) y Sn(x), denotada por Dmax(x) y está dada por:

Dmax(x) = Max | FX (x) - Sn (x) |

La distribución de Dmax(x) es conocida y depende del número de observaciones n. Se acepta la hipótesis nula de que no existe diferencia significativa entre las distribuciones teóricas y empíricas si el valor de Dmax(x) es menor o igual que el valor crítico Dmaxp(a,n). (Ver tabla adjunta para valores críticos).

Esta prueba se puede realizar para valores agrupados en intervalos de clase y también para valores sin agrupar.


Tabla tomada parcialmente del libro "Simulation and Analysis of Industrial Systems", de Schmidt y Taylor.

El procedimiento general para realizar esta prueba para valores agrupados en intervalos de clase es el siguiente:

1) Especificar la distribución nula es f0(x,q), y estimar sus parámetros si es necesario.
2) Organizar la muestra en una distribución de frecuencia, en intervalos de clase.
3) Con base en la distribución observada de frecuencia, se calcula la distribución acumulativa Sn(Xi) = mi/n, siendo Xi el límite superior del intervalo de clase, y mi el número de valores de la muestra menores o iguales que Xi. Sn(Xi) corresponde simplemente a la frecuencia relativa acumulada hasta el intervalo i.
4) Se calcula la función de distribución teórica F0Xi).
5) Para cada intervalo de clase se calcula la diferencia entre F0 (Xi ) y Sn (Xi), y se busca la máxima Dmax = Max | FX (Xi) - Sn (Xi), i = 1, 2, ..., k.
6) Se busca en la tabla el valor crítico Dmaxp(a,n) con el nivel de significancia a. Si el valor observado Dmax es menor o igual que el valor crítico, entonces se acepta la hipótesis nula de que no existen diferencias significativas entre la distribución teórica y la distribución dada por los resultados muestrales, es decir, que los valores generados siguen la distribución que se había supuesto.

Cuando la muestra es pequeña y/o los valores no se van a organizar en intervalos de clase el procedimiento es similar, sólo que el paso 2 se cambia por "ordenar los valores de la muestra" en forma ascendente, de menor a mayor", y en los pasos 3 y 4 se calculan las funciones de distribución teórica y empírica para cada valor de la muestra.

Ejemplo. Considere de nuevo el ejemplo de la prueba de habilidad aplicada a un grupo de 80empleados. Mediante la prueba de Smirnov Kolomogorov. Con un nivel de significancia del 5%, pruebe la hipótesis de que los puntajes obtenidos siguen una distribución normal.

Solución. De la tabla construida para realizar la prueba chi cuadrado tomaremos la información pertinente y la complementaremos con la información faltante, relativa al cálculo de Sn(Xi). Los cálculos se muestran a continuación.

El valor crítico para n = 80 valores y un nivel de significancia del 5% es Dmaxp(0.05,80) = 1.36/ = 0.152. Como la diferencia máxima observada fue de 0.0236 no hay razón para dudar que los puntajes se puedan aproximar mediante una distribución normal.

Ejemplo: Prueba de Smirnov - Kolmogorov - Valores agrupados. En la tabla siguiente se presentan los cálculos para realizar la prueba S-K para la muestra de 100 números aleatorios generados mediante un generador congruencial multiplicativo con a = 899, C = 0 y M = 32768, usados para la prueba chi cuadrado.

La diferencia máxima observada es Dmax(x) = 0.09 y el valor crítico para un nivel de significancia del 1% es de 1.63/ = .163. Como Dmax(x) < D(0.01,100) no podemos rechazar la hipótesis nula y debemos concluir que la muestra tomada del generador de números aleatorios proviene de una distribución uniforme (0,1).

Ejemplo. Prueba de Smirnov - Kolmogorov - Valores individuales. Para realizar la prueba de S-K no se requiere que las observaciones estén distribuidas en intervalos de clase, sino que puede realizarse sin agrupar los valores en intervalos de clase, principalmente cuando el tamaño de la muestra es pequeño. En este caso es necesario ordenar los valores en forma ascendente, de menor a mayor, y calcular, para cada valor observado las distribuciones teóricas F0(Xi) y empíricas Sn(Xi) en la forma como se explicó anteriormente. En la tabla siguiente se presenta la prueba para los primeros 20 números aleatorios generados mediante el generador congruencial multiplicativo mencionado anteriormente. La diferencia máxima observada es 0.123 y la máxima permitida es 0.294 para 20 valores y un nivel de significancia del 5%, lo cual lleva a la conclusión de que no existe evidencia de que las observaciones no se distribuyan uniformemente en el intervalo (0,1).. Recordemos que F0(Xi) = Xi para la distribución uniforme (0,1)

Prueba de Smirnov - Kolmogorov - Valores individuales

Propiedades de la prueba de Smirnov Kolmogorov

· La prueba de Smirnov - Kolmogorov puede aplicarse para tamaños de muestra pequeños, lo que no sucede con la chi cuadrado.
· Además, la prueba S-K es más poderosa que la Ji dos, es decir, cuando se rechaza la hipótesis nula, se tiene una mayor confiabilidad en dicho resultado.
· La prueba S-K debe usarse cuando la variable de análisis es continua. Sin embargo, si la prueba se usa cuando la distribución de la población no es continua, el error que ocurre en la probabilidad resultante está en la dirección segura. Es decir, cuando se rechaza la hipótesis nula, tenemos verdadera confianza en la decisión.

10.3. Gráficos de Probabilidad Normal

Es una prueba gráfica que nos permite verificar si una muestra proviene de una distribución normal. La prueba está basada en las calificaciones normales de los valores de la muestra, y se basa en el principio usado para graficar en el papel probabilístico normal. Si una muestra proviene de una distribución normal, al ordenar la muestra y graficar en un papel probabilístico normal las probabilidades acumuladas empíricas, obtenidas de la muestra, la gráfica resultante debe ser una línea recta. Por lo tanto, para realizar la prueba, se debe obtener inicialmente la función de distribución empírica.

Sea (X1, X2,…Xn) la muestra aleatoria. Los pasos a seguir serán los siguientes.

1) Se ordenan los valores de la muestra de menor a mayor. Sea X(1), X(2),…, X(n) la muestra ordenada.
2) Se denomina "rango de Xi " a la posición en que queda el valor Xi al ordenar la muestra de menor a mayor. Si consideramos los valores ya ordenados, el rango de X(i) será simplemente i, ya que (i) denota la i-ésima posición al ordenar la muestra.
3) Sea

Pi corresponde, aproximadamente, a la probabilidad empírica del valor X(i).
4) Se define como "Calificación normal" al valor de Z en la distribución normal que tiene una probabilidad acumulada de Pi, es decir, Zi = j (-1) (Pi). Pi recibe el nombre de Pi ésimo fractil de la distribución normal. La relación entre las calificaciones normales Zi y los X(i) debe ser aproximadamente lineal, si la muestra proviene efectivamente de una distribución normal. Por lo tanto, la correlación entre X(i) y los Zi debe ser aproximadamente 1 para muestras grandes. X(i) podría expresarse como:

X(i) = a + bZi +ei

donde el parámetro "a" corresponde a la media de la población, "b" a la desviación estándar y ei al error en el ajuste de los valores.

La gráfica X(i) vs Zi recibe el nombre de gráfica Cuantil Cuantil normal.
Considere la siguiente muestra. Verifique gráficamente si proviene de una distribución normal

La tabla siguiente presenta los valores de la muestra ordenados de menor a mayor, el rango de cada valor, y las respectivas calificaciones normales (Zi).

Como puede observarse, la relación entre los datos es aproximadamente lineal, lo cual indica que la muestra puede provenir de una distribución normal. El coeficiente de correlación entre los Pi y los Zi es 0.9785

Como un segundo ejemplo considere la siguiente muestra.

A continuación se presenta la gráfica de probabilidad normal. Como puede observarse los datos difieren bastante de una línea recta, lo cual indica que los valores no provienen de una distribución normal.