Con esta prueba podemos contrastar la procedencia (o no) de la misma
distribución de tres o más muestras. Supongamos que queremos saber si
el índice de resultados académicos contenido en el data.frame
resultados ha variado significativamente desde el año 1994 a
1996. Aplicando la función kruskal.test() a los valores
correspondientes podremos contestar la pregunta. El procedimiento
podría ser el siguiente:
a<
-subset(resultados,resultados$Año==1994,select=10)
b<
-subset(resultados,resultados$Año==1995,select=10)
c<
-subset(resultados,resultados$Año==1996,select=10)
kruskal.test(list(a[,1],b[,1],c[,1]))
Con las tres primeras sentencias se selecciona el índice que queremos
analizar (la columna 10) para los años que nos interesan y se asignan
a tres data.frame llamados a,b,c.
En la cuarta sentencia se aplica el test de Kruskal-Wallis. Para ello
tenemos que construir una lista encadenando las tres series de
datos. Como están en sendos data.frames, es preciso seleccionar
la columna (en estos casos, única) que los almacena.
El resultado
Kruskal-Wallis rank sum test
data: list(a[, 1], b[, 1], c[, 1])
Kruskal-Wallis chi-squared = 2.1531, df = 2, p-value = 0.3408
nos indica que no podemos rechazar la hipótesis de que las tres muestras provengan de la misma
distribución, pues la probabilidad de que así sea,
, es superior al nivel de significación
del 5%.
La función boxplot() nos proporciona una aproximación gráfica a este tipo de análisis como puede
apreciarse si tecleamos
boxplot(a[,1],b[,1],c[,1], notch=T)
el resultado es la Figura
en la que se aprecia que el primer cuartil ha aumentado a lo
largo de los tres años y que el rango intercuartílico se ha ido reduciendo. A pesar de ello, las medianas son similares
y, como nos indican las cuñas laterales introducidas por la opción notch=T, no difieren entre sí de manera
significativa al nivel de significación del 5% puesto que las incisiones se solapan unas con otras.
Figura:
Notched boxplots
 |
2007-02-12