El histograma es uno de los gráficos estadísticos más populares, y es uno de los habituales en el análisis exploratorio
de las variables porque conocer la distribución de frecuencias de las mismas es una cuestión realmente importante.
Ya hemos visto antes cómo usar la función hist() sin más argumento que la serie de datos a representar para obtener
la Figura
. Ahora vamos a ver cómo controlar algunas de las cuestiones básicas en el diseño (no tanto
en la presentación, cosa que veremos en el capítulo final) del histograma.
Una cuestión importante (más bien, importantísima) es la definición de los intervalos de las clases en que vamos a
fragmentar la variable. Eso lo haremos con el argumento breaks. A continuación vemos cómo se utiliza con un ejemplo
que da lugar a la Figura
.
Figura:
Modificación de las clases del histograma con breaks
 |
hist(cars$speed,labels=T,breaks=0:9*3,col=3)
hist(cars$speed,labels=T,breaks=0:9*4,col=3)
hist(cars$speed,labels=T,breaks=0:14*2,col=3)
Con la primera instrucción creamos el histograma de la izquierda. Como vemos, los límites de clase son 0, 3, 6, 9,...,27.
Para evitarnos poner todos esos valores, introducimos la expresión 0:9*3, que multiplica por 3 los enteros que van del
0 al 9 (ambos incluidos).
Con la segunda obtenemos el histograma del medio. En este caso los intervalos tienen una amplitud de 4 unidades y el rango
va desde 0 a 36.
Finalmente, con la tercera instrucción obtenemos la figura de la derecha, en la que las clases van de dos en dos
desde el 0 hasta el 28.
En todos los casos, con el argumento col=3 hacemos que los histograms sean de color verde. Con labels=T hacemos
que se impriman los valores de frecuencia asociados a cada clase.
Como puede observarse, la definición de las clases determina la forma del histograma. Veremos más adelante cómo evitar
este problema.
Podemos hacer tanto histogramas de frecuencias absolutas como de frecuencias relativas. Por defecto, son del primer
tipo. Para conseguir los segundos no hay más que incluir el argumento freq=F. Así,
hist(cars$speed,labels=T,col=2,freq=F)
genera la Figura
. En ella se aprecia que el eje de ordenadas está etiquetado como density y
no como frequency.
Figura:
Frecuencias relativas con freq=F
 |
2007-02-12