Manipulación de data.frames

Como hemos comentado anteriormente, los data.frame son un tipo de objeto fundamental en R. La mayor parte de los datos que queramos analizar estadísticamente estarán almacenados en forma de data.frame ya que, por lo general, tendremos una serie de variables numéricas y otras que no lo serán. Nada impide que en un data.frame todas las variables sean de un solo tipo. Cuando todas son numéricas, el data.frame puede transformarse en una matriz, que es otro tipo de objetos presentes en R.

Se entiende, por tanto, que sea imprescindible conocer las técnicas de manipulación básicas de los data.frame. En unas ocasiones querremos extraer información de ellos; en otras, eliminar o añadir variables; seleccionar datos;...En los siguientes apartados veremos cómo hacer algunas de estas operaciones.

Para los ejemplos de esta sección utilizaremos los datos contenidos en el fichero resultados académicos que se adjunta con el CD.
Para cargar esos datos, es recomendable copiar el fichero en nuestro directorio de trabajo. Entonces, sólo con teclear
resultados<-read.table("resultados.txt",sep=",",header=T)
tendremos en nuestro workspace el data.frame resultados.
Como se puede apreciar, en la instrucción le indicamos a read.table que el fichero es de tipo delimitado por comas (sep=",") y que la primera fila contiene el nombre de las variables(header=T). Como este es el data.frame que vamos a utilizar más a menudo, es una buena idea colocarlo en la ruta de búsqueda con attach(resultados), de esa manera podremos referirnos a las variables sin necesidad de indicar a R continuamente que se encuentran en el data.frame resultados. Una vez cargados los datos es conveniente estudiar su estructura con str()
str(resultados)
`data.frame': 4838 obs. of 9 variables:
$ Evaluacion: Factor w/ 4 levels "1","2","F","N": 4 3 3 2 2 3 3 3 2 3 ...
$ Curso : num NA 1 2 1 1 1 1 2 2 1 ...
$ B : num NA 0 0 0 0 0 0 0 0 0 ...
$ IN : num NA 0 0 0 0 0 0 0 0 0 ...
$ NT : num NA 0 0 0 1 1 1 1 1 1 ...
$ SB : num NA 9 9 9 8 8 8 8 8 8 ...
$ SF : num NA 0 0 0 0 0 0 0 0 0 ...
$ Año : Factor w/ 9 levels "1994","1995",..: 9 5 6 8 5 7 7 5 6 5 ...
$ Alumno : Factor w/ 4838 levels "1","10","100",..: 4838 4265 374 1973 2200 2431 2593 2598 3310
3311 ...

Subsecciones

2007-02-12