Iniciación a `R`

Proyecto `R`

¿Qué es `R`?

R es un lenguaje de programación para entorno estadístico y gráficos. La base del proyecto se encuentra en la siguiente dirección:

http://www.r-project.org/

En esta dirección podremos descargar la última versión del programa así como acceder a toda la documentación, paquetes y librerías anexas, foros y otros proyectos relacionados.

Se trata de un proyecto de software libre, resultado de la implementación GNU del premiado lenguaje S. R y S-Plus -versión comercial de S- son, probablemente, los dos lenguajes más utilizados en investigación por la comunidad estadística, siendo además muy populares en el campo de la investigación biomédica, la bioinformática y las matemáticas financieras. R se distribuye bajo la licencia GNU GPL y está disponible para los sistemas operativos Windows, Macintosh, Unix y GNU/Linux.

CRAN

El mantenimiento del Proyecto R se realiza a traves del CRAN The Comprehensive R Archive Network donde se encuentran las últimas versiones del programa R y los paquetes anexos. Esta información se almacena en los Mirror¹. Estas réplicas u espejos se suelen crear para facilitar grandes descargas y facilitar el acceso a la información aun cuando haya fallos en el servicio del servidor principal. El listado oficial puede consultarse aquí CRAN mirrors.

Propiedades

La capacidad de combinar, sin fisuras, análisis preempaquetados con análisis ad-hoc, específicos para una situación: capacidad de manipular y modificar datos y funciones.
Los gráficos de alta calidad: visualización de datos y producción de gráficos para artículos.
La comunidad de R es muy dinámica, con gran crecimiento del número de paquetes, e integrada por estadísticos de gran renombre (ej., J. Chambers, L. Terney, B. Ripley, D. Bates, ).
Hay extensiones específicas a nuevas áreas como bioinformática, geoestadística y modelos gráficos.
Es un lenguaje orientado a objetos.

Instalación

Depende del sistema operativo, pero todo se puede encontrar en

http://cran.es.r-project.org/bin

Para Windows se puede obtener un ejecutable desde

http://cran.es.r-project.org/bin/windows/base

Al ejecutar el archivo se instalará el sistema base y los paquetes recomendados.

Paquetes

R consta de un sistema base y de paquetes adicionales que extienden su funcionalidad. Podemos encontrarlos en

http://cran.es.r-project.org/src/contrib/PACKAGES.html

Tipos de paquetes:

Los que forman parte del sistema base: ctest, graphics, … .
Los que no son parte del sistema base, pero son recommended: xlsx, survival, nlme, … .
Otros paquetes (UsingR, foreing, … ). éstos se han de seleccionar e instalar individualmente.

Documentación

Los manuales de R, incluidos en toda instalación.

An introduction to R is based on the former “Notes on R”“, gives an introduction to the language and how to use R for doing statistical analysis and graphics.
R Data Import/Export describes the import and export facilities available either in R itself or via packages which are available from CRAN.
R Installation and Administration.
Writing R Extensions covers how to create your own packages, write R help files, and the foreign language (C, C++, Fortran, …) interfaces.
A draft of The R language definition documents the language per se. That is, the objects that it works on, and the details of the expression evaluation process, which are useful to know when programming R functions.
R Internals: a guide to the internal structures of R and coding standards for the core team working on R itself.

Primeros pasos en `R`

Inicio

Iniciar una sesión de R

Hacer doble-click en el icono. Se abrirá Rgui.exe.
Desde una ventana del sistema ejecutar Rterm.exe. Parecido a R en Unix o Linux.

GUI’s de `R`

El programa R viene con una GUI² que facilita la interacción entre el usuario y el programa. Hay otros proyectos abiertos que proporcionan otras GUI para R:

RStudio, Es una interfaz gráfica multiplataforma con un entorno de trabajo muy completo.
R Commander (Rcmdr), una interfaz gráfica multiplataforma basada en tcltk.
RKWard, basado en KDE.
JGR o Java GUI for R, Una terminal de R multiplataforma basada en Java.
RExcel, que permite usar R y Rcmdr desde Microsoft Excel.
rggobi, Una interfaz a GGobi para visualización.

Primera sesión

2 + 2
## [1] 4
sqrt(10)
## [1] 3.162278
log(100, base = 10)
## [1] 2
2*3*4*5
## [1] 120
# Intereses sobre 1000 euros
1000*(1+0.075)^5 - 1000
## [1] 435.6293
# R conoce pi
pi
## [1] 3.141593
# Convertimos ángulos a radianes y luego calculamos el seno
sin(c(0,30,45,60,90)*pi/180)
## [1] 0.0000000 0.5000000 0.7071068 0.8660254 1.0000000

La ayuda en `R`

?rnorm
help.start()
?help.search
help.search(“normal”“)
?apropos
apropos(“normal”“)
?demo
demo(graphics); demo(persp); demo(lm.glm)

Instalar paquetes adicionales

Desde el menú Packages -> Install package(s).
Primero nos pide seleccionar el “CRAN mirror”, CRAN mirrors.
Desde R, con install.packages().
Desde una “ventana del sistema”.
Rcmd INSTALL paquete

Un editor adeacuado

¿Por qué usar R desde un editor?

El uso de scripts y el mantenimiento del código ordenado y comentado es una buena práctica estadística.
Colores de sintaxis, completa paréntesis, …
Una interface común para otros paquetes estadísticos: SAS, XLispStat, Arc, Excel, …, Numéricos: Octave, … o procesador de texto: LaTeX, … .

Una buena elección: RStudio.

Un primer ejemplo

Sea \(X\) una variable aleatorio con distribucióon exponencial de parámetro \(\alpha\) y \(X_1, X_2, \ldots , X_n\) una muestra aleatoria simple. Se sabe que la distribución de \(Z = n \cdot \min \left\{X_1, X_ 2, \ldots , X_n\right\}\) es exponencial de parámetro \(\alpha\).

alpha <- 0.01
n <- 50
m <- 1000

datos <- matrix(rexp(n * m, alpha), ncol=n)

fz <- function(x) n*min(x)
z <- apply(datos,1,fz)
mean(z)
## [1] 103.3159

hist(z, freq = FALSE)
points(dexp(0:600,alpha), type = "l")

ks.test(z,"pexp",alpha)
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  z
## D = 0.018244, p-value = 0.8933
## alternative hypothesis: two-sided

Objetos de `R`

Todo en R es un objeto, incluyendo funciones y estructuras de datos. Cada objeto tiene una estructura y características propias.

Para saber los objetos que tenemos en el espacio de trabajo utilizaremos ls().
Escribir el nombre de un objeto muestra su contenido.
Para guardar el contenido del espacio de trabajo se pueden utilizar las funciones save.image() y save(<objetos>, file = "nombre.RData").
Se puede acceder a objetos de la carpeta de trabajo o del camino que especifiquemos.

Tipos de objeto

Objetos del lenguaje
Llamadas
Expresiones
Nombres
Expresiones
Funciones
Lista de argumentos
Código
Entorno
Sin objeto: NULL

Vector

Vector: Colección ordenada de elementos del mismo tipo

x <- c(1, 2, 3)
x
## [1] 1 2 3
y <- c(FALSE, TRUE, TRUE)
y
## [1] FALSE  TRUE  TRUE
z <- c("a", "b", "c")
z
## [1] "a" "b" "c"

Array

Array: Generalización multidimensional del vector. Elementos del mismo tipo.

mat <- matrix(rnorm(9), ncol = 3)
mat
##            [,1]       [,2]       [,3]
## [1,]  0.5751449  0.3604237 -0.7847047
## [2,]  0.2496536 -0.3901235 -0.3462017
## [3,] -0.5250231  0.9032771  0.6694679

Data frame

Data Frame: Como el array, pero con columnas de diferentes tipos. Es el objeto más habitual para los datos experimentales.

ejemplo <- data.frame(
  ID = c("gen0", "genB", "genZ"),
  subj1 = c(10, 25, 33), 
  subj2 = c(NA, 34, 15),
  oncogen = c(TRUE, TRUE, FALSE),
  loc = c(1,30, 125))
ejemplo
##     ID subj1 subj2 oncogen loc
## 1 gen0    10    NA    TRUE   1
## 2 genB    25    34    TRUE  30
## 3 genZ    33    15   FALSE 125

Factor

Factor: Tipo de vector para datos cualitativos.

x <- c(1, 2, 2, 1, 1, 2, 1, 2, 1)
x
## [1] 1 2 2 1 1 2 1 2 1
x <- factor(c(1, 2, 2, 1, 1, 2, 1, 2, 1))
x
## [1] 1 2 2 1 1 2 1 2 1
## Levels: 1 2

Lista

Lista: vector generalizado. Cada lista está formada por componentes que pueden ser de distinto tipo. Son contenedores generales de datos. Muy flexibles, pero sin estructura. Muchas funciones devuelven una lista o conjunto de resultados de distinta longitud y distinto tipo.

una.lista <- list(vec = rnorm(5),
                  mat = matrix(rnorm(4), ncol = 2))
una.lista
## $vec
## [1]  0.3582110  0.4057689 -0.7367596  1.7724745  0.3818547
## 
## $mat
##            [,1]       [,2]
## [1,] -0.1319224 -0.2819397
## [2,] -1.6945726 -1.3825758

Atributos

Modo: Tipo básico en un vector o array: lógico, entero, real, carácter, … mode
Tipo: Tipo de los vectores o arrays: double, character, … typeof
Nombres: Etiquetas de los elementos individuales de un vector o lista: names
Dimensiones: Dimensiones de los arrays (alguna puede ser cero): dim
Dimnames: Nombres de las dimensiones de los arrays: dimnames
Clase: Vector alfanumérico con la lista de las clases del objeto: class
Otros: Atributos de una serie temporal.

x <- 1:15; length(x)
## [1] 15
y <- matrix(5, nrow = 3, ncol = 4)
dim(y)
## [1] 3 4
is.vector(x)
## [1] TRUE
is.vector(y)
## [1] FALSE

x1 <- 1:5
x2 <- c(1, 2, 3, 4, 5)
x3 <- "patata"
x4 <- TRUE
typeof(x1)
## [1] "integer"
typeof(x2)
## [1] "double"
typeof(x3)
## [1] "character"
typeof(x4)
## [1] "logical"

w <- data.frame(
  Suj = c("Suj 1", "Suj 2", "Suj 3"),
  Pes = c(56.1, 73.6, 81.2),
  Alt = c(145, 165, 172))
attributes(w)  
## $names
## [1] "Suj" "Pes" "Alt"
## 
## $row.names
## [1] 1 2 3
## 
## $class
## [1] "data.frame"

f1 <- function(x) {
  return(2 * x)
  }
attributes(f1)
## $srcref
## function(x) {
##   return(2 * x)
##   }
is.function(f1)
## [1] TRUE
f1(4)
## [1] 8

Nombres

Los nombres válidos para un objeto son combinaciones de letras, números y el punto (“.”).
Los nombres no pueden empezar con un número.
R es case-sensitive: x != X.
Hay nombres reservados: function, if, … .
Mejor evitar nombres que R usa: “c”.
Las asignaciones se hacen con <- y se recomiendan los espacios. El signo = se reserva para los argumentos de las funciones.
La función make.names() convierte una cadena de texto en una cadena que pueda utilizarse como nombre de una variable en una matriz, data.frame, …

Operadores aritméticos

Suma +, resta -, multiplicación *, división /.
Potencia ^, raíz cuadrada sqrt().
División entera %/%, módulo: resto de la división entera%%`.
Logaritmos log(), log10(), log2(), logb(x, base), exponencial exp().
Trigonométricas sin(), cos(), tan(), asin(), acos(), atan().
Otras max(), min(), range(), pmax(), pmin(), mean(), median(), var(), sd(), quantile(), sum(), prod(), diff(), cumsum(), cumprod(), cummax(), cummin().

Gráficos en `R`

R incluye muchas y variadas funciones para hacer gráficos.
El sistema permite desde gráficos muy simples a figuras de calidad para incluir en artículos y libros.
También podemos ver un buen conjunto de ejemplos con demo(graphics).
El comando plot() es uno de los más utilizados para realizar gráficos.
Si escribimos plot(\(x\), \(y\)) donde \(x\) e \(y\) son vectores con \(n\) coordenadas, entonces R representa el gráfico de dispersión con los puntos de coordenadas (\(x_i\), \(y_i\)).

El principal comando para generar un gráfico en R es plot(). Si generamos un vector aleatorio de dimensión 10. Uno de los argumentos más útiles es type cuyos parámetros pueden ser: p para puntos, l para líneas, … (?plot). Para representarlo gráficamente sólo tenemos que escribir:

x <- rnorm(10)
par(mfrow = c(2,3), mar = c(3.1, 3.1, 2.1, 0.5))
plot(x, type = "p", main = "type = p", xlab = "", ylab = "")
plot(x, type = "l", main = "type = l", xlab = "", ylab = "")
plot(x, type = "b", main = "type = b", xlab = "", ylab = "")
plot(x, type = "c", main = "type = c", xlab = "", ylab = "")
plot(x, type = "o", main = "type = o", xlab = "", ylab = "")
plot(x, type = "h", main = "type = h", xlab = "", ylab = "")

Representación de los mismos datos con la función plot() considerando diferentes argumentos para type.

Podemos modificar ciertos atributos del gráfico, por ejemplo el color de la línea (col) y el tamaño de la línea (lwd). R entiende como argumentos los nombres de los colores: red, green, blue,… Podemos ver los colores predefinidos con la función colours().

plot(x, 
     col = "red", 
     type = "l", 
     lwd = 5)