Las medidas de tendencia central brindan información numérica sobre una observación típica de los datos. Entre las medidas de tendencia central más comúnes se listan la media, la mediana y la moda.
La media (\(\bar{x}\)) de un conjunto de datos es la suma de los valores de los datos dividida por el número de observaciones.
data <- c(45, 53, 45, 62, 50, 47, 48, 39, 42, 45)
mean(data) # Calcula la media de los datos.
## [1] 47.6
NOTA: La media es preferida cuando se describen datos numéricos, pero no categóricos. Además, la media es más sensible a observaciones atípicas.
La mediana es la observación que ocupa el lugar central de iun conjunto de observaciones ordenadas en sentido ascendente (o descendente). Si el número de observaciones es impar, la mediana es la observación que se encuentra en medio. Por el contrario, si el número de observaciones es par, la mediana es es la media de las dos observaciones que se encuentran en el medio.
data <- c(45, 53, 45, 62, 50, 47, 48, 39, 42, 45)
median(data) # Calcula la mediana de los datos.
## [1] 46
NOTA: Los datos categóricos se describen mejor con la mediana o la moda. En general, la mediana es más útil para trabajar con observaciones extremas.
La moda, si existe, es el valor que aparece con mayor frecuencia en las observaciones.
## Define una nueva función, ya que la moda no está definida en el paquete básico de R.
mode <- function(v) {
uniqv <- unique(v)
uniqv[which.max(tabulate(match(v, uniqv)))]
}
data <- c(45, 53, 45, 62, 50, 47, 48, 39, 42, 45)
mode(data) # Calcula la moda de los datos.
## [1] 45
Observe el siguiente conjunto de datos y cómo se comporta cada una de las medidas de tendencia.
data <- c(10, 13, 12, 11, 14, 49, 12, 14, 13, 15)
mean(data) # Calcula la media de los datos.
## [1] 16.3
median(data) # Calcula la mediana de los datos.
## [1] 13
mode(data) # Calcula la moda de los datos.
## [1] 13
Debido a la observación atípica con valor 49, la mediana se incrementa con respecto a la mediana (existe un sesgo positivo). En este ejemplo, la mediana y la moda funcionan mejor como medidas de tencencia central.
La media no es, por sí sola, una descripción completa de los datos. A continuación se presentan medidas de variabilidad (o dispersión) de las observaciones con respecto a la media. En concreto, se estudiarán el rango, el rango intercuartílico, la varianza, la desviación estándar y el coeficiente de variación.
El rango es la diferencia entre la observación mayor y la menor. Mientras mayor sea la dispersión de los datos con respecto al centro de la distribución, mayor será el rango.
data <- c(45, 53, 45, 62, 50, 47, 48, 39, 42, 45)
max(data) - min(data) # Calcula el rango de los datos.
## [1] 23
NOTA: El rango es muy sensible a observaciones extremas (ya que sólo considera el valor menor y mayor).
El rango intercuartílico mide la dispersión que hay en el 50% central de los datos.
data <- c(45, 53, 45, 62, 50, 47, 48, 39, 42, 45)
IQR(data) # Calcula el rango intercuartílico de los datos.
## [1] 4.5
La varianza (\(\sigma^{2}\))es la suma de los cuadrados de las diferencias entre cada observación y la media, dividida por el numero de observaciones.
data <- c(45, 53, 45, 62, 50, 47, 48, 39, 42, 45)
var(data)
## [1] 40.93333
La desviación estándar (\(\sigma\)) de los datos es la raíz cuadrada de la varianza.
data <- c(45, 53, 45, 62, 50, 47, 48, 39, 42, 45)
sd(data)
## [1] 6.397916
Los dueños de una tienda han considerado la posibilidad de invertir en uno de dos activos, A o B. No pueden decidirse, por lo que te solicitan ayuda para tomar una decisión. Las tasas de rendimiento de los activos A y B se muestran a continuación.
risk <- read.csv('Risk.csv')
risk
## Period A B
## 1 1 12.2 11.2
## 2 2 12.0 10.0
## 3 3 13.0 13.9
## 4 4 12.5 17.6
## 5 5 11.3 9.2
Las medias de de las tasas de rendimiento de cada activo muestran a continuación:
mean(risk$A)
## [1] 12.2
mean(risk$B)
## [1] 12.38
Puede apreciarse que la media del activo B es superior a la media del activo A y esto parecería indicar que los dueños deben invertir en el activo B. Sin embargo, la media no es el mejor indicador para el riesgo o la variabilidad de un activo. En este caso, es recomendable calcular las desviaciones estándar de cada uno de los activos y, el activo con menor desviación, será el de menor riesgo.
sd(risk$A)
## [1] 0.6284903
sd(risk$B)
## [1] 3.417894
Como puede observarse, ls desviación estándar de las tasas de rendimiento del activo B es mayor, lo que sugiere que las tasas de rendimiento del activo B tienen varían más drásticamente de periodo a periodo, por lo que son más riesgosas.
En el caso de muchas grandes poblaciones, la regla emírica da una estimación del porcentaje aproximado de observaciones que están contenidas en una, dos o tres desviaciones estándar de la media:
El coeficiente de variación es una medida de dispersión relativa que expresa la desviación estándar en porcentaje de la media (siempre que la media sea positiva).
data <- c(45, 53, 45, 62, 50, 47, 48, 39, 42, 45)
sd(data) / mean(data)
## [1] 0.13441
NOTA: El coeficiente de variación es muy útil cuando se comparan, por ejemplo, ventas de almacenes grandes y pequeños (que venden bienes similares). La desviación estándar seguramente será mayor para los grandes almacenes, ya que estos últimos pueden concebirse como un conjunto de pequeños almacenes, La comparación de la dispersión de los datos utilizando la desviación estándar sería engañosa. Al usar el coeficiente de variación se resuelve este problema, ya que se tiene en cuenta la escala con la que se miden las unidades de cada muestra.
En esta sección se describen la covarianza y el coeficiente de correlación, los cuales permiten estimar la relación lineal entre dos variables.
La covarianza es una medida de relación lineal entre dos variables. Un valor positivo indica una relación lineal creciente y un valor negativo, una decreciente. En términos simples: si la covarianza entre dos variables es positiva, a medida que una variable se incrementa, la otra también se incrementará.
Para estos ejemplos haremos uso de los siguientes datos.
data <- read.csv('Regression.csv')
head(data, 5)
## x y
## 1 9.43 90.94
## 2 9.36 88.01
## 3 8.51 74.45
## 4 0.16 3.90
## 5 9.67 97.26
Para entender lo que sucede, graficaremos los datos.
plot(data$y, data$x, xlab = 'x', ylab = 'y', main = 'x vs. y', type = 'p', pch = 20, col = 'blue')
¿Cuál es la covarianza entre las variables \(x\) y \(y\)?
cov(data$x, data$y)
## [1] 77.06642
Como la covarianza es positiva se concluye que la relación entre ambas variables es lineal creciente.
El coeficiente de correlación (\(r\)) se calcula dividiendo la covarianza por el producto de las dos desviaciones estándar de las variables.
cor(data$x, data$y)
## [1] 0.9635765
NOTA: El coeficiente de correlación va de \(-1\) a \(+1\). Cuanto más cerca se encuentra \(r\) de \(+1\), más cerca se encuentran los datos de formar una línea recta ascendente (relación lineal positiva). Por el contrario, mientras más cerca esté \(r\) de \(-1\), más cerca se encuentran los datos de formar una línea recta descendente, lo que indicaría una relación lineal negativa. Si \(r\) es cercana a 0, no existe relación lineal entre ambas variables. Sin embargo, lo anterior no indica que no exista relación entre ambas variables, sólo que la relación (si es que existe) no es lineal.