La importancia de las diferentes medidas de la estadística descriptiva

Las medidas de la estadística descriptiva son herramientas muy útiles para resumir y entender un conjunto de datos. Algunas de las medidas más comunes incluyen la media, la mediana, la moda, la varianza y el rango. Cada una de estas medidas proporciona información diferente sobre el conjunto de datos y puede ser útil en diferentes contextos.

Medidas de tendencia central

Las medidas de tendencia central permiten al investigador resumir en un solo valor a un conjunto de valores. Representan el punto medio o centro alrededor del cual se encuentra ubicado todo el conjunto de los datos analizados. Las medidas de tendencia central más utilizadas son: media, mediana y moda.

  • La media es el valor promedio de un conjunto de datos. Se calcula sumando todos los valores del conjunto de datos y dividiendo el resultado por el número de valores. La media es útil para tener una idea de qué tan «típico» es un valor en un conjunto de datos. Sin embargo, la media puede ser engañosa si hay valores extremos (llamados valores atípicos o «outliers») que distorsionan el resultado.
  • La mediana es el valor que ocupa el centro de un conjunto de datos ordenados. Se calcula ordenando todos los valores del conjunto de datos de menor a mayor y tomando el valor del medio. La mediana es útil para tener una idea de qué tan cerca están la mayoría de los valores del conjunto de datos del valor central. Al igual que la media, la mediana es menos sensible a los valores atípicos que otras medidas.
  • La moda es el valor más frecuente en un conjunto de datos. Puede haber más de un valor con la mayor frecuencia (en cuyo caso se dice que el conjunto de datos tiene varias modas). La moda es útil para tener una idea de qué valores son más comunes en un conjunto de datos.

Medidas de dispersión

Las medidas de dispersión en cambio permiten determinar el grado de dispersión de los valores de la variable. Es decir, se intenta evaluar en qué medida los datos difieren entre sí. Las medidas de dispersión más utilizadas son: Rango, Desviación media, Desviación estándar, Varianza y Coeficiente de Variación.

  • El rango es la diferencia entre el valor más alto y el valor más bajo de un conjunto de datos. El rango es útil para tener una idea de qué tan amplia es la variedad de valores presentes en un conjunto de datos.
  • La desviación media es una medida de la dispersión de un conjunto de datos alrededor de la media. Se calcula tomando la diferencia entre cada valor del conjunto de datos y la media, y luego tomando la media de todas estas diferencias. La desviación media es útil para tener una idea de qué tan lejos están, en promedio, los valores del conjunto de datos de la media.
  • La desviación estándar es una medida de la dispersión de un conjunto de datos alrededor de la media. Se calcula de la misma manera que la varianza, pero luego se toma la raíz cuadrada del resultado. La desviación estándar es útil para tener una idea de qué tan dispersos están los valores del conjunto de datos alrededor de la media.
  • La varianza es una medida de la dispersión de un conjunto de datos. Se calcula tomando la diferencia entre cada valor del conjunto de datos y la media, elevando al cuadrado cada una de estas diferencias y luego tomando la media de todas estas diferencias elevadas al cuadrado. La varianza es útil para tener una idea de qué tan dispersos están los valores del conjunto de datos alrededor de la media.
  • El coeficiente de variación es una medida de la dispersión de un conjunto de datos relativa a la media. Se calcula tomando la desviación estándar y dividiéndola entre la media, y luego multiplicando el resultado por 100 para expresarlo en términos porcentuales. El coeficiente de variación es útil para comparar la dispersión de dos o más conjuntos de datos con diferentes escalas de medida, ya que expresa la dispersión en términos porcentuales de la media.

Medidas de forma

Las medidas de forma ayudan a comprobar si una distribución de frecuencia tiene características como simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo particular de distribución. En otras palabras con las medidas de forma se puede identificar si la distribución de frecuencia es uniforme. Las medidas de forma más utilizadas son: Coeficiente de asimetría, Curtosis.

  • El coeficiente de asimetría es una medida de la simetría de un conjunto de datos alrededor de la media. Se calcula tomando la tercera potencia de la diferencia entre cada valor del conjunto de datos y la media, y luego tomando la media de todas estas diferencias elevadas al cubo. Si el coeficiente de asimetría es positivo, entonces el conjunto de datos tiene un sesgo hacia la derecha (es decir, tiene una «cola» más larga hacia la derecha que hacia la izquierda), lo que significa que hay más valores extremos hacia la derecha que hacia la izquierda. Si el coeficiente de asimetría es negativo, entonces el conjunto de datos tiene un sesgo hacia la izquierda (es decir, tiene una «cola» más larga hacia la izquierda que hacia la derecha), lo que significa que hay más valores extremos hacia la izquierda que hacia la derecha. Si el coeficiente de asimetría es cero, entonces el conjunto de datos es simétrico alrededor de la media.
  • La curtosis es una medida de la «apuntamiento» o «puntiagudeza» de un conjunto de datos alrededor de la media. Se calcula tomando la cuarta potencia de la diferencia entre cada valor del conjunto de datos y la media, y luego tomando la media de todas estas diferencias elevadas a la cuarta. Si la curtosis es mayor que cero, entonces el conjunto de datos tiene una forma más apuntada que una distribución normal (es decir, tiene más valores extremos), lo que se dice que el conjunto de datos es «leptocúrtico». Si la curtosis es menor que cero, entonces el conjunto de datos tiene una forma menos apuntada que una distribución normal (es decir, tiene menos valores extremos), lo que se dice que el conjunto de datos es «platicúrtico». Si la curtosis es cero, entonces el conjunto de datos tiene la misma forma que una distribución normal.

Medidas de posición

Las medidas de posición dividen a un conjunto de datos en grupoas con el mismo número de elementos. Para calcular las medidas de posición es necesario que los datos estén ordenados de menor a mayor. Las medidas de posición más utilizadas son: cuartiles, quintiles, deciles, percentiles.

  • Los cuartiles son valores que dividen a un conjunto de datos en cuatro partes iguales. El primer cuartil (Q1) es el valor que divide al primer 25% de los datos del resto. El segundo cuartil (Q2) es el valor que divide al primer 50% de los datos del último 50%. El tercer cuartil (Q3) es el valor que divide al primer 75% de los datos del último 25%. Los cuartiles son útiles para tener una idea de la distribución de los datos y para comparar dos o más conjuntos de datos.
  • Los quintiles son valores que dividen a un conjunto de datos en cinco partes iguales. El primer quintil es el valor que divide al primer 20% de los datos del resto. El segundo quintil es el valor que divide al primer 40% de los datos del último 60%. Y así sucesivamente. Los quintiles son útiles para tener una idea de la distribución de los datos y para comparar dos o más conjuntos de datos.
  • Los deciles son valores que dividen a un conjunto de datos en diez partes iguales. El primer decil es el valor que divide al primer 10% de los datos del resto. El segundo decil es el valor que divide al primer 20% de los datos del último 90%. Y así sucesivamente. Los deciles son útiles para tener una idea de la distribución de los datos y para comparar dos o más conjuntos de datos.
  • Los percentiles son valores que dividen a un conjunto de datos en cien partes iguales. El primer percentile es el valor que divide al primer 1% de los datos del resto. El segundo percentile es el valor que divide al primer 2% de los datos del último 99%. Y así sucesivamente. Los percentiles son útiles para tener una idea de la distribución de los datos y para comparar dos o más conjuntos de datos.

Es importante elegir la medida adecuada para resumir un conjunto de datos dependiendo del contexto y de lo que se quiera saber sobre los datos.

Entradas relacionadas

Deja un comentario