1. Conceptos Estadísticos Básicos

numpy/numpy-aplicado-parte2
@Lautaroff 04-03-2025

1.1 Media (Valor Esperado o Promedio)

La media es el valor que se obtiene al sumar todos los números de un conjunto y dividir el resultado entre la cantidad total de elementos. Es una medida que nos indica el “centro” o valor típico del conjunto de datos.

Ejemplo:

import numpy as np

# Creamos un array con valores
array = np.array([1, 2, 3, 4, 5])
# Calculamos la media
media = np.mean(array)
print("Media:", media)  # Resultado: 3.0

En este ejemplo, al sumar 1+2+3+4+5 se obtiene 15, y al dividir 15 entre 5 se obtiene 3.0.


1.2 Mediana

La mediana es el valor que se encuentra en el centro de un conjunto de datos cuando estos se ordenan de menor a mayor. Divide el conjunto en dos partes iguales.


1.3 Desvío Estándar

El desvío estándar mide cuánto se dispersan o “alejan” los datos de la media. Una dispersión pequeña indica que los datos están muy cerca de la media, mientras que una dispersión grande indica que los datos están más dispersos.

Ejemplo:

array = np.array([1, 2, 3, 4, 5])
desviacion_estandar = np.std(array)
print("Desviación estándar:", desviacion_estandar)  # Aproximadamente 1.414

El resultado de aproximadamente 1.414 nos indica la cantidad promedio de distancia de cada dato respecto a la media (3.0).


1.4 Varianza

La varianza es simplemente el cuadrado del desvío estándar. Se utiliza para cuantificar la dispersión de los datos, pero a diferencia del desvío estándar, sus unidades son el cuadrado de las unidades originales.

Ejemplo:

array = np.array([1, 2, 3, 4, 5])
varianza = np.var(array)
print("Varianza:", varianza)  # Resultado: 2.0

En este ejemplo, la varianza es 2.0, lo que significa que, en promedio, cada dato se desvía 2 unidades cuadradas de la media.


1.5 Percentiles

Los percentiles indican el valor por debajo del cual se encuentra un cierto porcentaje de los datos. Por ejemplo, el percentil 50 (también conocido como mediana) es el valor bajo el cual se encuentra el 50% de los datos.

Ejemplo:

array = np.array([1, 2, 3, 4, 5])
percentil_50 = np.percentile(array, 50)
print("Percentil 50:", percentil_50)  # Resultado: 3.0

En este ejemplo, el percentil 50 es 3, lo que significa que el 50% de los datos están por debajo de 3 y el otro 50% por encima.


Estos conceptos básicos son fundamentales para el análisis de datos, ya que te permiten resumir y entender la distribución y variabilidad de un conjunto de datos de manera sencilla y efectiva.

Lección Anterior Curso Siguiente Lección