1.1 Media (Valor Esperado o Promedio)
La media es el valor que se obtiene al sumar todos los números de un conjunto y dividir el resultado entre la cantidad total de elementos. Es una medida que nos indica el “centro” o valor típico del conjunto de datos.
- ¿Por qué es útil?
La media nos ayuda a tener una idea general del nivel de los datos, aunque puede verse afectada por valores muy altos o muy bajos (valores atípicos).
Ejemplo:
import numpy as np
# Creamos un array con valores
array = np.array([1, 2, 3, 4, 5])
# Calculamos la media
media = np.mean(array)
print("Media:", media) # Resultado: 3.0
En este ejemplo, al sumar 1+2+3+4+5 se obtiene 15, y al dividir 15 entre 5 se obtiene 3.0.
1.2 Mediana
La mediana es el valor que se encuentra en el centro de un conjunto de datos cuando estos se ordenan de menor a mayor. Divide el conjunto en dos partes iguales.
-
¿Por qué es útil?
La mediana es especialmente valiosa cuando existen valores extremos o atípicos, ya que a diferencia de la media, no se ve afectada por estos valores y puede representar mejor el “centro” de los datos. -
Caso de arrays con número impar de elementos:
Al tener un número impar de elementos, la mediana es el elemento central.
Ejemplo:array = np.array([1, 2, 3, 4, 5]) mediana = np.median(array) print("Mediana:", mediana) # Resultado: 3.0
En este caso, el valor central es el 3.
-
Caso de arrays con número par de elementos:
Cuando el array tiene un número par de elementos, no existe un único elemento central. En este caso, la mediana se calcula como el promedio de los dos valores centrales.
Ejemplo:array_even = np.array([1, 2, 3, 4]) mediana_even = np.median(array_even) print("Mediana para array par:", mediana_even) # Resultado: 2.5
Aquí, los dos valores centrales son 2 y 3, y su promedio es (2 + 3) / 2 = 2.5.
1.3 Desvío Estándar
El desvío estándar mide cuánto se dispersan o “alejan” los datos de la media. Una dispersión pequeña indica que los datos están muy cerca de la media, mientras que una dispersión grande indica que los datos están más dispersos.
- ¿Por qué es útil?
Conocer el desvío estándar nos ayuda a entender la variabilidad o la consistencia de los datos. Por ejemplo, en un conjunto de calificaciones, un desvío estándar pequeño indica que la mayoría de las calificaciones son similares.
Ejemplo:
array = np.array([1, 2, 3, 4, 5])
desviacion_estandar = np.std(array)
print("Desviación estándar:", desviacion_estandar) # Aproximadamente 1.414
El resultado de aproximadamente 1.414 nos indica la cantidad promedio de distancia de cada dato respecto a la media (3.0).
1.4 Varianza
La varianza es simplemente el cuadrado del desvío estándar. Se utiliza para cuantificar la dispersión de los datos, pero a diferencia del desvío estándar, sus unidades son el cuadrado de las unidades originales.
- ¿Por qué es útil?
La varianza ofrece otra forma de medir la variabilidad. Aunque no es tan intuitiva como el desvío estándar (por las unidades cuadráticas), es muy útil en cálculos matemáticos y en la teoría estadística.
Ejemplo:
array = np.array([1, 2, 3, 4, 5])
varianza = np.var(array)
print("Varianza:", varianza) # Resultado: 2.0
En este ejemplo, la varianza es 2.0, lo que significa que, en promedio, cada dato se desvía 2 unidades cuadradas de la media.
1.5 Percentiles
Los percentiles indican el valor por debajo del cual se encuentra un cierto porcentaje de los datos. Por ejemplo, el percentil 50 (también conocido como mediana) es el valor bajo el cual se encuentra el 50% de los datos.
- ¿Por qué es útil?
Los percentiles permiten entender la distribución de los datos en distintos puntos, ayudando a identificar la posición relativa de un valor dentro del conjunto.
Ejemplo:
array = np.array([1, 2, 3, 4, 5])
percentil_50 = np.percentile(array, 50)
print("Percentil 50:", percentil_50) # Resultado: 3.0
En este ejemplo, el percentil 50 es 3, lo que significa que el 50% de los datos están por debajo de 3 y el otro 50% por encima.
Estos conceptos básicos son fundamentales para el análisis de datos, ya que te permiten resumir y entender la distribución y variabilidad de un conjunto de datos de manera sencilla y efectiva.