En análisis de datos, es fundamental identificar el tipo de cada variable, ya que esto influye en las técnicas de análisis y visualización. A continuación, se describen los tipos de variables más comunes que encontrarás en datasets reales:
3.1 Variables Categóricas Nominales
- Descripción:
Estas variables identifican categorías o grupos sin que exista una relación de orden entre ellas. Cada valor representa una etiqueta única que clasifica la información, sin implicar superioridad o secuencia. Por ejemplo, al codificar el género o el color, el valor “masculino” no tiene un “peso” o prioridad sobre “femenino”, simplemente los distingue. Su análisis suele centrarse en la frecuencia de ocurrencia y en la distribución de cada categoría. - Ejemplos:
- Titanic:
Name
,Sex
,Ticket
,Cabin
,Embarked
. - Iris:
Species
.
- Titanic:
3.2 Variables Categóricas Ordinales
- Descripción:
A diferencia de las nominales, estas variables tienen un orden inherente. Los valores representan categorías que pueden clasificarse de menor a mayor, pero la diferencia exacta entre ellas no es necesariamente constante ni cuantificable. Este ordenamiento es útil para establecer jerarquías o escalas de satisfacción, calificación o nivel, permitiendo un análisis que respete la secuencia lógica de las categorías. - Ejemplo:
- Titanic:
Pclass
(1ra clase > 2da clase > 3ra clase).
- Titanic:
3.3 Variables Numéricas Discretas
- Descripción:
Son variables que se expresan en números enteros y que representan conteos o cantidades finitas. Cada valor es individual y distinto, y el conjunto de posibles valores es limitado o contable. Esto facilita la identificación de patrones basados en la frecuencia de ocurrencia y permite aplicar análisis estadísticos que asumen diferencias exactas entre los números. - Ejemplos:
- Titanic:
PassengerId
,SibSp
(número de hermanos/cónyuges),Parch
(número de padres/hijos). - Diabetes:
Pregnancies
.
- Titanic:
3.4 Variables Numéricas Continuas
- Descripción:
Estas variables pueden tomar cualquier valor dentro de un intervalo, incluyendo fracciones o decimales, ya que representan medidas precisas y escalas infinitamente divisibles. Son ideales para describir fenómenos que varían de forma gradual, como la altura, el peso o la temperatura. Su análisis puede incluir técnicas de interpolación, regresión y análisis de tendencias. - Ejemplos:
- Titanic:
Age
,Fare
. - Iris:
Sepal Length
,Sepal Width
,Petal Length
,Petal Width
. - Wine: Variables químicas como
Fixed Acidity
,pH
,Alcohol
.
- Titanic:
3.5 Variables Binarias
- Descripción:
Representan un caso especial de variables categóricas, limitadas a dos posibles valores que suelen indicar la presencia o ausencia de una característica, o una respuesta de sí/no. La simplicidad de estas variables permite una rápida clasificación y es fundamental en análisis de decisiones y modelos de clasificación. - Ejemplos:
- Titanic:
Survived
(0 = no sobrevivió, 1 = sobrevivió). - Diabetes:
Outcome
.
- Titanic:
3.6 Variables Temporales
- Descripción:
Capturan información relativa al tiempo, como fechas, horas o intervalos. Estas variables permiten analizar la evolución y la estacionalidad de los datos, identificar tendencias y realizar pronósticos. Su tratamiento especial incluye la conversión a formatos de fecha/hora y la consideración de zonas horarias o calendarios. - Ejemplo:
- Ventas (Dataset Ficticio):
Fecha de compra
,Hora de transacción
.
- Ventas (Dataset Ficticio):
3.7 Variables Textuales
- Descripción:
Contienen datos en formato de texto libre, lo que significa que la información no está predefinida en categorías o escalas numéricas. Este tipo de variable es común en comentarios, descripciones o cualquier contenido no estructurado. Su análisis requiere técnicas de procesamiento de lenguaje natural (NLP) para extraer patrones, temas o sentimientos. - Ejemplos:
- Titanic:
Name
(además de ser utilizado como identificador, puede ser analizado para detectar tendencias o características en la composición de nombres). - Redes Sociales: Comentarios, descripciones, tweets.
- Titanic:
3.8 Variables Geoespaciales
- Descripción:
Representan datos relacionados con ubicaciones físicas. Estos valores pueden ser coordenadas (latitud y longitud), direcciones, o códigos postales, entre otros. Son esenciales en análisis de mapas y estudios espaciales, permitiendo visualizar la distribución geográfica de los datos y realizar análisis de proximidad y densidad. - Ejemplos:
Latitud
,Longitud
,Código Postal
.
3.9 Variables Mixtas o Compuestas
- Descripción:
Estas variables combinan elementos de distintos tipos de datos en una sola columna. Pueden incluir componentes tanto numéricos como categóricos o incluso textuales, lo que requiere una extracción y transformación adicional para separar y analizar cada componente por separado. Este tipo es frecuente cuando la información se guarda en formatos no estandarizados o cuando se combinan varias dimensiones en un solo campo. - Ejemplo:
Nivel de Satisfacción
: Una escala del 1 al 5 que indica orden (ordinal) pero que, en algunos análisis, se utiliza también como dato numérico para calcular promedios o variaciones.
Nota:
Entender en profundidad estos tipos de variables te ayudará a seleccionar las técnicas de visualización y análisis adecuadas (por ejemplo, gráficos de barras para variables categóricas, histogramas para variables numéricas, análisis de series de tiempo para variables temporales, etc.) y a aplicar las transformaciones necesarias durante la preparación de los datos.