Este proyecto tiene como objetivo analizar la estructura subyacente de un conjunto de datos de pingüinos mediante técnicas de:
- Análisis exploratorio de datos (EDA)
- Análisis de Componentes Principales (PCA)
- Clustering jerárquico
- Clustering mediante K-means
- Validación de modelos (coeficiente de silueta)
- Comparación de métodos
El objetivo principal es identificar agrupamientos naturales en los datos y evaluar qué método reproduce mejor la estructura real (especies).
El dataset utilizado corresponde a mediciones físicas de pingüinos, incluyendo:
bill_length_mmbill_depth_mmflipper_length_mmbody_mass_gspeciesislandsex
- Python 3.x
- pandas
- numpy
- matplotlib
- seaborn
- scikit-learn
- scipy
El proyecto está organizado en 7 notebooks de Jupyter, siguiendo el flujo lógico del análisis: