¿Qué significa agrupamiento?

2011/3/18

La agrupación es la organización de puntos de datos en grupos, donde los puntos de datos de un grupo son más similares entre sí que los puntos de datos de otros grupos. La idea general detrás de la agrupación es que los elementos de datos similares deben agruparse. La agrupación de datos es un aprendizaje no supervisado, lo que significa que no requiere datos etiquetados.

La agrupación puede resultar beneficiosa para comprender la estructura de un conjunto de datos, encontrar similitudes entre elementos de datos, identificar valores atípicos y reducir la dimensionalidad de los datos. Se utiliza comúnmente en diversas áreas, como el aprendizaje automático, la minería de datos, la bioinformática y el procesamiento de imágenes.

Pasos:

1. Preparación de datos

2. Seleccionar una medida de distancia

3. Elegir el número de clusters

4. Agrupación

5. Evaluación de la agrupación