Cómo agrupar por vecinos más cercanos en el análisis predictivo
Los vecinos más cercanos es un simple algoritmo ampliamente utilizado en el análisis predictivo para agrupar los datos mediante la asignación de un elemento a un grupo por determinar qué otros elementos son más similares a la misma. Un uso típico del algoritmo de vecinos más cercano sigue estos pasos:
Derivar una matriz de similitud entre los elementos del conjunto de datos.
Esta matriz, denominado matriz de distancia, contendrá los valores de similitud para todos y cada producto en el conjunto de datos. (Estos valores se exponen en detalle en el siguiente ejemplo.)
Con la matriz en su lugar, comparar cada elemento en el conjunto de datos para todos los demás elementos y calcular el valor de similitud.
Utilizando la matriz de distancia, examine cada artículo para ver si la distancia a sus vecinos es menor que un valor que ha definido.
Este valor se denomina límite.
El algoritmo pone cada elemento en un grupo aparte, analiza los elementos, y decide qué elementos son similares, y añade elementos similares a la misma agrupación.
El algoritmo se detiene cuando se han examinado todos los artículos.
Considere, un conjunto de datos de ocho localidades geográficas donde viven las personas. El propósito es dividir estos individuos en grupos basados en su ubicación geográfica, según lo determinado por el Sistema de Posicionamiento Global.
Esta gráfica muestra un sencillo conjunto de datos de los datos geográficos de los individuos. Suponga que todos los datos recogidos sobre estos ocho individuos fueron recogidos en un punto específico en el tiempo.
Identificación individual | GPS - Longitud geográfica | GPS - Latitud geográfica |
---|---|---|
1 | 2 | 10 |
2 | 2 | 5 |
3 | 8 | 4 |
4 | 5 | 8 |
5 | 7 | 5 |
6 | 6 | 4 |
7 | 1 | 2 |
8 | 4 | 9 |
Al igual que con K-means, la primera pre-paso es calcular los valores de similitud para cada par de individuos. Una forma de calcular una similitud entre dos elementos es determinar la distancia euclídea. El valor de similitud entre dos puntos se calcula como se muestra anteriormente.
La similitud entre el punto A y el punto B =
# 8730- (fa, 1 - Fb, 1) 2 + (fa, 2 - Fb, 2) 2+ # 133- + (fun - Fb, n) 2
Aquí fa, 1 es la primera característica del artículo A, fa, 2 es la segunda característica del artículo A, y los valores correspondientes etiquetado b representar las características de artículo B. La variable n es el número de características. En este ejemplo, n es 2. Por ejemplo, la similitud entre artículo 1 y artículo 2 se calcula como sigue:
La similitud entre el artículo 1 y el artículo 2 = # 8730- (2-2)2 +(10-5) 2 = 5
Sobre la base de esta medida de similitud entre los elementos, puede utilizar el algoritmo de vecino más cercano para extraer grupos del conjunto de datos de localizaciones geográficas.
El primer paso es colocar a la persona cuyo ID es 1, longitud es 2, y la latitud es de 10 en el grupo C1. Luego pasar por todas las personas restantes Computing cuán similares cada uno es al individuo en C1.
Si la similitud entre individuos 1 y otro individual X es menor que 4,5, entonces Individual X se unirá a C1 de otro modo se crea un nuevo grupo para acomodar individual X.
A continuación se muestran las similitudes y relaciones numéricas entre personas del 1 al 8. La similitud de estos elementos de datos se calcula como la distancia euclídea.
Los individuos con valores de similitud más cercanas a 0 tienen mayor similitud. La mitad de la matriz está vacío porque la matriz es simétrico.
Persona # 1 | Persona # 2 | Persona # 3 | Persona # 4 | Individual # 5 | Individual # 6 | Individual # 7 | Individual # 8 | |
---|---|---|---|---|---|---|---|---|
Persona # 1 | 0 | 5 | 6 | 3.6 | 7.07 | 7.21 | 8,062 | 2.23 |
Persona # 2 | 0 | 6.8 | 4.24 | 5 | 4.12 | 3.16 | 4.47 | |
Persona # 3 | 0 | 5 | 1.41 | 1.41 | 7.28 | 6.40 | ||
Persona # 4 | 0 | 3.31 | 4.12 | 7.21 | 1.41 | |||
Individual # 5 | 0 | 1.41 | 6.70 | 5 | ||||
Individual # 6 | 0 | 5.38 | 5.38 | |||||
Individual # 7 | 0 | 7.61 | ||||||
Individual # 8 | 0 |
Ahora ha asignado individual 1 al primer grupo (C1). La similitud entre el individuo 1 y 2 individual es igual a 5, que es mayor que el valor umbral de 4,5. Un nuevo grupo se genera - e Individual 2 pertenece a la misma. En esta etapa, tiene dos grupos de un elemento de cada uno: C1 = {1} individual y C2 = {2} individual.
Mover el foco a individual 3, se encuentra que la similitud entre individuales y 3 individuales 2 1 es mayor que el valor umbral 4.5. De este modo se asigna individual 3 a un nuevo grupo que contiene un elemento: C3 = {3} individual.
Mudarse a individual 4, se calcula la similitud individual 4 es Individual 1, 2 y 3. El más cercano (muy similar) a individual 4 pasa a ser individual 1. La similitud entre 4 y 1 es de aproximadamente 3,6, que es inferior a el valor umbral de 4,5.
Persona 4 se une a individuos 1 en C1 Cluster.
A continuación hay que examinar individual 5 y calcular la similitud es que los individuos 1, 2, 3 y 4. El elemento más cercano en la distancia (más similar) a 5 individual es individual 3. La similitud es # 8730-2, que es menos que el valor umbral de 4,5. De este modo individual 5 se une a C3.
Al examinar individual 6 y calcular la similitud es que los individuos 1, 2, 3, 4 y 5, se descubre que individual 3 es más cercano (muy similar) a individual 6. Así individual 6 une C3.
Al examinar individual 7 y calcular la similitud es que los individuos 1, 2, 3, 4, 5 y 6, se encuentra que el elemento más cercano (muy similar) a individual 7 es individual 2. Así individual 7 se une a C2.
Al examinar individual 8, y calcular su similitud con personas 1, 2, 3, 4 y 5, se encuentra que el elemento más cercano (muy similar) a individual 8 es individual 4. Así individual 8 se une a C1.
Los grupos construidos hasta ahora, que contienen artículos más similares entre sí, son
C1 = {1 individual, individual 4, individual 8}C2 = {individual 2, individual 7}C3 = {individual 3, 5 individual, individual 6}