Cómo agrupar por vecinos más cercanos en el análisis predictivo

Los vecinos más cercanos es un simple algoritmo ampliamente utilizado en el análisis predictivo para agrupar los datos mediante la asignación de un elemento a un grupo por determinar qué otros elementos son más similares a la misma. Un uso típico del algoritmo de vecinos más cercano sigue estos pasos:

Derivar una matriz de similitud entre los elementos del conjunto de datos.
Esta matriz, denominado matriz de distancia, contendrá los valores de similitud para todos y cada producto en el conjunto de datos. (Estos valores se exponen en detalle en el siguiente ejemplo.)
Con la matriz en su lugar, comparar cada elemento en el conjunto de datos para todos los demás elementos y calcular el valor de similitud.
Utilizando la matriz de distancia, examine cada artículo para ver si la distancia a sus vecinos es menor que un valor que ha definido.
Este valor se denomina límite.
El algoritmo pone cada elemento en un grupo aparte, analiza los elementos, y decide qué elementos son similares, y añade elementos similares a la misma agrupación.
El algoritmo se detiene cuando se han examinado todos los artículos.

Considere, un conjunto de datos de ocho localidades geográficas donde viven las personas. El propósito es dividir estos individuos en grupos basados en su ubicación geográfica, según lo determinado por el Sistema de Posicionamiento Global.

Esta gráfica muestra un sencillo conjunto de datos de los datos geográficos de los individuos. Suponga que todos los datos recogidos sobre estos ocho individuos fueron recogidos en un punto específico en el tiempo.

Identificación individual	GPS - Longitud geográfica	GPS - Latitud geográfica
1	2	10
2	2	5
3	8	4
4	5	8
5	7	5
6	6	4
7	1	2
8	4	9

Al igual que con K-means, la primera pre-paso es calcular los valores de similitud para cada par de individuos. Una forma de calcular una similitud entre dos elementos es determinar la distancia euclídea. El valor de similitud entre dos puntos se calcula como se muestra anteriormente.

La similitud entre el punto A y el punto B =

# 8730- (f_{a, 1} - F_{b, 1})² + (f_{a, 2} - F_{b, 2})²+ # 133- + (f_un - F_{b, n})²

Aquí f_{a, 1} es la primera característica del artículo A, f_{a, 2} es la segunda característica del artículo A, y los valores correspondientes etiquetado b representar las características de artículo B. La variable n es el número de características. En este ejemplo, n es 2. Por ejemplo, la similitud entre artículo 1 y artículo 2 se calcula como sigue:

La similitud entre el artículo 1 y el artículo 2 = # 8730- (2-2)² +(10-5)²= 5

Sobre la base de esta medida de similitud entre los elementos, puede utilizar el algoritmo de vecino más cercano para extraer grupos del conjunto de datos de localizaciones geográficas.

El primer paso es colocar a la persona cuyo ID es 1, longitud es 2, y la latitud es de 10 en el grupo C1. Luego pasar por todas las personas restantes Computing cuán similares cada uno es al individuo en C1.

Si la similitud entre individuos 1 y otro individual X es menor que 4,5, entonces Individual X se unirá a C1 de otro modo se crea un nuevo grupo para acomodar individual X.

A continuación se muestran las similitudes y relaciones numéricas entre personas del 1 al 8. La similitud de estos elementos de datos se calcula como la distancia euclídea.

Los individuos con valores de similitud más cercanas a 0 tienen mayor similitud. La mitad de la matriz está vacío porque la matriz es simétrico.

Persona # 1	Persona # 2	Persona # 3	Persona # 4	Individual # 5	Individual # 6	Individual # 7	Individual # 8

Persona # 1	0	5	6	3.6	7.07	7.21	8,062	2.23
Persona # 2		0	6.8	4.24	5	4.12	3.16	4.47
Persona # 3			0	5	1.41	1.41	7.28	6.40
Persona # 4				0	3.31	4.12	7.21	1.41
Individual # 5					0	1.41	6.70	5
Individual # 6						0	5.38	5.38
Individual # 7							0	7.61
Individual # 8								0

Ahora ha asignado individual 1 al primer grupo (C1). La similitud entre el individuo 1 y 2 individual es igual a 5, que es mayor que el valor umbral de 4,5. Un nuevo grupo se genera - e Individual 2 pertenece a la misma. En esta etapa, tiene dos grupos de un elemento de cada uno: C1 = {1} individual y C2 = {2} individual.

Mover el foco a individual 3, se encuentra que la similitud entre individuales y 3 individuales 2 1 es mayor que el valor umbral 4.5. De este modo se asigna individual 3 a un nuevo grupo que contiene un elemento: C3 = {3} individual.

Mudarse a individual 4, se calcula la similitud individual 4 es Individual 1, 2 y 3. El más cercano (muy similar) a individual 4 pasa a ser individual 1. La similitud entre 4 y 1 es de aproximadamente 3,6, que es inferior a el valor umbral de 4,5.

Persona 4 se une a individuos 1 en C1 Cluster.

A continuación hay que examinar individual 5 y calcular la similitud es que los individuos 1, 2, 3 y 4. El elemento más cercano en la distancia (más similar) a 5 individual es individual 3. La similitud es # 8730-2, que es menos que el valor umbral de 4,5. De este modo individual 5 se une a C3.

Al examinar individual 6 y calcular la similitud es que los individuos 1, 2, 3, 4 y 5, se descubre que individual 3 es más cercano (muy similar) a individual 6. Así individual 6 une C3.

Al examinar individual 7 y calcular la similitud es que los individuos 1, 2, 3, 4, 5 y 6, se encuentra que el elemento más cercano (muy similar) a individual 7 es individual 2. Así individual 7 se une a C2.

Al examinar individual 8, y calcular su similitud con personas 1, 2, 3, 4 y 5, se encuentra que el elemento más cercano (muy similar) a individual 8 es individual 4. Así individual 8 se une a C1.

Los grupos construidos hasta ahora, que contienen artículos más similares entre sí, son

C1 = {1 individual, individual 4, individual 8}C2 = {individual 2, individual 7}C3 = {individual 3, 5 individual, individual 6}

Sobre el autor

Cómo utilizar k-significa algoritmos de racimo en el análisis predictivo

K es una entrada al algoritmo de análisis- predictivo que representa el número de grupos que el algoritmo debe extraer de un conjunto de datos, expresada algebraicamente como k. Un algoritmo K-means divide un determinado conjunto de datos en k…

Autoarchivar Conjunto de perspectivas para carpetas individuales

Puede configurar los ajustes de Autoarchivar en Outlook 2013 para cada una de las carpetas de forma individual para que pueda tener más control de lo que se autoarchived y lo que no. En este ejemplo, la carpeta Bandeja de entrada está establecido…

El análisis estadístico con excel para dummies

Excel puede ayudarle a hacer todo tipo de cálculos. He aquí una selección de funciones de hoja de estadísticas de Excel. Cada uno de ellos devuelve un valor en una celda seleccionada.Tendencia central y variabilidadFunciónLo que…

Cómo ordenar matrices en la programación c

Con la programación en C, los ordenadores están diseñados para llevar a cabo de forma rápida y alegremente tareas aburridas, como ordenar una matriz. De hecho, les encanta hacer tanto que " la clase " es un concepto básico de la computadora en…

Puntuando con Dragon NaturallySpeaking

Si usted puede entrenarse para hacerlo, es genial para añadir puntuacion con Dragon NaturallySpeaking como dictar. Aquí es cómo insertar signos de puntuación comunes como usted habla.Signo de puntuaciónFormulario hablado."Periodo" (o"Dot,"…

Congruencia y semejanza en la geometría núcleo común

En matemáticas, hay muchos tipos de igualdad. En geometría básico común, los estudiantes de octavo grado estudian congruencia y similitud como dos formas de hablar sobre cómo dos formas son las mismas.Dos formas son congruente si se puede mover…

¿Cómo interpretar la desviación estándar de un conjunto de datos estadísticos

La desviación estándar puede ser difícil de interpretar como un solo número por sí solo. Básicamente, una pequeña desviación estándar significa que los valores de un conjunto de datos estadísticos se encuentran cerca de la media del…

Información general de las técnicas gráficas

Existen diferentes tipos de gráficos pueden ser útiles para el análisis de datos. Estos incluyen diagramas de tallo y hojas, gráficos de dispersión, diagramas de caja, histogramas, cuantil-cuantil (QQ) parcelas y parcelas de autocorrelación.LA…

¿Cómo caracterizar una población de seres vivos

Los científicos que estudian los organismos vivos ellos examinan desde diferentes perspectivas de complejidad. El nivel más simple es la individual. Cada individuo es un miembro de una población. Cada población está formada por un grupo de…

¿Cómo responder a las preguntas LSAT que cuentan con argumentos de analogía

Recuerde que los argumentos de analogía en el LSAT se basan en la similitud de las dos personas, cosas o ideas que se comparan. Por lo tanto, si el autor utiliza una analogía para llegar a una conclusión, las opciones de respuesta que muestran…

Encontrar música nueva con last.fm y spotify

La restricción de ti mismo para escuchar música que suena como lo que ya te gusta puede ser aburrido - si quieres salir de ese molde, Spotify puede ayudar. Al utilizar Last.fm con iTunes, que está restringido a scrobbling música que ya está en…

Teoría de la cartera moderna y los beneficios de la diversificación

La idea de que la diversificación es una buena estrategia en la asignación de la cartera es la piedra angular de la teoría moderna de cartera (MPT). MPT es la creación del economista ganador del Premio Nobel Harry Markowitz. En un artículo que…

maniqui-es.com » Computadoras y software » Big Data » La ciencia de datos » Cómo agrupar por vecinos más cercanos en el análisis predictivo