Cómo utilizar k-significa algoritmos de racimo en el análisis predictivo

K es una entrada al algoritmo de análisis- predictivo que representa el número de grupos que el algoritmo debe extraer de un conjunto de datos, expresada algebraicamente como k. Un algoritmo K-means divide un determinado conjunto de datos en k clusters. El algoritmo lleva a cabo las siguientes operaciones:

Escoja k artículos al azar del conjunto de datos y etiquetarlos como representantes de racimo.
Asociar cada elemento que queda en el conjunto de datos con el representante cúmulo más cercano, utilizando una distancia euclídea calculada por una función de similitud.
Volver a calcular los representantes de las nuevas agrupaciones.
Repita los pasos 2 y 3 hasta que los grupos no cambian.

Un representante de un grupo es la matemática significar (promedio) de todos los elementos que pertenecen al mismo grupo. Este representante también se denomina centroide clúster. Por ejemplo, considerar tres elementos del conjunto de datos, donde las frutas

Tipo 1 corresponde a los plátanos.Tipo 2 corresponde a las manzanas.Color 2 corresponde a amarillo.Color 3 corresponde a verde.

Suponiendo que estos artículos se asignan al mismo grupo, se calcula el centro de gravedad de estos tres elementos.

Artículo	Característica # 1 Tipo	Característica # 2 Color	Función # 3 Peso (onzas)
1	1	2	5.33
2	2	3	9.33
3	1	2	2.1

Éstos son los cálculos de un representante de grupo de tres elementos que pertenecen al mismo grupo. El representante del clúster es un vector de tres atributos. Sus atributos son la media de los atributos de los elementos en el grupo en cuestión.

Artículo	Característica # 1 Tipo	Característica # 2 Color	Función # 3 Peso (onzas)
1	1	2	5.33
2	2	3	9.33
3	1	2	2.1
Representante Cluster (Vector Centroide)	(1 + 2 + 1) /3=1.33	(2 + 3 + 2) /3=2.33	(5.33 + 9.33 32.1) / 3 = 3

El conjunto de datos se muestra a continuación consiste en las calificaciones de siete clientes de dos productos, A y B. La clasificación representa el número de puntos (de 0 a 10) que cada cliente ha dado a un producto - más puntos dan, cuanto mayor sea el producto es clasificado.

El uso de un algoritmo K-means y suponiendo que k es igual a 2, el conjunto de datos se divide en dos grupos. El resto del procedimiento es la siguiente:

Escoja dos artículos al azar del conjunto de datos y etiquetarlos como representantes de racimo.
A continuación se muestra el paso inicial de la selección de centroides al azar de lo que significa K -la comienza proceso de agrupación. Los centroides iniciales son seleccionados al azar a partir de los datos que usted está a punto de analizar. En este caso, usted está buscando a dos grupos, por lo que dos elementos de datos son seleccionados al azar: Los clientes 1 y 5.
Al principio, el proceso de agrupación construye dos grupos alrededor de los dos representantes de racimo iniciales (seleccionados al azar). A continuación, los representantes de racimo son recalculated- el cálculo se basa en los elementos de cada grupo.
ID de cliente Evaluaciones de clientes de Producto A Evaluaciones de clientes de Producto B
1 2 2
2 3 4
3 6 8
4 7 10
5 10 14
6 9 10
7 7 9
Inspeccione todos los demás elementos (cliente) y asignarlo a la representante de clúster al que es muy similar.
Utilizar el distancia euclidiana para calcular la similitud de un artículo es para un grupo de artículos:
Similitud de artículo I del Cluster X = sqrt {{{ left ({{f_1} - {x_1}} right)} ^ 2} + {{ left ({{f_2} - {x_2}} right) } ^ 2} + cdots + {{ left ({{f_n} - {x_n}} right)} ^ 2}}
Los valores {F_1}, - {F_2}, - ldots, - {f_n} son los valores numéricos de las características que describen el elemento en cuestión. Los valores {x_1}, - {x_2}, - ldots, - {x_n} son las características (valores medios) de la representante cluster (centroide), asumiendo que cada elemento tiene n Características.
Por ejemplo, considere el elemento denominado Cliente 2 (3, 4): Valoración del cliente para el Producto A fue de 3 y la calificación para el producto B era 4. La función de representante del clúster es (2, 2). La similitud de Cliente 2 a Cluster 1 se calcula como sigue:
Similitud de artículo 2 de Cluster 1 = sqrt {{{ left ({3 - 2} right)} ^ 2} + {{ left ({4-2} right)} ^ 2}} = 2,23
Esto es lo que el mismo proceso se parece con el Grupo 2:
Similitud de artículo 2 de Cluster 2 = sqrt {{{ left ({3-10} right)} ^ 2} + {{ left ({4-14} right)} ^ 2}} = 12,20
Comparando estos resultados, se asigna artículo 2 (es decir, el cliente 2) para el grupo 1 ya que los números dicen artículo 2 es más similar a la Categoría 1.
Aplicar el mismo análisis similitud con cualquier otro elemento en el conjunto de datos.
Cada vez que un nuevo miembro se une a un clúster, debe volver a calcular el representante clúster.
Esto representa los resultados de la primera iteración del algoritmo de K-media. Darse cuenta de k es igual a 2, por lo que usted está buscando dos grupos, que divide un conjunto de clientes en dos grupos significativos. Cada cliente se analiza por separado y se asigna a uno de los grupos sobre la base de la similitud del cliente para cada uno de los representantes actuales de racimo.

ID de cliente	Evaluaciones de clientes de Producto A	Evaluaciones de clientes de Producto B
1	2	2
2	3	4
3	6	8
4	7	10
5	10	14
6	9	10
7	7	9

Iterar el conjunto de datos de nuevo, ir a través de cada cálculo element- la similitud entre cada elemento y su actual representante clúster.

Observe que al cliente 3 se ha movido desde el grupo 1 con el clúster 2. Esto se debe a la distancia al Cliente de 3 al representante racimo de Grupo 2 está más cerca que el representante racimo de Grupo 1.

Representante Cluster (Vector Centroide)

Grupo 1	ID de cliente # 1 (2, 2)
Grupo 2	ID de cliente # 5 (10,14)

Iteración # 1	Cluster Cliente 1	Cluster Cliente 2
Cliente para ser examinado	IDs de clientes pertenecientes al Grupo 1	Representante Cluster	IDs de clientes pertenecientes al Grupo 1	Representante Cluster

1	(2, 2)	5	(10, 14)
2	1, 2	(2,4, 3)	5	(10, 14)
3	1, 2, 3	(3.6, 4.6)	5	(10, 14)
4	1, 2, 3	(3.6, 4.6)	4, 5	(8.4, 12)
6	1, 2, 3	(3.6, 4.6)	4, 5, 6	(8.6, 11.4)
7	1, 2, 3	(3.6, 4.6)	4, 5, 6, 7	(8.2, 10.8)

He aquí una segunda iteración de K-means algoritmo de datos de clientes. Se volvió a analizar cada cliente. Cliente 2 está siendo asignado a la Categoría 1 porque Cliente 2 está más cerca de la representante del Grupo 1 de Cluster 2. El mismo escenario se aplica a cliente 4. Tenga en cuenta que un representante del clúster se vuelve a calcular cada vez que un nuevo miembro se le asigna a un clúster.

Cliente para ser examinado	IDs de clientes pertenecientes al Grupo 1	Representante Cluster	IDs de clientes pertenecientes al Grupo 2	Representante Cluster
Iteración # 2	Cluster Cliente 1		Cluster Cliente 2
1	1	(3.6, 4.6)	5	(8.2, 10.8)
2	1, 2	(5,2, 3)	5	(8.2, 10.8)
3	1, 2	(5,2, 3)	5,3	(7.8, 10.2)
4	1, 2	(5,2, 3)	4, 5.3	(7.8, 10.2)
6	1, 2	(5,2, 3)	4, 5, 6,3	(7.8, 10.2)
7	1, 2	(5,2, 3)	3, 4, 5, 6, 7	(7.8, 10.2)

Sobre el autor

Gestión de llaves en nosql

Capacidades de lectura rápidas clave-valor tiendas 'se derivan de su uso de teclas bien definidos. Estas teclas son típicamente hash, lo que da un almacén de claves-valor de una forma muy predecible de determinar qué partición (y por lo tanto…

Conceptos básicos de los cúmulos de datos en el análisis predictivo

LA conjunto de datos (o la recolección de datos) es un conjunto de elementos en el análisis predictivo. Por ejemplo, un conjunto de documentos es un conjunto de datos, donde los elementos de datos son documentos. Un conjunto de información social…

Fundamentos de k-medias y modelos de clustering DBSCAN para análisis predictivo

Aprendizaje no supervisado tiene muchos retos para el análisis predictivo - incluyendo sin saber qué esperar cuando se ejecuta un algoritmo. Cada algoritmo producirá diferente en los resultados nunca estarás seguro de si un resultado es mejor…

Conceptos básicos de filtros de colaboración basadas en el usuario en el análisis predictivo

Con un enfoque basado en el usuario de filtrado colaborativo en el análisis predictivo, el sistema puede calcular la similitud entre pares de los usuarios mediante el uso de la fórmula similitud del coseno, una técnica muy similar al enfoque…

Cómo agrupar por vecinos más cercanos en el análisis predictivo

Los vecinos más cercanos es un simple algoritmo ampliamente utilizado en el análisis predictivo para agrupar los datos mediante la asignación de un elemento a un grupo por determinar qué otros elementos son más similares a la misma. Un uso…

Cómo crear y ejecutar un modelo de aprendizaje no supervisado para hacer predicciones con k-medias

El algoritmo K-means requiere un parámetro de inicialización del usuario con el fin de crear una instancia de análisis predictivo. Tiene que saber cuántos K grupos a utilizar para llevar a cabo su labor.Sépalo LongitudSépalo AnchoPétalo…

Cómo crear un modelo de aprendizaje no supervisado con DBSCAN

DBSCAN (Densidad-Basado agrupación espacial de aplicaciones con ruido) es un algoritmo de agrupamiento popular utilizado como una alternativa a K-medias en el análisis predictivo. No requiere que se introduzca el número de grupos con el fin de…

¿Cómo evaluar un modelo de aprendizaje no supervisado con k-medias

Después de que haya elegido su número de grupos de análisis predictivo y ha configurado el algoritmo para rellenar los racimos, usted tiene un modelo predictivo. Puedes hacer predicciones en base a nuevos datos entrantes llamando al predecir…

Cómo usar filtros de colaboración basada en tema en análisis predictivo

Uno de los sistemas de recomendación de Amazon para usos de análisis predictivo filtrado colaborativo basado en elemento - repartiendo un gran inventario de productos procedentes de la base de datos de empresa, cuando un usuario ve un solo…

Cómo utilizar mahout apache para análisis predictivo

Una herramienta de código abierto que es únicamente útil en el análisis predictivo es Apache Mahout. Esta biblioteca de aprendizaje de máquinas incluye versiones a gran escala de la agrupación, clasificación, filtrado colaborativo y otros…

Cómo visualizar las agrupaciones en un k-significa modelo de aprendizaje no supervisado

El conjunto de datos del iris no es fácil representar gráficamente para el análisis predictivo en su forma original. Por lo tanto usted tiene que reducir el número de dimensiones mediante la aplicación de un algoritmo de reducción de…

Cómo visualizar los resultados analíticos de su modelo: agrupaciones ocultos, clasificaciones de datos y valores atípicos

Visualización de los resultados de su análisis predictivo realmente ayuda a las partes interesadas a comprender los pasos a seguir. He aquí algunas maneras de utilizar técnicas de visualización para informar de los resultados de sus modelos a…

maniqui-es.com » Computadoras y software » Big Data » La ciencia de datos » Cómo utilizar k-significa algoritmos de racimo en el análisis predictivo