Cómo utilizar k-significa algoritmos de racimo en el análisis predictivo

K es una entrada al algoritmo de análisis- predictivo que representa el número de grupos que el algoritmo debe extraer de un conjunto de datos, expresada algebraicamente como k. Un algoritmo K-means divide un determinado conjunto de datos en k clusters. El algoritmo lleva a cabo las siguientes operaciones:

  1. Escoja k artículos al azar del conjunto de datos y etiquetarlos como representantes de racimo.

  2. Asociar cada elemento que queda en el conjunto de datos con el representante cúmulo más cercano, utilizando una distancia euclídea calculada por una función de similitud.

  3. Volver a calcular los representantes de las nuevas agrupaciones.

  4. Repita los pasos 2 y 3 hasta que los grupos no cambian.

Un representante de un grupo es la matemática significar (promedio) de todos los elementos que pertenecen al mismo grupo. Este representante también se denomina centroide clúster. Por ejemplo, considerar tres elementos del conjunto de datos, donde las frutas

Tipo 1 corresponde a los plátanos.Tipo 2 corresponde a las manzanas.Color 2 corresponde a amarillo.Color 3 corresponde a verde.

Suponiendo que estos artículos se asignan al mismo grupo, se calcula el centro de gravedad de estos tres elementos.

ArtículoCaracterística # 1 TipoCaracterística # 2 ColorFunción # 3 Peso (onzas)
1125.33
2239.33
3122.1

Éstos son los cálculos de un representante de grupo de tres elementos que pertenecen al mismo grupo. El representante del clúster es un vector de tres atributos. Sus atributos son la media de los atributos de los elementos en el grupo en cuestión.

ArtículoCaracterística # 1 TipoCaracterística # 2 ColorFunción # 3 Peso (onzas)
1125.33
2239.33
3122.1
Representante Cluster (Vector Centroide)(1 + 2 + 1) /3=1.33(2 + 3 + 2) /3=2.33(5.33 + 9.33 32.1) / 3 = 3

El conjunto de datos se muestra a continuación consiste en las calificaciones de siete clientes de dos productos, A y B. La clasificación representa el número de puntos (de 0 a 10) que cada cliente ha dado a un producto - más puntos dan, cuanto mayor sea el producto es clasificado.

El uso de un algoritmo K-means y suponiendo que k es igual a 2, el conjunto de datos se divide en dos grupos. El resto del procedimiento es la siguiente:

  1. Escoja dos artículos al azar del conjunto de datos y etiquetarlos como representantes de racimo.

    A continuación se muestra el paso inicial de la selección de centroides al azar de lo que significa K -la comienza proceso de agrupación. Los centroides iniciales son seleccionados al azar a partir de los datos que usted está a punto de analizar. En este caso, usted está buscando a dos grupos, por lo que dos elementos de datos son seleccionados al azar: Los clientes 1 y 5.

    Al principio, el proceso de agrupación construye dos grupos alrededor de los dos representantes de racimo iniciales (seleccionados al azar). A continuación, los representantes de racimo son recalculated- el cálculo se basa en los elementos de cada grupo.

    ID de clienteEvaluaciones de clientes de Producto AEvaluaciones de clientes de Producto B
    122
    234
    368
    4710
    51014
    6910
    779
  2. Inspeccione todos los demás elementos (cliente) y asignarlo a la representante de clúster al que es muy similar.

    Utilizar el distancia euclidiana para calcular la similitud de un artículo es para un grupo de artículos:

    Similitud de artículo I del Cluster X = sqrt {{{ left ({{f_1} - {x_1}} right)} ^ 2} + {{ left ({{f_2} - {x_2}} right) } ^ 2} + cdots + {{ left ({{f_n} - {x_n}} right)} ^ 2}}

    Los valores {F_1}, - {F_2}, - ldots, - {f_n} son los valores numéricos de las características que describen el elemento en cuestión. Los valores {x_1}, - {x_2}, - ldots, - {x_n} son las características (valores medios) de la representante cluster (centroide), asumiendo que cada elemento tiene n Características.

    Por ejemplo, considere el elemento denominado Cliente 2 (3, 4): Valoración del cliente para el Producto A fue de 3 y la calificación para el producto B era 4. La función de representante del clúster es (2, 2). La similitud de Cliente 2 a Cluster 1 se calcula como sigue:

    Similitud de artículo 2 de Cluster 1 = sqrt {{{ left ({3 - 2} right)} ^ 2} + {{ left ({4-2} right)} ^ 2}} = 2,23

    Esto es lo que el mismo proceso se parece con el Grupo 2:

    Similitud de artículo 2 de Cluster 2 = sqrt {{{ left ({3-10} right)} ^ 2} + {{ left ({4-14} right)} ^ 2}} = 12,20

    Comparando estos resultados, se asigna artículo 2 (es decir, el cliente 2) para el grupo 1 ya que los números dicen artículo 2 es más similar a la Categoría 1.

  3. Aplicar el mismo análisis similitud con cualquier otro elemento en el conjunto de datos.

    Cada vez que un nuevo miembro se une a un clúster, debe volver a calcular el representante clúster.

    Esto representa los resultados de la primera iteración del algoritmo de K-media. Darse cuenta de k es igual a 2, por lo que usted está buscando dos grupos, que divide un conjunto de clientes en dos grupos significativos. Cada cliente se analiza por separado y se asigna a uno de los grupos sobre la base de la similitud del cliente para cada uno de los representantes actuales de racimo.

  4. Iterar el conjunto de datos de nuevo, ir a través de cada cálculo element- la similitud entre cada elemento y su actual representante clúster.

    Observe que al cliente 3 se ha movido desde el grupo 1 con el clúster 2. Esto se debe a la distancia al Cliente de 3 al representante racimo de Grupo 2 está más cerca que el representante racimo de Grupo 1.

    Representante Cluster (Vector Centroide)
    Grupo 1ID de cliente # 1 (2, 2)
    Grupo 2ID de cliente # 5 (10,14)
    Iteración # 1Cluster Cliente 1Cluster Cliente 2
    Cliente para ser examinadoIDs de clientes pertenecientes al Grupo 1Representante ClusterIDs de clientes pertenecientes al Grupo 1Representante Cluster
    1(2, 2)5(10, 14)
    21, 2(2,4, 3)5(10, 14)
    31, 2, 3(3.6, 4.6)5(10, 14)
    41, 2, 3(3.6, 4.6)4, 5(8.4, 12)
    61, 2, 3(3.6, 4.6)4, 5, 6(8.6, 11.4)
    71, 2, 3(3.6, 4.6)4, 5, 6, 7(8.2, 10.8)

He aquí una segunda iteración de K-means algoritmo de datos de clientes. Se volvió a analizar cada cliente. Cliente 2 está siendo asignado a la Categoría 1 porque Cliente 2 está más cerca de la representante del Grupo 1 de Cluster 2. El mismo escenario se aplica a cliente 4. Tenga en cuenta que un representante del clúster se vuelve a calcular cada vez que un nuevo miembro se le asigna a un clúster.

Iteración # 2Cluster Cliente 1Cluster Cliente 2
Cliente para ser examinadoIDs de clientes pertenecientes al Grupo 1Representante ClusterIDs de clientes pertenecientes al Grupo 2Representante Cluster
11(3.6, 4.6)5(8.2, 10.8)
21, 2(5,2, 3)5(8.2, 10.8)
31, 2(5,2, 3)5,3(7.8, 10.2)
41, 2(5,2, 3)4, 5.3(7.8, 10.2)
61, 2(5,2, 3)4, 5, 6,3(7.8, 10.2)
71, 2(5,2, 3)3, 4, 5, 6, 7(7.8, 10.2)



» » » » Cómo utilizar k-significa algoritmos de racimo en el análisis predictivo