Las asociaciones entre variables binarias

Muy a menudo en el análisis de clientes, se encuentra con datos binarios que toma la forma de sí / no, la compra / no comprar, de acuerdo / desacuerdo, y así sucesivamente. Es necesario comprender la asociación entre las variables binarias del mismo modo que hay que entender la asociación entre las variables continuas. Aunque el principio de correlación es lo mismo con datos binarios, sin embargo, los cálculos son diferentes.

Uno de los ejemplos más famosos y visibles de análisis predictivo con datos binarios es el motor de recomendación de Amazon.

imagen0.jpg

Mientras que el algoritmo exacto utiliza Amazon es propietario, se sabe que gran parte de ella se basa en una asociación que indica que una persona que compra un libro también compra otro libro. Las recomendaciones se basan en variables binarias. Para generar una recomendación, Amazon calcula la proporción de los clientes que compren un libro y la proporción de los mismos clientes que compren cualquier número de otros libros.

Libros con la asociación más alta se recomienda en primer lugar, los próximos-altos asociaciones siguiente, y así sucesivamente. La siguiente figura muestra las transacciones procedentes de 15 clientes en cuatro libros. Estas mismas probabilidades podrían ser de software, abarrotes, canciones en una lista de reproducción, programas de televisión, o cualquier producto o servicio los clientes pueden elegir.

image1.jpg

Si el cliente compró el libro, hay un 1 en el de fila si no lo hacía, hay un 0. Por ejemplo, el Cliente 1 adquirido libro A y B del libro, pero no C o D. cliente 2 comprado único Libro B.

Para calcular la asociación entre dos compras de libros, siga estos pasos:

  1. Cuente el número de clientes que han comprado cada una de estas combinaciones de los libros:

    • Ni libro

    • Ambos libros

    • Sólo libro A

    • Sólo libro B

    • Ponga los totales en una tabla, como esto:

      Libro B
      Un libroYN
      Y62
      N34

      Por ejemplo, seis clientes compraron tanto Libros A y B.

    • Etiqueta de la celdas de la tabla A a D, de esta manera:

      Libro B
      Un libroYN
      Ylab
      Ncd
    • Use la fórmula para la correlación entre variables binarias:

      image2.jpg
    • Rellene los valores de los libros para encontrar la correlación entre variables binarias, como este:

      image3.jpg

      En este caso, la correlación entre los clientes que compren libro Un libro y B es 0.327.

      Una correlación entre variables binarias se llama phi, y se representa con el símbolo griego

      image4.jpg

    Puede interpretar la asociación entre los números binarios de la misma manera como la correlación de Pearson r. De hecho, phi es un método de acceso directo para la informática r. Usted obtiene los mismos resultados mediante el uso de la fórmula de Excel Pearson y el cálculo de la correlación para todos los conjuntos de datos.

    La siguiente figura muestra la configuración de datos en Excel. La correlación entre todos los pares de los libros se calculó utilizando la = PEARSON () Función de Excel.

    image5.jpg

    A continuación, una matriz de correlaciones se ha creado para cada par de libros, como se muestra aquí:

    image6.jpg

    Confirmando el resultado anterior, la correlación entre el libro A y B es 0,33. El segundo mayor correlación es entre libro y libro A D a 0,25.

    La correlación entre libro y libro B C es -.48. Esta correlación negativa significa que los clientes que compran libro B son menos propensos a comprar libro C.

    Así que si un cliente está viendo y considerando la compra de libro A, que tendría sentido para recomendar (y posiblemente ofrecer ese cliente un incentivo) para también comprar libro B y D, pero no libro C.

    Es posible que escuche los términos Análisis Basket o Análisis Affinity. Ambos son simplemente otros nombres para la búsqueda de asociaciones y correlaciones entre las variables. Es como el examen de cestas de la compra de los clientes en una tienda de comestibles para ver qué artículos se compran juntos.