Fundamentos de análisis predictivo de proceso de datos clasificaciones
A nivel latón tachuelas, clasificación de datos analítica predictiva consiste en dos etapas: la etapa de aprendizaje y la etapa de predicción. La etapa de aprendizaje implica el entrenamiento del modelo de clasificación mediante la ejecución de un conjunto designado de los datos pasados a través del clasificador. El objetivo es enseñar a su modelo para extraer y descubrir relaciones y reglas ocultas - El reglas de clasificación a partir de datos históricos (formación). El modelo lo hace mediante el empleo de un algoritmo de clasificación.
La etapa de predicción de que sigue la etapa de aprendizaje consiste en tener el modelo predice etiquetas de clase nuevos o valores numéricos que clasifican los datos no ha visto antes (es decir, los datos de prueba).
Para ilustrar estas etapas, supongamos que usted es el dueño de una tienda online que vende relojes. Usted ha sido propietario de la tienda en línea por un buen rato, y ha reunido una gran cantidad de datos de transacciones y datos personales sobre clientes que han comprado relojes de su tienda. Supongamos que usted ha estado capturando los datos a través de su sitio al proporcionar formularios web, además de los datos transaccional que ha reunido a través de operaciones.
También puede comprar datos de un tercero que le proporciona información acerca de sus clientes fuera de su interés por los relojes. Eso no es tan difícil como sonidos- hay empresas cuyo modelo de negocio es hacer un seguimiento a los clientes en línea y recoger y vender información valiosa acerca de ellos.
La mayoría de esas terceras empresas se reúnen datos de los sitios de medios sociales y se aplican métodos de minería de datos para descubrir la relación de los usuarios individuales con los productos. En este caso, como el dueño de una tienda de relojes, usted estaría interesado en la relación entre los clientes y su interés en la compra de relojes.
Usted puede deducir este tipo de información a partir del análisis, por ejemplo, un perfil de red social de un cliente, o un comentario microblog de la clase a encontrar en Twitter.
Para medir el nivel de una persona de interés en los relojes, se puede aplicar cualquiera de varias herramientas de texto de análisis que pueden descubrir estas correlaciones en el texto escrito de un individuo (estados de redes sociales, tweets, publicaciones en blogs, y tal) o en línea la actividad (por ejemplo, en línea interacciones sociales, la subida de fotos y búsquedas).
Después de recopilar todos los datos sobre las transacciones pasadas de sus clientes y los intereses actuales - la datos de entrenamiento que muestra el modelo de lo que debe buscar - que necesita para organizarlo en una estructura que hace que sea fácil de acceder y utilizar (por ejemplo, una base de datos).
En este punto, usted ha alcanzado la segunda fase de clasificación de los datos: el etapa de predicción, que tiene que ver con las pruebas de su modelo y la precisión de las reglas de clasificación que ha generado. Para ello, necesitará los datos adicionales de los clientes históricos, conocidos como datos de prueba (que es diferente de los datos de entrenamiento).
Usted alimenta estos datos de prueba en su modelo y medir la precisión de las predicciones resultantes. Usted cuenta las veces que el modelo predijo correctamente el comportamiento futuro de los clientes representados en los datos de prueba. También contamos las veces que el modelo hace predicciones equivocadas.
En este punto, usted tiene sólo dos posibles resultados: Ya sea que usted esté satisfecho con la precisión del modelo o no está:
Si está satisfecho, entonces usted puede comenzar a conseguir su modelo listo para hacer predicciones, como parte de un sistema de producción.
Si usted no es feliz con la predicción, entonces usted tendrá que volver a entrenar su modelo con un nuevo conjunto de datos de entrenamiento.
Si los datos de la formación original no era lo suficiente de la piscina de sus clientes representativa - o contenía datos ruidosos que se quitó los resultados del modelo con la introducción de señales falsas - entonces no hay más trabajo que hacer para obtener su modelo de funcionamiento. De cualquier resultado es útil en su camino.