Fundamentos de k-medias y modelos de clustering DBSCAN para análisis predictivo

Aprendizaje no supervisado tiene muchos retos para el análisis predictivo - incluyendo sin saber qué esperar cuando se ejecuta un algoritmo. Cada algoritmo producirá diferente en los resultados nunca estarás seguro de si un resultado es mejor que el otro - o incluso si el resultado es de ningún valor.

Cuando usted sabe lo que los resultados deben ser, usted puede ajustar los algoritmos para producir los resultados deseados. En los conjuntos de datos del mundo real, usted no tendrá este lujo. Vas a tener que depender de algún conocimiento previo de los datos - o la intuición - para decidir qué parámetros de inicialización y algoritmos a utilizar al crear el modelo.

En tareas reales aprendizaje no supervisado, sin embargo, este conocimiento previo no está disponible y el resultado deseado es difícil de encontrar. Elegir el número correcto de los clusters es el problema clave. Si le sucede a tropezar con el número correcto de los clusters, sus datos se dió ideas que se pueden hacer predicciones muy precisas. Por otro lado, adivinando el número equivocado de clusters puede dar resultados mediocres.

K-means algoritmo es una buena opción para los conjuntos de datos que tienen un pequeño número de grupos con tamaños proporcionales y datos linealmente separables - y se puede escalar hacia arriba para usar el algoritmo de grandes bases de datos.

Pensar en linealmente separables datos como un montón de puntos en un gráfico que se puede separar mediante una línea recta. Si los datos no son linealmente separables, versiones a continuación más avanzadas de K-means tendrán que ser empleados - los cuales serán más caros computacionalmente y puede no ser adecuado para grandes bases de datos. En su ejecución estándar, la complejidad para calcular los centros de los conglomerados y las distancias es baja.

K-means se emplea ampliamente para resolver problemas de datos grande porque es fácil de usar, eficaz y altamente escalable. No es extraño que la mayoría de los proveedores comerciales utilizan el K-means algoritmo como un componente clave de sus paquetes de análisis predictivo.

El DBSCAN (Densidad-Basado agrupación espacial de aplicaciones con ruido) implementación en scikit-learn no requiere ningún parámetro de inicialización definidos por el usuario para crear una instancia. Puede anular los parámetros predeterminados durante la inicialización, si quieres. Desafortunadamente, si usted está utilizando los parámetros por defecto, el algoritmo no puede proporcionar un partido cercano al resultado deseado.

DBSCAN es más adecuado para conjuntos de datos que tienen tamaños de clúster desproporcionados, y cuyos datos pueden ser separados de una manera no-lineal. Al igual que K-means, DBSCAN es escalable, pero usarlo en grandes bases de datos requiere más memoria y potencia de cálculo.

Sobre el autor

Cómo crear un modelo de aprendizaje no supervisado con DBSCAN

DBSCAN (Densidad-Basado agrupación espacial de aplicaciones con ruido) es un algoritmo de agrupamiento popular utilizado como una alternativa a K-medias en el análisis predictivo. No requiere que se introduzca el número de grupos con el fin de…

Cómo crear un modelo de aprendizaje supervisado con regresión logística

Después de construir su primer modelo predictivo clasificación para el análisis de los datos, la creación de más modelos como que es una tarea muy sencilla en scikit. La única diferencia real de un modelo a otro es que puede que tenga que…

¿Cómo definir y probar prototipos de análisis predictivo

Una manera eficaz de indicar sus objetivos de negocio para el análisis predictivo claramente es como una lista con viñetas de las decisiones de los usuarios. A continuación, ejecute el prototipo para generar predicciones y puntuaciones para cada…

¿Cómo evaluar un modelo de aprendizaje no supervisado con k-medias

Después de que haya elegido su número de grupos de análisis predictivo y ha configurado el algoritmo para rellenar los racimos, usted tiene un modelo predictivo. Puedes hacer predicciones en base a nuevos datos entrantes llamando al predecir…

Cómo identificar los datos para el análisis predictivo

Para su proyecto de análisis predictivo, que necesitará para identificar fuentes apropiadas de datos, agrupar los datos de esas fuentes, y lo puso en un formato estructurado, bien organizado. Estas tareas pueden ser muy difícil y probablemente…

Cómo cargar datos en un modelo de aprendizaje supervisado svm

Para el análisis predictivo, es necesario cargar los datos para sus algoritmos a utilizar. Cargando el conjunto de datos Iris en scikit es tan simple como la emisión de un par de líneas de código, porque scikit ya ha creado una función para…

Cómo delinear las pruebas y datos de prueba para el análisis predictivo

Cuando los datos están listos y ya está a punto de comenzar la construcción de su modelo predictivo para el análisis, es útil para delinear su metodología de pruebas y elaborar un plan de pruebas. La prueba debe ser impulsada por los objetivos…

Cómo preparar los datos para el análisis predictivo

Cuando usted está aprendiendo un nuevo lenguaje de programación, es costumbre escribir el " hola mundo " programa. Para el aprendizaje automático y análisis predictivo, la creación de un modelo para clasificar el conjunto de datos Iris es su "…

Cómo ejecutar los datos de prueba y evaluar un modelo de aprendizaje supervisado svm

Aprendizaje supervisado es una tarea de aprendizaje automático que aprende de los datos de análisis predictivo que ha sido etiquetados. Una manera de pensar sobre el aprendizaje supervisado es que el etiquetado de los datos se realiza bajo la…

Cómo probar el modelo de análisis predictivo

Para poner a prueba el modelo de análisis predictivo que construiste, es necesario dividir el conjunto de datos en dos conjuntos: formación y la prueba conjuntos de datos. Estos conjuntos de datos deben ser seleccionados al azar y deben ser una…

Cómo utilizar k-significa algoritmos de racimo en el análisis predictivo

K es una entrada al algoritmo de análisis- predictivo que representa el número de grupos que el algoritmo debe extraer de un conjunto de datos, expresada algebraicamente como k. Un algoritmo K-means divide un determinado conjunto de datos en k…

Cómo utilizar mahout apache para análisis predictivo

Una herramienta de código abierto que es únicamente útil en el análisis predictivo es Apache Mahout. Esta biblioteca de aprendizaje de máquinas incluye versiones a gran escala de la agrupación, clasificación, filtrado colaborativo y otros…

maniqui-es.com » Computadoras y software » Big Data » La ciencia de datos » Fundamentos de k-medias y modelos de clustering DBSCAN para análisis predictivo