Fundamentos de k-medias y modelos de clustering DBSCAN para análisis predictivo
Aprendizaje no supervisado tiene muchos retos para el análisis predictivo - incluyendo sin saber qué esperar cuando se ejecuta un algoritmo. Cada algoritmo producirá diferente en los resultados nunca estarás seguro de si un resultado es mejor que el otro - o incluso si el resultado es de ningún valor.
Cuando usted sabe lo que los resultados deben ser, usted puede ajustar los algoritmos para producir los resultados deseados. En los conjuntos de datos del mundo real, usted no tendrá este lujo. Vas a tener que depender de algún conocimiento previo de los datos - o la intuición - para decidir qué parámetros de inicialización y algoritmos a utilizar al crear el modelo.
En tareas reales aprendizaje no supervisado, sin embargo, este conocimiento previo no está disponible y el resultado deseado es difícil de encontrar. Elegir el número correcto de los clusters es el problema clave. Si le sucede a tropezar con el número correcto de los clusters, sus datos se dió ideas que se pueden hacer predicciones muy precisas. Por otro lado, adivinando el número equivocado de clusters puede dar resultados mediocres.
K-means algoritmo es una buena opción para los conjuntos de datos que tienen un pequeño número de grupos con tamaños proporcionales y datos linealmente separables - y se puede escalar hacia arriba para usar el algoritmo de grandes bases de datos.
Pensar en linealmente separables datos como un montón de puntos en un gráfico que se puede separar mediante una línea recta. Si los datos no son linealmente separables, versiones a continuación más avanzadas de K-means tendrán que ser empleados - los cuales serán más caros computacionalmente y puede no ser adecuado para grandes bases de datos. En su ejecución estándar, la complejidad para calcular los centros de los conglomerados y las distancias es baja.
K-means se emplea ampliamente para resolver problemas de datos grande porque es fácil de usar, eficaz y altamente escalable. No es extraño que la mayoría de los proveedores comerciales utilizan el K-means algoritmo como un componente clave de sus paquetes de análisis predictivo.
El DBSCAN (Densidad-Basado agrupación espacial de aplicaciones con ruido) implementación en scikit-learn no requiere ningún parámetro de inicialización definidos por el usuario para crear una instancia. Puede anular los parámetros predeterminados durante la inicialización, si quieres. Desafortunadamente, si usted está utilizando los parámetros por defecto, el algoritmo no puede proporcionar un partido cercano al resultado deseado.
DBSCAN es más adecuado para conjuntos de datos que tienen tamaños de clúster desproporcionados, y cuyos datos pueden ser separados de una manera no-lineal. Al igual que K-means, DBSCAN es escalable, pero usarlo en grandes bases de datos requiere más memoria y potencia de cálculo.