Conceptos básicos de los modelos de clasificación de las predicciones analíticas
Una vez que tenga todas las herramientas y los datos necesarios para empezar a crear un modelo predictivo, comienza la diversión. En general, la creación de un modelo de aprendizaje para las tareas de clasificación que implicará los siguientes pasos:
Cargue los datos.
Elige un clasificador.
Capacitar al modelo.
Visualice el modelo.
Pon a prueba el modelo.
Evaluar el modelo.
Tanto la regresión logística y Apoyo Vector Machine (SVM) modelos de clasificación realizan bastante bien utilizando el conjunto de datos del iris.
Sépalo Longitud | Sépalo Ancho | Pétalo Longitud | Pétalo Ancho | Clase Objetivo / Label |
---|---|---|---|---|
5.1 | 3.5 | 1.4 | 0.2 | Setosa (0) |
7.0 | 3.2 | 4.7 | 1.4 | Versicolor (1) |
6.3 | 3.3 | 6.0 | 2.5 | Virginica (2) |
El modelo de regresión logística con el parámetro C = 1 era perfecto en sus predicciones, mientras que el modelo SVM y el modelo de regresión logística con C = 150 perdió un solo predicción. De hecho, la alta precisión de ambos modelos es el resultado de tener un pequeño conjunto de datos que tiene puntos de datos que están bastante cerca linealmente separables.
Curiosamente, el modelo de regresión logística con C = 150 tenía una parcela de superficie decisión más guapo que el de C = 1, pero no un mejor desempeño. Eso no es una cosa muy importante, teniendo en cuenta que el equipo de prueba es tan pequeño. Si se hubiera seleccionado otra división aleatorio entre conjunto de entrenamiento y equipo de prueba, los resultados podrían haber sido fácilmente diferente.
Esto revela otra fuente de complejidad que surge en la evaluación del modelo: el efecto del muestreo, y cómo elegir la formación y las pruebas conjuntos pueden afectar la producción del modelo. Técnicas de validación cruzada pueden ayudar a minimizar el impacto de un muestreo aleatorio en el rendimiento del modelo.
Para un mayor conjunto de datos con los datos de forma no lineal separables, se puede esperar que los resultados se desvían aún más. Además, la elección del modelo apropiado se convierte en cada vez más difícil debido a la complejidad y el tamaño de los datos. Esté preparado para gastar una gran cantidad de tiempo afinar sus parámetros para conseguir un ajuste ideal.
Al crear modelos predictivos, probar algunos algoritmos y exhaustivamente ajustar sus parámetros hasta encontrar lo que funciona mejor para sus datos. Luego compare sus resultados contra otros.