Cómo el análisis predictivo de apoyo de máquinas de vectores predice el futuro
los máquinas de vectores soporte (SVM) es un algoritmo de clasificación de datos en el análisis predictivo que asigna nuevos elementos de datos a una de las categorías marcadas. SVM es, en la mayoría de los casos, una binario classifier- se supone que los datos en cuestión contiene dos posibles valores objetivo.
Otra versión del algoritmo SVM, multiclase SVM, aumenta SVM para ser utilizado como clasificador en un conjunto de datos que contiene más de una clase (agrupación o categoría). SVM ha sido utilizado con éxito en muchas aplicaciones, tales como el reconocimiento de imágenes, el diagnóstico médico y análisis de texto.
Supongamos que usted está diseñando un modelo de análisis predictivo que reconocerá automáticamente y predecir el nombre de un objeto en una imagen. Esto es esencialmente el problema de la reconocimiento de imagen - o, más específicamente, reconocimiento facial: Usted quiere que el clasificador para reconocer el nombre de una persona en una foto.
Bueno, antes de abordar ese nivel de complejidad, considere una versión más simple del mismo problema: Suponga que tiene fotos de piezas individuales de frutas y desea que su clasificador para predecir qué tipo de fruta aparece en la imagen. Suponga que tiene sólo dos tipos de frutas: manzanas y peras, una por imagen.
Dada una nueva imagen, desea predecir si la fruta es una manzana o una pera - sin mirar el cuadro. Usted quiere que el SVM para clasificar cada imagen como manzana o pera. Al igual que con todos los otros algoritmos, el primer paso es formar el clasificador.
Suponga que tiene 200 fotografías de diferentes manzanas y 200 fotos de peras. El paso de aprendizaje consiste en alimentar esas fotos al clasificador por lo que se entera de lo que una manzana se parece y lo que una pera se parece. Antes de entrar en este primer paso, es necesario transformar cada imagen en una matriz de datos, utilizando (por ejemplo) el paquete estadístico R.
Una manera simple de representar una imagen como números en una matriz es buscar formas geométricas dentro de la imagen (tales como círculos, líneas, cuadrados o rectángulos) y también las posiciones de cada instancia de cada forma geométrica. Esos números también pueden representar coordenadas de los objetos dentro de la imagen, como se representan en un sistema de coordenadas.
Como se pueden imaginar, lo que representa una imagen como una matriz de números no es precisamente una tarea sencilla. Un área de conjunto diferenciado de la investigación se dedica a la representación de la imagen.
A continuación se muestra cómo una máquina de vectores soporte puede predecir la clase de una fruta (etiquetarlo matemáticamente como manzana o Pera), Sobre la base de lo que el algoritmo ha aprendido en el pasado.
Supongamos que haya convertido todas las imágenes en matrices de datos. A continuación, la máquina de vectores soporte tiene dos entradas principales:
Datos anterior (capacitación): Este conjunto de matrices corresponde a visto previamente imágenes de manzanas y peras.
Los nuevos datos (no visto) se compone de una imagen convertida a una matriz. El objetivo es predecir automáticamente lo que está en la imagen - una manzana o una pera.
El vector de asistencia utiliza una función matemática, a menudo se llama una función del núcleo que es una función matemática que coincide con los nuevos datos a la mejor imagen a partir de los datos de entrenamiento con el fin de predecir la etiqueta de la imagen desconocida (manzana o pera).
En comparación con otros clasificadores, máquinas de vectores soporte producen, predicciones exactas robustos, son menos afectados por los datos ruidosos, y son menos propensos a sobreajuste. Tenga en cuenta, sin embargo, que apoyar a las máquinas de vectores son los más adecuados para la clasificación binaria - cuando se tiene sólo dos categorías (como manzana o pera).