Cómo preparar los datos para el análisis predictivo

Cuando usted está aprendiendo un nuevo lenguaje de programación, es costumbre escribir el " hola mundo " programa. Para el aprendizaje automático y análisis predictivo, la creación de un modelo para clasificar el conjunto de datos Iris es su " hola mundo " programa equivalente. Este es un ejemplo bastante simple, pero es muy eficaz en la enseñanza de los conceptos básicos de aprendizaje automático y análisis predictivo.

¿Cómo obtener el conjunto de datos de muestra

Para crear nuestro modelo predictivo, tendrás que descargar la muestra Iris conjunto de datos. Este conjunto de datos está disponible gratuitamente de muchas fuentes, sobre todo en instituciones académicas que cuentan con departamentos de máquina-aprendizaje. Afortunadamente, la gente de eran lo suficientemente agradable para incluir algunos conjuntos de datos de muestra y las funciones de carga de datos, junto con su paquete. A los efectos de estos ejemplos, lo único que necesita para ejecutar un par de simples líneas de código para cargar los datos.

Cómo etiquetar sus datos

Aquí es uno de observación y sus características de cada clase del conjunto de datos Iris flor.

Sépalo LongitudSépalo AnchoPétalo LongitudPétalo AnchoClase Objetivo / Label
5.13.51.40.2Setosa (0)
7.03.24.71.4Versicolor (1)
6.33.36.02.5Virginica (2)

El conjunto de datos Iris Flower es un verdadero conjunto de datos multivariante de tres clases de la flor del iris (Setosa del iris, iris virginica, y Iris versicolor) Introducido por Ronald Fisher en su artículo 1936, ". El uso de múltiples mediciones en taxonómica Problemas " Este conjunto de datos es mejor conocido por su amplio uso en el mundo académico para el aprendizaje automático y la estadística.

El conjunto de datos consta de 150 casos en total, con 50 casos de cada una de las 3 clases de la flor del diafragma. La muestra cuenta con 4 funciones (también llamados comúnmente atributos), Que son las medidas de longitud y anchura de los sépalos y pétalos.

La parte interesante de este conjunto de datos es que las tres clases son algo linealmente separables. los Setosa clase puede ser separada de las otras dos clases dibujando una línea recta en el gráfico entre ellas. los Virginica y Versicolor clases no pueden ser perfectamente separados utilizando una línea recta - a pesar de que está cerca. Esto hace que sea un conjunto de datos candidato perfecto para hacer análisis de clasificación, pero no tan bueno para la agrupación de análisis.

Los datos de la muestra ya fue etiquetado. La columna de la derecha (etiqueta) de arriba muestra los nombres de cada clase de la flor del iris. El nombre de la clase se llama etiqueta o una focalización por lo general está asignado a una variable llamada y. Es, básicamente, el resultado o el resultado de lo que se predijo.

En la estadística y la modelización, se refiere a menudo como la variable dependiente. Depende de las entradas que corresponden a SEPAL longitud y anchura y para pétalo longitud y anchura.

También es posible que desee saber lo que es diferente acerca de la scikit preprocesado Iris conjunto de datos, en comparación con el conjunto de datos original. Para averiguarlo, es necesario obtener el archivo de datos original. Usted puede hacer una búsqueda en Google de iris conjunto de datos y descargarlo o verlo desde una de las instituciones académicas.

El resultado que por lo general aparece primero es la Universidad de California Irvine de (UCI) del repositorio de datos de máquina-aprendizaje. El conjunto de datos del iris en su estado original desde el repositorio de aprendizaje de máquinas UCI se puede encontrar en el sitio web de la UCI.

Si descarga, usted debería ser capaz de ver con cualquier editor de texto. Al ver los datos en el archivo, te darás cuenta de que hay cinco columnas en cada fila. Las primeras cuatro columnas son las mediciones (que se refiere como el Características) Y la última columna es la etiqueta. La etiqueta se diferencia entre el original y scikit versiones del conjunto de datos del iris.

Otra diferencia es la primera fila del archivo de datos. Incluye una fila de encabezado utilizado por el scikit la función de carga de datos. No tiene ningún efecto sobre los propios algoritmos.

La normalización de las características de los números en lugar de mantenerlos en forma de texto hace que sea más fácil para los algoritmos de proceso - y es mucho más eficiente en la memoria. Esto es especialmente evidente si se ejecuta muy grandes conjuntos de datos con muchas características - que es a menudo el caso en escenarios reales.

Aquí hay datos de las muestras de ambos archivos. Todas las columnas de datos son los mismos a excepción de COL5. Tenga en cuenta que scikit tiene nombres de clase con labels- numérica el archivo original tiene etiquetas de texto.

FuenteCol1Col2Col3Col4COL5
scikit5.13.51.40.20
original5.13.51.40.2Iris-setosa
scikit7.03.24.71.41
original7.03.24.71.4Iris-versicolor
scikit6.33.36.02.52
original6.33.36.02.5Iris-virginica



» » » » Cómo preparar los datos para el análisis predictivo