Los datos de etiquetado

El uso de códigos para los datos reduce el tiempo de entrada de datos, evita errores, y reduce los requisitos de memoria para almacenar los datos. Pero los códigos no tienen sentido a menos que tenga la documentación, o etiquetas

, para explicar su significado.

Algunos formatos de datos le permiten disfrutar de las ventajas del uso de códigos, manteniendo la información sobre el significado de los códigos en el mismo archivo. Estos no son típicos en la minería de datos - es más probable verlos en productos de análisis estadístico - pero algunas aplicaciones de minería de datos pueden utilizar estos formatos de datos etiquetados. Así es como funcionan.

Los datos de etiquetado
Los datos de etiquetado Agrandar
1

Datos parece contener sólo números, pero estos números son códigos para los valores de las variables categóricas.

Este conjunto de datos está abierto en la aplicación de análisis estadístico PSPP.

Los datos de etiquetado
Los datos de etiquetado Agrandar
2

El mismo conjunto de datos con etiquetas en lugar de los códigos numéricos.

Puede alternar entre estas dos opciones de visualización utilizando el menú.

Los datos de etiquetado
Los datos de etiquetado Agrandar
3

Aunque los datos se almacenan como números, las etiquetas le permiten ver lo que significa que los datos.

En la figura, que está viendo en el editor de datos. También puede configurar un análisis o ver los resultados.

Los datos de etiquetado
Los datos de etiquetado Agrandar
4

Puede incluir comentarios en un conjunto de datos.

Usted también puede encontrar otros tipos de etiquetas de datos en aplicaciones de minería de datos. El formato de datos nativo para Weka permite incluir comentarios en un conjunto de datos. Esto le da un buen lugar para poner anotaciones acerca de la fuente de los datos y otros detalles importantes.

Los datos de etiquetado
Los datos de etiquetado Agrandar
5

Puede anotar los datos.

RapidMiner también tiene una opción para anotaciones. Puede utilizar la interfaz gráfica de usuario para entrar en las anotaciones para las filas individuales de datos.