Conceptos básicos de los datos estructurados y no estructurados en el análisis predictivo

Los datos contenidos en las bases de datos, documentos, correos electrónicos y otros archivos de datos para el análisis predictivo pueden clasificarse ya sea como datos estructurados o no estructurados. Estructurado datos está bien organizado, sigue un orden coherente, es relativamente fácil de buscar y consulta, y se puede acceder y entender fácilmente por una persona o un programa informático.

Un ejemplo clásico de datos estructurados es una hoja de cálculo Excel con columnas etiquetadas. Tales datos estructurada es cabeceras de columna consistent- - por lo general breves descripciones, precisas del contenido de cada columna - dirá exactamente qué tipo de contenido que puede esperar.

Los datos estructurados normalmente se almacena en esquemas bien definidos tales como bases de datos. Por lo general es tabular, con columnas y filas que definen claramente sus atributos.

No estructurados datos, por el contrario, tiende a ser de forma libre, no tabular, dispersa, y no fácilmente retrievable- estos datos requiere la intervención deliberada para darle sentido. Correos electrónicos diversos, documentos, páginas web y archivos (ya sea texto, audio y / o vídeo) en lugares dispersos son ejemplos de datos no estructurados.

Es difícil de categorizar el contenido de los datos no estructurados. Tiende a ser en su mayoría texto, por lo general es creado en una mezcolanza de estilos de forma libre, y la búsqueda de cualquier atributo se puede utilizar para describir o grupo que no es tarea fácil.

El contenido de los datos no estructurados es difícil de trabajar o hacer sentido de programación. Los programas de ordenador no pueden analizar o generar informes sobre estos datos, simplemente porque carece de estructura, no tiene ninguna característica dominante subyacente y elementos individuales de datos no tienen puntos en común.

En general, hay un mayor porcentaje de datos no estructurados que los datos estructurados en el mundo. Los datos no estructurados requiere más trabajo para que sea útil, por lo que recibe más atención - por lo tanto tiende a consumir más tiempo.

No subestime la importancia de los datos estructurados y el poder que trae a su análisis. Es mucho más eficiente para analizar datos estructurados que analizar los datos no estructurados. Los datos no estructurados también pueden ser costosos de preproceso para el análisis como está la construcción de un proyecto de análisis predictivo. La selección de los datos pertinentes, su limpieza, y las transformaciones posteriores puede ser largo y tedioso.

Los datos recientemente organizados resultantes de esos pasos de preprocesamiento necesarias se pueden utilizar en un modelo de análisis predictivo. La transformación por mayor de datos no estructurados sin embargo, puede tener que esperar hasta que tenga su análisis predictivo modelo de funcionamiento.

Análisis de minería de datos y texto son dos enfoques para documentos de texto estructuración, vinculando sus contenidos, agrupar y resumir sus datos, y el descubrimiento de patrones en los datos. Ambas disciplinas proporcionan un rico marco de algoritmos y técnicas para extraer el texto dispersos en un mar de documentos.

También vale la pena señalar que las plataformas de los motores de búsqueda proporcionan herramientas fácilmente disponibles para los datos de indexación y haciendo búsquedas.

Vamos a comparar los datos estructurados y no estructurados.

CaracterísticasEstructuradoNo estructurados
AsociaciónOrganizadoDispersos y disperso
ApariciónFormalmente definidoForma libre
AccesibilidadDe fácil acceso y consultaEs difícil de acceder y consulta
DisponibilidadPorcentualmente menorPorcentualmente superior
AnálisisEficiente para analizarSe necesita preprocesamiento adicional

Los datos no estructurados no carecen por completo la estructura - sólo tienes que hurón hacia fuera. Incluso el texto dentro de los archivos digitales todavía tiene alguna estructura asociada a ella, a menudo apareciendo en los metadatos - por ejemplo, documentar títulos, fechas de los archivos de la última modificación, y los nombres de sus autores.

Lo mismo se aplica para los mensajes de correo electrónico: El contenido puede ser estructurado, pero los datos estructurados se asocia con ellos - por ejemplo, la fecha y hora en que fueron enviados, los nombres de sus remitentes y destinatarios, si contienen archivos adjuntos.

La línea de separación entre los dos tipos de datos no siempre es clara. En general, siempre se puede encontrar algunos de los atributos de los datos no estructurados que se puede considerar de datos estructurados. Ya sea que la estructura es un reflejo del contenido de esos datos - o útil en el análisis de datos - no está claro en el mejor.

Por lo demás, los datos estructurados pueden contener datos no estructurados dentro de ella. En una forma de la tela, por ejemplo, los usuarios se les puede pedir a dar su opinión sobre un producto eligiendo una respuesta de opciones múltiples - sino que también presentan con un cuadro de comentarios en el que puedan proporcionar información adicional.

Las respuestas de opciones múltiples se structured- el campo de comentarios es estructurado debido a su forma libre naturaleza. Estos casos se entienden mejor como una mezcla de datos estructurados y no estructurados. La mayoría de los datos es un compuesto de ambos.

Para un exitoso proyecto de análisis predictivo, tanto los datos estructurados y no estructurados se deben combinar en un formato lógico que se puede analizar.




» » » » Conceptos básicos de los datos estructurados y no estructurados en el análisis predictivo