Técnicas de análisis y extracción de datos grande

En general, análisis de texto soluciones para grandes datos utilizan una combinación de técnicas estadísticas y de Procesamiento del Lenguaje Natural (PLN) para extraer información de los datos no estructurados. La PNL es un campo amplio y complejo que se ha desarrollado en los últimos 20 años.

Un objetivo principal de la PNL es derivar el significado del texto. Procesamiento del Lenguaje Natural en general hace uso de conceptos lingüísticos como las estructuras gramaticales y partes del discurso. A menudo, la idea detrás de este tipo de análisis es determinar quién hizo qué a quién, cuándo, dónde, cómo y por qué.

PNL realiza análisis de texto en diferentes niveles:

  • Análisis léxico / morfológico examina las características de una palabra individual - incluyendo prefijos, sufijos, raíces y partes del discurso (sustantivo, verbo, adjetivo, etc.) - la información que contribuya a la comprensión de lo que significa la palabra en el contexto del texto proporcionado. Análisis léxico depende de un diccionario, diccionario de sinónimos, o cualquier lista de palabras que ofrece información sobre esas palabras.

  • El análisis sintáctico utiliza la estructura gramatical de diseccionar el texto y poner palabras individuales en contexto. Aquí están ampliando su mirada de una sola palabra de la frase o la frase completa. Este paso puede diagramar la relación entre las palabras (la gramática) o buscar secuencias de palabras que forman frases correctas o para secuencias de números que representan fechas o valores monetarios.

  • Análisis semántico determina los posibles significados de una frase. Esto puede incluir el examen de orden de las palabras y la estructura de la oración y desambiguar palabras relacionando la sintaxis que se encuentra en las frases, oraciones y párrafos.

  • Análisis a nivel de discurso intenta determinar el significado del texto más allá del nivel de la oración.

Comprender la información extraída de datos de gran

Ciertas técnicas, combinadas con otras técnicas estadísticas o lingüísticas para automatizar el etiquetado y marcado de documentos de texto, se pueden extraer los siguientes tipos de información:

  • Términos: Otro nombre para palabras clave.

  • Entidades: Llamado a menudo entidades nombradas, estos son ejemplos concretos de abstracciones. Ejemplos de ello son los nombres de personas, nombres de empresas, ubicaciones geográficas, información de contacto, fechas, horas, monedas, títulos y cargos, y así sucesivamente. Por ejemplo, el software analítico texto puede extraer la entidad fulano de tal como una persona mencionada en el texto que se está analizando. La entidad 03 de marzo 2007 se puede extraer como una fecha, y así sucesivamente.

  • Hechos: También llamado relaciones, hechos indican el quién / qué / donde las relaciones entre las dos entidades. John Smith es la CEO de la empresa Y y La aspirina reduce la fiebre son ejemplos de hechos.

  • Eventos: Mientras que algunos expertos utilizan los términos hecho, relación, y evento indistintamente, otros distinguen entre los acontecimientos y hechos, indicando que los acontecimientos por lo general contienen una dimensión de tiempo y, a menudo causan hechos cambien. Los ejemplos incluyen un cambio en la gestión dentro de una empresa o el estado de un proceso de venta.

  • Conceptos: Estos son juegos de palabras y frases que indican una idea en particular o un tema con el que el usuario se refiere. Por ejemplo, el concepto cliente insatisfecho puede incluir las palabras enojado, decepcionado, y confundido y las frases servicio de desconexión, no devolver la llamada, y pérdida de dinero - entre muchos otros. Así, el concepto cliente insatisfecho se puede extraer sin las palabras infeliz o cliente que aparece en el texto.

  • Sentimientos: El análisis de sentimientos se utiliza para identificar los puntos de vista o las emociones en el texto subyacente. Algunas técnicas hacen mediante la clasificación de texto como, por ejemplo, subjetiva (opinión) u objetivo (de hecho), utilizando técnicas de aprendizaje automático o PNL. El análisis de sentimientos se ha vuelto muy popular en " voz del cliente " tipo de aplicaciones.

Taxonomías de datos grandes

Las taxonomías son a menudo críticos al texto de análisis. LA taxonomía es un método para la organización de la información en las relaciones jerárquicas. Se refiere a veces como una forma de organizar categorías. Debido a una taxonomía define las relaciones entre los términos de una empresa utiliza, hace que sea más fácil encontrar y luego analizar el texto.

Por ejemplo, un proveedor de servicios de telecomunicaciones ofrece tanto el servicio alámbrico e inalámbrico. Dentro del servicio inalámbrico, la compañía puede apoyar los teléfonos celulares y acceso a Internet. La empresa puede entonces tener dos o más formas de categorizar servicio de telefonía celular, tales como planes y tipos de teléfono. La taxonomía podría llegar hasta el fondo de las partes de un teléfono en sí.

Las taxonomías también pueden usar sinónimos y expresiones alternas, reconociendo que el teléfono móvil, teléfono celular y teléfono móvil son todos iguales. Estas taxonomías pueden ser muy complejas y pueden tardar mucho tiempo en desarrollarse.




» » » » Técnicas de análisis y extracción de datos grande