Técnicas de análisis y extracción de datos grande

En general, análisis de texto soluciones para grandes datos utilizan una combinación de técnicas estadísticas y de Procesamiento del Lenguaje Natural (PLN) para extraer información de los datos no estructurados. La PNL es un campo amplio y complejo que se ha desarrollado en los últimos 20 años.

Conteúdo

Comprender la información extraída de datos de gran
Taxonomías de datos grandes

Un objetivo principal de la PNL es derivar el significado del texto. Procesamiento del Lenguaje Natural en general hace uso de conceptos lingüísticos como las estructuras gramaticales y partes del discurso. A menudo, la idea detrás de este tipo de análisis es determinar quién hizo qué a quién, cuándo, dónde, cómo y por qué.

PNL realiza análisis de texto en diferentes niveles:

Análisis léxico / morfológico examina las características de una palabra individual - incluyendo prefijos, sufijos, raíces y partes del discurso (sustantivo, verbo, adjetivo, etc.) - la información que contribuya a la comprensión de lo que significa la palabra en el contexto del texto proporcionado. Análisis léxico depende de un diccionario, diccionario de sinónimos, o cualquier lista de palabras que ofrece información sobre esas palabras.
El análisis sintáctico utiliza la estructura gramatical de diseccionar el texto y poner palabras individuales en contexto. Aquí están ampliando su mirada de una sola palabra de la frase o la frase completa. Este paso puede diagramar la relación entre las palabras (la gramática) o buscar secuencias de palabras que forman frases correctas o para secuencias de números que representan fechas o valores monetarios.
Análisis semántico determina los posibles significados de una frase. Esto puede incluir el examen de orden de las palabras y la estructura de la oración y desambiguar palabras relacionando la sintaxis que se encuentra en las frases, oraciones y párrafos.
Análisis a nivel de discurso intenta determinar el significado del texto más allá del nivel de la oración.

Comprender la información extraída de datos de gran

Ciertas técnicas, combinadas con otras técnicas estadísticas o lingüísticas para automatizar el etiquetado y marcado de documentos de texto, se pueden extraer los siguientes tipos de información:

Términos: Otro nombre para palabras clave.
Entidades: Llamado a menudo entidades nombradas, estos son ejemplos concretos de abstracciones. Ejemplos de ello son los nombres de personas, nombres de empresas, ubicaciones geográficas, información de contacto, fechas, horas, monedas, títulos y cargos, y así sucesivamente. Por ejemplo, el software analítico texto puede extraer la entidad fulano de tal como una persona mencionada en el texto que se está analizando. La entidad 03 de marzo 2007 se puede extraer como una fecha, y así sucesivamente.
Hechos: También llamado relaciones, hechos indican el quién / qué / donde las relaciones entre las dos entidades. John Smith es la CEO de la empresa Y y La aspirina reduce la fiebre son ejemplos de hechos.
Eventos: Mientras que algunos expertos utilizan los términos hecho, relación, y evento indistintamente, otros distinguen entre los acontecimientos y hechos, indicando que los acontecimientos por lo general contienen una dimensión de tiempo y, a menudo causan hechos cambien. Los ejemplos incluyen un cambio en la gestión dentro de una empresa o el estado de un proceso de venta.
Conceptos: Estos son juegos de palabras y frases que indican una idea en particular o un tema con el que el usuario se refiere. Por ejemplo, el concepto cliente insatisfecho puede incluir las palabras enojado, decepcionado, y confundido y las frases servicio de desconexión, no devolver la llamada, y pérdida de dinero - entre muchos otros. Así, el concepto cliente insatisfecho se puede extraer sin las palabras infeliz o cliente que aparece en el texto.
Sentimientos: El análisis de sentimientos se utiliza para identificar los puntos de vista o las emociones en el texto subyacente. Algunas técnicas hacen mediante la clasificación de texto como, por ejemplo, subjetiva (opinión) u objetivo (de hecho), utilizando técnicas de aprendizaje automático o PNL. El análisis de sentimientos se ha vuelto muy popular en " voz del cliente " tipo de aplicaciones.

Taxonomías de datos grandes

Las taxonomías son a menudo críticos al texto de análisis. LA taxonomía es un método para la organización de la información en las relaciones jerárquicas. Se refiere a veces como una forma de organizar categorías. Debido a una taxonomía define las relaciones entre los términos de una empresa utiliza, hace que sea más fácil encontrar y luego analizar el texto.

Por ejemplo, un proveedor de servicios de telecomunicaciones ofrece tanto el servicio alámbrico e inalámbrico. Dentro del servicio inalámbrico, la compañía puede apoyar los teléfonos celulares y acceso a Internet. La empresa puede entonces tener dos o más formas de categorizar servicio de telefonía celular, tales como planes y tipos de teléfono. La taxonomía podría llegar hasta el fondo de las partes de un teléfono en sí.

Las taxonomías también pueden usar sinónimos y expresiones alternas, reconociendo que el teléfono móvil, teléfono celular y teléfono móvil son todos iguales. Estas taxonomías pueden ser muy complejas y pueden tardar mucho tiempo en desarrollarse.

Sobre el autor

Mejorar la experiencia del cliente con análisis de datos grandes

La gran datos que pueden hacer una diferencia en cómo las empresas satisfacer a sus clientes y socios no es necesariamente en las bases de datos tradicionales más. El valor de los datos no estructurados a partir de fuentes no tradicionales ha…

Herramientas de análisis de texto para grandes datos

He aquí un resumen de algunos de los jugadores en el mercado de grandes datos de análisis de texto. Algunos son pequeños, mientras que otros son nombres muy conocidos. Algunos llaman a lo que hacen grandes análisis de texto de datos, mientras…

Ponga big data para usar

Análisis de texto se pueden utilizar para ayudar a obtener una idea de los datos. Así que, ¿qué pasa si los datos son datos grandes? Eso significaría que los datos no estructurados que se está analizando es de alto volumen, alta velocidad, o…

Text Analytics for big datos no estructurados

Existen numerosos métodos para el análisis de los datos no estructurados para su iniciativa de datos grande. Históricamente, estas técnicas salieron de las áreas técnicas, tales como procesamiento de lenguaje natural (NLP), el descubrimiento…

Las normas fundamentales comunes: los grados 6-12 reglas y convenciones del lenguaje

En los Estándares Básicos Comunes para el lenguaje para los grados 6-12, los estudiantes reciben orientación sobre el uso correcto de la gramática y otras convenciones del idioma Inglés. Los estándares de idioma para cada nivel de grado son…

Las normas fundamentales comunes: 5 k-reglas del lenguaje inglés y convenciones

Los Estándares Básicos Comunes para la lengua delinear los niveles de grado en el cual los estudiantes deben dominar los aspectos particulares del idioma Inglés se utiliza en la lectura, escritura, habla y escucha. He aquí una breve descripción…

Partes de la oración en una oración

los parte del discurso es una parte importante de la identidad de cada palabra en el idioma Inglés. Algunas palabras pueden funcionar sólo como una parte de la palabra. Ellos nunca cambian. Pueden realizar una tarea en la oración, y ningún otro.…

Búsqueda basada en palabras clave frente búsqueda semántica: Seo

Usted probablemente ha aprendido a través de su investigación de SEO que los motores de búsqueda utilizan palabras clave para que coincida con los resultados a las consultas. Sin embargo, eso no es del todo cierto. Los motores de búsqueda se…

Memorización de letras de canciones como texto

Una buena manera de memorizar letras es mirar a la canción como un monólogo o una historia. Escribir o escriba las palabras, incluyendo la puntuacion, para que pueda examinar las letras aparte de la melodía y echar un vistazo a la imagen grande.…

Componentes de alto nivel de XBRL y sus definiciones

La siguiente figura muestra los componentes lógicos de alto nivel de XBRL. El XBRL Especificación define estos componentes lógicos de alto nivel y los medios físicos por los cuales expresarlos. La siguiente tabla ofrece una breve descripción de…

¿Cómo traducir datos de medios sociales en las métricas de CRM

Cuando muchas personas piensan primero de los datos de CRM Social y analítica, que piensan de los resultados cuantitativos adecuados para hojas de cálculo, y pueden dar ideas de gran alcance mediante el análisis de los factores cuantitativos. El…

10 Recursos para empezar en el análisis de clientes

Algunos grandes recursos de análisis de los clientes son un clic de distancia en su ordenador, tableta o teléfono inteligente. Los siguientes diez herramientas súper recomendadas y sitios web le ayudarán a obtener una ventaja sobre análisis de…

maniqui-es.com » Computadoras y software » Big Data » Gestión de datos » Técnicas de análisis y extracción de datos grande