Text Analytics for big datos no estructurados
Existen numerosos métodos para el análisis de los datos no estructurados para su iniciativa de datos grande. Históricamente, estas técnicas salieron de las áreas técnicas, tales como procesamiento de lenguaje natural (NLP), el descubrimiento de conocimiento, la minería de datos, recuperación de información, y las estadísticas. Análisis de texto es el proceso de análisis de texto no estructurado, la extracción de información relevante, y transformarla en información estructurada que puede ser aprovechada de diversas maneras.
Los procesos de análisis y extracción de tomar ventaja de las técnicas que se originaron en la lingüística computacional, estadística y otras disciplinas de la informática.
A veces, un ejemplo puede ayudar a explicar un tema complejo. Suponga que usted trabaja para el departamento de marketing de una empresa de telefonía inalámbrica. Usted acaba de lanzar dos nuevos planes de llamadas - Plan A y Plan B - y que no está recibiendo la captación que querías en el Plan A. El texto no estructurado de las notas de centros de llamadas que puede dar una idea de por qué sucedió esto.
Las palabras subrayadas proporcionan la información que pueda necesitar para entender por qué el plan A no está ganando una rápida adopción. Por ejemplo, la entidad Plan A aparece a lo largo de las notas de centros de llamadas, lo que indica que los informes se menciona el plan.
Los términos minutos de vuelco, los datos de 4GB, un plan de datos, y caro son evidencia de que existe un problema con minutos de vuelco, el plan de datos, y el precio. Palabras como ridículo y estúpido proporcionar información sobre el sentimiento de llamadas, que en este caso es negativo.
El proceso de análisis de texto utiliza varios algoritmos, tales como la estructura de la comprensión frase, para analizar el texto no estructurado y después extraer información, y transformar esa información en datos estructurados. Los datos estructurados extraídos del texto no estructurado se ilustra en la Tabla 13-1.
Identificador | Entidad | Asunto | Sentimiento |
---|---|---|---|
Cust XYZ | Plan A | Minutos de vuelco | Neutral |
Cust ABC | Plan A | Minutos de vuelco | Negativo |
XXXX | Plan A | Caro | Neutral |
XXXX | Plan A | Plan de datos | Neutral |
Cust XYT | Plan A | Plan de datos | Negativo |
Usted puede mirar esto y decir: " Pero yo podría haber averiguado examinado los registros de los centros de llamadas ". Sin embargo, estos son sólo una pequeña parte de la información que se registra por miles de agentes de call center. Cada agente individual no puede detectar una tendencia general en relación con el problema en cada plan que se ofrece por la empresa.
Los agentes no tienen el tiempo o la obligación de compartir esta información a través de todos los demás agentes de call center que pueden estar recibiendo un número similar de llamadas sobre el Plan A. Sin embargo, después de esta información se agrega y se procesa mediante algoritmos de análisis de texto, una tendencia puede surgir de estos datos no estructurados. Eso es lo que hace que el análisis de texto tan poderoso.
Buscar trata de recuperar un documento basado en lo que los usuarios finales ya saben que están buscando. Análisis de texto es sobre el descubrimiento de la información. Si bien el análisis de texto difiere de búsqueda, puede aumentar las técnicas de búsqueda. Por ejemplo, análisis de texto combinado con la búsqueda se pueden utilizar para proporcionar una mejor categorización o clasificación de documentos y producir resúmenes o resúmenes de documentos.
Hay cuatro tecnologías: consulta, la minería de datos, búsqueda y análisis de texto. En el lado izquierdo de la mesa son de consulta y búsqueda, que son a la vez sobre la recuperación. Por ejemplo, un usuario final puede consultar una base de datos para averiguar cómo muchos clientes dejaron de usar los servicios de la empresa en el último mes.
La consulta devolvería un solo número. Sólo pidiendo más y diferentes consultas será el usuario final obtener la información necesaria para determinar por qué los clientes se van. Del mismo modo, la búsqueda de palabras clave permite al usuario final para encontrar los documentos que contienen los nombres de los competidores de la empresa. La búsqueda volvería un grupo de documentos. Sólo mediante la lectura de los documentos sería el usuario final llegar a las respuestas pertinentes.
Recuperación | Visión | |
---|---|---|
Estructurado | Devoluciones: datos de consulta | La minería de datos: Insight de datos estructurados |
No estructurados | Buscar: Devuelve documentos | Análisis de texto: Insight de texto |
Las tecnologías en las piezas de retorno izquierdo de la información y requieren la interacción humana para sintetizar y analizar esa información. Las tecnologías de la derecha - análisis de minería de texto y de datos - proporcionan una visión mucho más rápidamente. Con suerte, el valor del análisis de texto a su organización está cada vez más claro.