Cómo buscar sus datos de análisis predictivo

Para utilizar los datos de análisis predictivo que usted necesita saber cómo encontrar la información que desea encontrar. Hay dos conceptos principales de la búsqueda de sus datos en preparación para su uso en el análisis predictivo:

  • Preparándose para ir más allá de la búsqueda básica de palabras clave

  • La fabricación de sus datos semánticamente búsqueda

Cómo utilizar la búsqueda basada en palabras clave en el análisis predictivo

Imagínese si usted se encargaron de buscar grandes cantidades de datos. Una forma de abordar el problema es la emisión de una consulta de búsqueda que consiste en (obviamente) de las palabras. La herramienta de búsqueda busca palabras coincidentes en la base de datos, el almacenamiento de datos, o va a hurgar en cualquier texto en el que residen los datos.

Suponga que usted está emitiendo la siguiente consulta de búsqueda: el Presidente de los Estados Unidos visita a África. Los resultados de búsqueda constará de texto que contiene exactamente uno o una combinación de las palabras Presidente, Estados Unidos, visitas, África. Usted puede obtener la información exacta que está buscando, pero no siempre.

¿Qué hay de los documentos que no contienen ninguna de las palabras se mencionó anteriormente, pero alguna combinación de los siguientes: El viaje de Obama a Kenia.

Ninguna de las palabras en un inicio se buscó están ahí - pero los resultados son semánticamente (significativamente) útil. ¿Cómo se puede preparar sus datos para ser semánticamente recuperable? ¿Cómo se puede ir más allá de la búsqueda de palabras clave tradicional? Sus respuestas se pueden encontrar si sigues leyendo.

Cómo utilizar búsquedas basados ​​en la semántica en análisis predictivo

Un ejemplo de cómo la semántica basada en búsquedas que funciona es un proyecto que Anasse Bari llevó al Grupo del Banco Mundial, una organización internacional cuya misión principal es la de luchar contra la pobreza en todo el mundo.

El proyecto tuvo como objetivo investigar existente búsqueda empresarial a gran escala y análisis en el mercado y construir un prototipo de un marco de vanguardia que organizaría los datos del Banco Mundial - la mayoría de las cuales era una colección estructurada de documentos, publicaciones, informes de proyectos, informes, y estudios de caso.

Este valioso conocimiento masivo es un recurso utilizado hacia principal misión de reducir la pobreza mundial del Banco. Pero el hecho de que es estructurado hace que sea difícil de acceso, capturar, compartir, comprender, de búsqueda, de las minas de datos, y visualizar.

El Banco Mundial es una inmensa organización, con muchas divisiones en todo el mundo. Una de las principales divisiones se esfuerzan por tener un marco y estaba dispuesto a asignar recursos para ayudar al equipo de Bari fue la Red de Desarrollo Humano en el Banco Mundial.

El vicepresidente de la Red de Desarrollo Humano describe un problema que surgió de la ambigüedad: Su división utiliza varios términos y conceptos que tenían el mismo significado general, pero diferentes matices.

Por ejemplo, términos como climatología, el cambio climático, el agotamiento del ozono gas, y las emisiones de efecto invernadero eran todos semánticamente relacionados pero no idénticos en significado. Quería una capacidad de búsqueda lo suficientemente inteligente como para extraer los documentos que contenían conceptos relacionados cuando alguien busca cualquiera de estos términos.

El marco prototipo 'para esa opción que el equipo de Bari seleccionada fue la arquitectura de la información no estructurada Management (UIMA), una solución basada en software. Originalmente diseñado por IBM Research, UIMA está disponible en el software de IBM, como IBM Content Analytics, una de las herramientas que alimentados IBM Watson, el famoso equipo que ganó el juego Jeopardy.

El equipo de Bari unió fuerzas con un equipo muy talentoso de IBM Content Management y Enterprise Search, y más tarde con un equipo de IBM Watson, para colaborar en este proyecto.

Un Gestión de la información no estructurada (UIM) solución es un sistema de software que analiza grandes volúmenes de información no estructurada (texto, audio, vídeo, imágenes, etc.) para descubrir, organizar y entregar conocimiento relevante para el cliente o el usuario final de la aplicación.

los ontología de un dominio es un conjunto de conceptos y términos relacionados en particular a un dominio. Una solución basada en UIMA utiliza ontologías para proporcionar etiquetado semántico, que permite enriquecido búsqueda independiente del formato de datos (texto, discurso, presentación de PowerPoint, correo electrónico, vídeo, etc.). UIMA añade otra capa a los datos capturados, y luego añade metadatos para identificar los datos que pueden ser estructurados y semánticamente buscado.

La búsqueda semántica se basa en el significado contextual de los términos de búsqueda que aparecen en el espacio de datos investigable que UIMA construye. La búsqueda semántica es más precisa que la búsqueda habitual basada en palabras clave porque una consulta del usuario devuelve resultados de búsqueda no sólo de los documentos que contengan los términos de búsqueda, sino también de los documentos que son semánticamente relevante para la consulta.

Si estás en busca de biodiversidad en África, una típica búsqueda (basada en palabras clave) devolverá los documentos que tienen las palabras exactas biodiversidad y África. Una búsqueda semántica basada en UIMA volverá no sólo los documentos que tienen esas dos palabras, sino también todo lo que es semánticamente relevante para " la biodiversidad en África " documentos que contienen tales combinaciones de palabras como " los recursos vegetales en África, " " recursos animales en Marruecos, " o " los recursos genéticos en Zimbabwe ".

A través de etiquetado semántico y el uso de ontologías, la información se convierte en semánticamente recuperables, independientemente del idioma o el medio en el que la información se ha creado (Word, PowerPoint, correo electrónico, vídeo, etc.). Esta solución proporciona un único centro de datos donde se pueden capturar, organizar, intercambiaron, y prestan semánticamente recuperable.

Diccionarios de sinónimos y términos relacionados son de código abierto (libre acceso) - o puede desarrollar sus propios diccionarios específicos de su dominio o sus datos. Usted puede construir una hoja de cálculo con la raíz de la palabra y sus correspondientes palabras relacionadas, sinónimos y términos más amplios. La hoja de cálculo se puede cargar en una herramienta de búsqueda como IBM Content Analytics (ICA) para alimentar los de búsqueda empresarial y de contenido de análisis.




» » » » Cómo buscar sus datos de análisis predictivo