Modificar productos de inteligencia de negocios para manejar grandes volúmenes de datos
Productos de inteligencia de negocios tradicionales no fueron realmente diseñados para manejar grandes volúmenes de datos, por lo que pueden requerir alguna modificación. Fueron diseñados para trabajar con los datos, bien entendidos muy estructuradas, a menudo almacenados en un repositorio de datos relacional y que se muestran en el escritorio o portátil. Este análisis de inteligencia de negocio tradicional se aplica típicamente a capturas de datos en lugar de toda la cantidad de datos disponibles. ¿Qué es diferente con el análisis de datos grande?
Conteúdo
Datos Big Data
Gran datos consiste en datos estructurados, semi-estructurados y no estructurados. A menudo tienen una gran cantidad de ella, y puede ser bastante complejo. Cuando se piensa en su análisis, es necesario estar al tanto de las características potenciales de sus datos:
Puede provenir de fuentes no confiables. Análisis de datos grandes a menudo implica la agregación de datos de diversas fuentes. Estos pueden incluir ambas fuentes de datos internos y externos. ¿Qué tan confiable son estas fuentes externas de información? Por ejemplo, qué tan confiable son los datos de medios sociales como un tweet? La información puede provenir de una fuente no verificada. La integridad de estos datos debe tenerse en cuenta en el análisis.
Puede ser sucio. Datos sucio se refiere a los datos inexactos, incompletos o erróneos. Esto puede incluir la falta de ortografía de palabras: un sensor que está roto, no calibrado correctamente, o dañado de alguna manera- o incluso los datos duplicados. Datos científicos debaten sobre dónde limpiar los datos - ya sea cerca de la fuente o en tiempo real.
Por supuesto, una escuela de pensamiento dice que los datos sucios no deben limpiarse del todo, ya que puede contener valores atípicos interesantes. La estrategia de limpieza probablemente dependerá de la fuente y el tipo de datos y el objetivo de su análisis. Por ejemplo, si está desarrollando un filtro de spam, el objetivo es detectar los malos elementos en los datos, por lo que no querría para limpiarlo.
La relación señal-ruido puede ser baja. En otras palabras, la señal (información utilizable) puede ser sólo un pequeño por ciento de la de datos el ruido es el resto. Ser capaz de extraer una señal diminuta de datos ruidosa es parte del beneficio de análisis de datos grandes, pero hay que ser conscientes de que la señal de hecho puede ser pequeña.
Puede ser en tiempo real. En muchos casos, se le tratando de analizar los flujos de datos en tiempo real.
El gobierno de datos grande va a ser una parte importante de la ecuación de análisis. Debajo de análisis de negocios, tendrán mejoras que deben introducirse en soluciones de gobierno para garantizar la veracidad procedente de las nuevas fuentes de datos, sobre todo a medida que se combina con los datos existentes almacenados en un almacén de confianza. Las soluciones de seguridad de datos y privacidad también necesitan ser mejorado para soportar la gestión / rector grandes datos almacenados dentro de las nuevas tecnologías.
Algoritmos de grandes datos analíticos
Cuando usted está considerando el análisis de datos grandes, es necesario tener en cuenta que cuando se expande más allá del escritorio, los algoritmos que utiliza a menudo tienen que ser refactorizado, cambiar el código interno sin afectar su funcionamiento externo. La belleza de una gran infraestructura de datos es que se puede ejecutar un modelo que utiliza para tardar horas o días en minutos.
Esto le permite iterar sobre los modelos cientos de veces. Sin embargo, si se está ejecutando una regresión en mil millones de filas de datos a través de un entorno distribuido, debe tener en cuenta las necesidades de recursos en relación con el volumen de datos y su ubicación en el clúster. Sus algoritmos tienen que ser conscientes de datos.
Además, los vendedores están comenzando a ofrecer nuevos análisis diseñados para ser colocados cerca de las fuentes de datos grandes para analizar los datos en su lugar. Este enfoque de análisis de correr más cerca de las fuentes de datos minimiza la cantidad de datos almacenados por reteniendo sólo los datos de alto valor. Es también le permite analizar los datos antes, lo cual es fundamental para la toma de decisiones en tiempo real.
Por supuesto, la analítica seguirán evolucionando. Por ejemplo, puede que tenga capacidades de visualización en tiempo real para mostrar los datos en tiempo real que está cambiando continuamente. ¿Cómo trazar prácticamente mil millones de puntos en una parcela gráfica? O bien, ¿cómo se trabaja con los algoritmos predictivos para que realicen lo suficientemente rápido y el análisis lo suficientemente profundo para utilizar una constante expansión, conjunto de datos compleja? Esta es un área de investigación activa.
Apoyo a la infraestructura de datos grande
Baste decir que si lo que buscas es una plataforma, que necesita para lograr lo siguiente:
Integrar tecnologías: La infraestructura tiene que integrar las nuevas tecnologías de datos grandes con tecnologías tradicionales para poder procesar todo tipo de datos grandes y que sea consumible por los análisis tradicionales.
Almacenar grandes cantidades de datos dispares: Un sistema Hadoop empresa endurecido puede ser necesario que puede procesar / tienda / gestionar grandes cantidades de datos en reposo, si está estructurada, semiestructurada o estructurada.
Los datos de proceso en movimiento: Una capacidad de flujo de computación puede ser necesaria para procesar los datos en movimiento que se genera continuamente mediante sensores, dispositivos inteligentes, video, audio, y los registros para apoyar la toma de decisiones en tiempo real.
Almacén de datos: Es posible que necesite una solución optimizada para cargas de trabajo analíticas operacionales o profundos para almacenar y administrar la creciente cantidad de datos de confianza.
Y, por supuesto, necesita la capacidad de integrar los datos que ya tiene en su lugar, junto con los resultados del análisis de grandes datos.