Modificar productos de inteligencia de negocios para manejar grandes volúmenes de datos

Productos de inteligencia de negocios tradicionales no fueron realmente diseñados para manejar grandes volúmenes de datos, por lo que pueden requerir alguna modificación. Fueron diseñados para trabajar con los datos, bien entendidos muy estructuradas, a menudo almacenados en un repositorio de datos relacional y que se muestran en el escritorio o portátil. Este análisis de inteligencia de negocio tradicional se aplica típicamente a capturas de datos en lugar de toda la cantidad de datos disponibles. ¿Qué es diferente con el análisis de datos grande?

Conteúdo

Datos big data
Algoritmos de grandes datos analíticos
Apoyo a la infraestructura de datos grande

Datos Big Data

Gran datos consiste en datos estructurados, semi-estructurados y no estructurados. A menudo tienen una gran cantidad de ella, y puede ser bastante complejo. Cuando se piensa en su análisis, es necesario estar al tanto de las características potenciales de sus datos:

Puede provenir de fuentes no confiables. Análisis de datos grandes a menudo implica la agregación de datos de diversas fuentes. Estos pueden incluir ambas fuentes de datos internos y externos. ¿Qué tan confiable son estas fuentes externas de información? Por ejemplo, qué tan confiable son los datos de medios sociales como un tweet? La información puede provenir de una fuente no verificada. La integridad de estos datos debe tenerse en cuenta en el análisis.
Puede ser sucio. Datos sucio se refiere a los datos inexactos, incompletos o erróneos. Esto puede incluir la falta de ortografía de palabras: un sensor que está roto, no calibrado correctamente, o dañado de alguna manera- o incluso los datos duplicados. Datos científicos debaten sobre dónde limpiar los datos - ya sea cerca de la fuente o en tiempo real.
Por supuesto, una escuela de pensamiento dice que los datos sucios no deben limpiarse del todo, ya que puede contener valores atípicos interesantes. La estrategia de limpieza probablemente dependerá de la fuente y el tipo de datos y el objetivo de su análisis. Por ejemplo, si está desarrollando un filtro de spam, el objetivo es detectar los malos elementos en los datos, por lo que no querría para limpiarlo.
La relación señal-ruido puede ser baja. En otras palabras, la señal (información utilizable) puede ser sólo un pequeño por ciento de la de datos el ruido es el resto. Ser capaz de extraer una señal diminuta de datos ruidosa es parte del beneficio de análisis de datos grandes, pero hay que ser conscientes de que la señal de hecho puede ser pequeña.
Puede ser en tiempo real. En muchos casos, se le tratando de analizar los flujos de datos en tiempo real.

El gobierno de datos grande va a ser una parte importante de la ecuación de análisis. Debajo de análisis de negocios, tendrán mejoras que deben introducirse en soluciones de gobierno para garantizar la veracidad procedente de las nuevas fuentes de datos, sobre todo a medida que se combina con los datos existentes almacenados en un almacén de confianza. Las soluciones de seguridad de datos y privacidad también necesitan ser mejorado para soportar la gestión / rector grandes datos almacenados dentro de las nuevas tecnologías.

Algoritmos de grandes datos analíticos

Cuando usted está considerando el análisis de datos grandes, es necesario tener en cuenta que cuando se expande más allá del escritorio, los algoritmos que utiliza a menudo tienen que ser refactorizado, cambiar el código interno sin afectar su funcionamiento externo. La belleza de una gran infraestructura de datos es que se puede ejecutar un modelo que utiliza para tardar horas o días en minutos.

Esto le permite iterar sobre los modelos cientos de veces. Sin embargo, si se está ejecutando una regresión en mil millones de filas de datos a través de un entorno distribuido, debe tener en cuenta las necesidades de recursos en relación con el volumen de datos y su ubicación en el clúster. Sus algoritmos tienen que ser conscientes de datos.

Además, los vendedores están comenzando a ofrecer nuevos análisis diseñados para ser colocados cerca de las fuentes de datos grandes para analizar los datos en su lugar. Este enfoque de análisis de correr más cerca de las fuentes de datos minimiza la cantidad de datos almacenados por reteniendo sólo los datos de alto valor. Es también le permite analizar los datos antes, lo cual es fundamental para la toma de decisiones en tiempo real.

Por supuesto, la analítica seguirán evolucionando. Por ejemplo, puede que tenga capacidades de visualización en tiempo real para mostrar los datos en tiempo real que está cambiando continuamente. ¿Cómo trazar prácticamente mil millones de puntos en una parcela gráfica? O bien, ¿cómo se trabaja con los algoritmos predictivos para que realicen lo suficientemente rápido y el análisis lo suficientemente profundo para utilizar una constante expansión, conjunto de datos compleja? Esta es un área de investigación activa.

Apoyo a la infraestructura de datos grande

Baste decir que si lo que buscas es una plataforma, que necesita para lograr lo siguiente:

Integrar tecnologías: La infraestructura tiene que integrar las nuevas tecnologías de datos grandes con tecnologías tradicionales para poder procesar todo tipo de datos grandes y que sea consumible por los análisis tradicionales.
Almacenar grandes cantidades de datos dispares: Un sistema Hadoop empresa endurecido puede ser necesario que puede procesar / tienda / gestionar grandes cantidades de datos en reposo, si está estructurada, semiestructurada o estructurada.
Los datos de proceso en movimiento: Una capacidad de flujo de computación puede ser necesaria para procesar los datos en movimiento que se genera continuamente mediante sensores, dispositivos inteligentes, video, audio, y los registros para apoyar la toma de decisiones en tiempo real.
Almacén de datos: Es posible que necesite una solución optimizada para cargas de trabajo analíticas operacionales o profundos para almacenar y administrar la creciente cantidad de datos de confianza.

Y, por supuesto, necesita la capacidad de integrar los datos que ya tiene en su lugar, junto con los resultados del análisis de grandes datos.

Sobre el autor

Fuentes de datos para proyectos de análisis predictivo

Los datos de un proyecto de análisis predictivo pueden provenir de muchas fuentes diferentes. Algunas de las fuentes más comunes son dentro de sus propias fuentes comunes organización- incluyen datos adquiridos de proveedores externos.Fuentes de…

Cómo mantener predictivo análisis de datos al día

Después de la etapa de carga de extraer, transformar, cargar, después de obtener sus datos en esa base de datos separada, data mart, o almacén para el análisis, usted necesita para mantener los datos frescos por lo que los modeladores pueden…

La gran paradoja de datos

Encontrarás un matiz sobre el análisis de grandes datos. En realidad se trata de datos pequeños. Si bien esto puede parecer confuso y en contra de toda la premisa, de datos pequeño es el producto de análisis de datos grande. Esto no es un…

Análisis de datos grandes y el almacén de datos

Va a encontrar valor en traer las capacidades del almacén de datos y el entorno de datos grande juntos. Es necesario crear un entorno híbrido donde los datos grandes pueden trabajar de la mano con el almacén de datos.En primer lugar, es…

Identificar los datos que necesita para su big data

Hacer un balance de el tipo de datos que está tratando con su proyecto de datos grande. Muchas organizaciones están reconociendo que una gran cantidad de datos generados internamente no se ha utilizado en todo su potencial en el pasado.Mediante el…

La evolución de los modelos de despliegue en la era de los grandes datos

Con la llegada de grandes volúmenes de datos, los modelos de implementación para la gestión de datos están cambiando. El almacén de datos tradicional se lleva a cabo normalmente en un solo sistema, grande dentro del centro de datos. Los costes…

Los fundamentos de la gran integración de datos

Los elementos fundamentales de la plataforma de datos grande gestionar los datos de nuevas maneras, en comparación con la base de datos relacional tradicional. Esto es debido a la necesidad de contar con la escalabilidad y alto rendimiento…

El futuro de los almacenes de datos en la era de los grandes datos

El mercado de almacenamiento de datos de hecho ha empezado a cambiar y evolucionar con la llegada de grandes datos. En el pasado, simplemente no era económico para las empresas a almacenar la cantidad masiva de datos de un gran número de sistemas…

Mejores prácticas para la gran integración de datos

Muchas empresas están explorando problemas de datos grandes y dar con algunas soluciones innovadoras. Ahora es el momento de prestar atención a algunos mejores prácticas, o principios básicos, que serán muy útiles a medida que comienza su…

Definición de los grandes datos: el volumen, la velocidad, y la variedad

Big Data permite a las organizaciones almacenar, gestionar y manipular grandes cantidades de datos dispares a la velocidad adecuada y en el momento adecuado. Para obtener los conocimientos adecuados, grandes datos se suelen dividirse por tres…

Deja tus datos grande juntos

¿Cómo va a saber cómo poner todos los datos juntos? Con un proyecto de datos grande, lo que quiere hacer con sus datos estructurados y no estructurados indica por qué es posible elegir una pieza de tecnología sobre otra. También determina la…

Explora la pila de datos grande

Para entender los grandes datos, ayuda a ver cómo se acumula hasta - es decir, para diseñar los componentes de la arquitectura. Un gran arquitectura de gestión de datos debe incluir una variedad de servicios que permiten a las empresas hacer uso…

maniqui-es.com » Computadoras y software » Big Data » Ingeniería » Modificar productos de inteligencia de negocios para manejar grandes volúmenes de datos