La gran paradoja de datos
Encontrarás un matiz sobre el análisis de grandes datos. En realidad se trata de datos pequeños. Si bien esto puede parecer confuso y en contra de toda la premisa, de datos pequeño es el producto de análisis de datos grande. Esto no es un concepto nuevo, ni es poco familiar para las personas que han estado haciendo análisis de datos para cualquier periodo de tiempo. El espacio de trabajo en general es más grande, pero las respuestas se encuentran en algún lugar del " pequeño ".
Análisis de datos tradicional comenzó con bases de datos llenos de información del cliente, información del producto, las transacciones, los datos de telemetría, y así sucesivamente. Incluso entonces, estaba disponible para analizar de manera eficiente demasiados datos. Sistemas, redes y software no tienen el rendimiento o la capacidad para hacer frente a la escala. Como industria, las deficiencias fueron abordadas por la creación de conjuntos de datos más pequeños.
Estos conjuntos de datos más pequeños eran todavía bastante sustantiva, otras deficiencias fueron rápidamente discovered- la más evidente fue la falta de coincidencia entre los datos y el contexto de trabajo. Si usted trabajó en cuentas por pagar, había que mirar a una gran cantidad de datos no relacionados para hacer su trabajo. Una vez más, la industria respondió con la creación de conjuntos de datos más pequeños, contextualmente relevantes - grandes a pequeñas y aún más pequeña.
Usted puede reconocer esto como la migración de bases de datos a los almacenes de datos a los data marts. Más a menudo que no, los datos de los almacenes y las marts fue elegido en parámetros arbitrarios o experimentales que resulta en una gran cantidad de ensayo y error. Las empresas no estaban recibiendo las perspectivas que necesitaban o eran posibles debido a las reducciones de capacidad no se basaban en hechos computacional.
Introduzca los datos grandes, con todos sus volúmenes, velocidades y variedades, y el problema persiste o empeora, tal vez. Las deficiencias de la infraestructura se han abordado y se pueden almacenar y procesar grandes cantidades de datos adicionales, pero se necesitaban nuevas tecnologías específicamente para ayudar a manejar grandes volúmenes de datos.
A pesar de las apariencias, esto es una cosa maravillosa. Hoy y en el futuro, las empresas tendrán más datos de lo que pueden imaginar y que van a tener los medios para capturar y gestionar. Lo que es más necesario que nunca es la capacidad de analizar la derecho los datos de una manera lo suficientemente oportuna para tomar decisiones y tomar acciones.
Las empresas todavía se reducirán los conjuntos de datos en " la lucha contra el asiento, " pero pueden hacerlo computacionalmente. Procesan los grandes datos y la convierten en datos pequeños, así que es más fácil de comprender. Es más preciso y, porque se deriva de un punto de partida mucho más grande, es más contextualmente relevante.