¿Cómo asegurar la validez, veracidad, y la volatilidad de los grandes datos
Alto volumen y alta variedad, y de alta velocidad son las características esenciales de datos grandes. Pero otras características de los grandes datos son igualmente importantes, especialmente cuando se aplica grandes datos para los procesos operativos. Este segundo conjunto de " V " características que son claves para la operacionalización de datos grande incluye
Validez: Son los datos correctos y exactos para el uso previsto?
Veracidad: ¿Los resultados son significativos para el espacio del problema dado?
Volatilidad: ¿Cuánto tiempo necesita almacenar estos datos?
Validez de los datos de Big
¿Quieres resultados precisos. Sin embargo, en las etapas iniciales de analizar petabytes de datos, es probable que no se le está preocupando de cómo válida cada elemento de datos es. Esa corriente inicial de datos grandes en realidad podría ser bastante sucia. En las etapas iniciales, es más importante ver si existen relaciones entre los elementos dentro de esta fuente de datos masiva que para asegurarse de que todos los elementos son válidos.
Sin embargo, después de una organización determina que las partes de que el análisis inicial de los datos son importantes, este subconjunto de datos grande necesita ser validado, ya que ahora se aplicará a una condición operativa. Cuando los datos se mueve de exploración a acciones concretas, los datos deben ser validados. La validez de las fuentes de datos grandes y posterior análisis debe ser precisa si va a utilizar los resultados para la toma de decisiones.
Datos de entrada válido seguido por el procesamiento correcto de los datos deben producir resultados precisos. Con grandes datos, debe ser más vigilantes con respecto a la validez. Por ejemplo, en la asistencia sanitaria, es posible que los datos de un ensayo clínico que podría estar relacionado con síntomas de la enfermedad de un paciente. Sin embargo, un médico que trata esa persona no puede simplemente tomar los resultados de los ensayos clínicos, sin validarlos.
Imagine que el satélite meteorológico indica que una tormenta comienza en una parte del mundo. ¿Cómo está esa tormenta impactando las personas? Con cerca de la mitad de un mil millones de usuarios, es posible analizar Twitter arroyos para determinar el impacto de una tormenta en las poblaciones locales. Por lo tanto, el uso de Twitter en combinación con los datos de un satélite meteorológico podría ayudar a los investigadores a comprender la veracidad de una predicción meteorológica.
La volatilidad de datos grande
Si tiene datos válidos y puede probar la veracidad de los resultados, ¿cuánto tiempo los datos que necesite " en vivo " para satisfacer sus necesidades? En un entorno de datos estándar, puede mantener los datos durante décadas porque has, con el tiempo, construyó una comprensión de qué datos son importantes por lo que haces con él. Usted ha establecido reglas para la moneda y disponibilidad de datos que se correlacionan con sus procesos de trabajo.
Por ejemplo, algunas organizaciones sólo pueden mantener el más reciente año de sus datos y transacciones de los clientes en sus sistemas empresariales. Esto asegurará una rápida recuperación de esta información cuando sea necesario. Si tienen que mirar a un año antes, el equipo de TI puede tener que restaurar los datos de almacenamiento fuera de línea para honrar la solicitud. Con grandes datos, este problema se magnifica.
Si el almacenamiento es limitada, mira las fuentes de datos grandes para determinar lo que hay que reunir y cuánto tiempo necesita para mantenerlo. Con algunas fuentes de datos grandes, puede que tenga que recopilar datos para un análisis rápido.
A continuación, puede almacenar la información a nivel local para su posterior procesamiento. Si usted no tiene suficiente espacio de almacenamiento para todos estos datos, se puede procesar los datos " sobre la marcha " y sólo mantener las piezas relevantes de información a nivel local. ¿Por cuánto tiempo se mantiene grandes datos disponibles depende de algunos factores:
¿Cuántos datos se mantiene en la fuente?
¿Es necesario para procesar los datos en varias ocasiones?
¿Es necesario para procesar los datos, recopilar datos adicionales, y hacer más procesamiento?
¿Tiene reglas o regulaciones que requieren el almacenamiento de datos?
¿Sus clientes dependen de sus datos para su trabajo?
¿Los datos todavía tienen valor o es que ya no es relevante?
Debido al volumen, variedad y velocidad de grandes volúmenes de datos, es necesario comprender la volatilidad. Para algunas fuentes, los datos siempre estarán Por lo para otros, este no es el caso. Entender lo que los datos que está ahí fuera y por cuánto tiempo puede ayudar a definir los requisitos de retención y políticas para grandes datos.
Como consumidor, los grandes datos ayudarán a definir un mejor perfil de cómo y cuando usted compra bienes y servicios. Como paciente, los grandes datos ayudarán a definir un enfoque más personalizado a los tratamientos y mantenimiento de la salud. Como profesional, los grandes datos ayudarán a identificar mejores formas de diseñar y ofrecer sus productos y servicios.
Esto sólo ocurrirá cuando los datos grandes se integra en los procesos de funcionamiento de las empresas y organizaciones.