Los flujos de trabajo de datos grandes
Para entender los flujos de trabajo de datos grandes, usted tiene que entender lo que es un proceso es y cómo se relaciona con el flujo de trabajo en entornos de datos intensivos. Los procesos tienden a ser diseñados como de alto nivel, estructuras de extremo a extremo útiles para la toma de decisiones y la normalización de cómo se hacen las cosas en una empresa u organización.
En contraste, los flujos de trabajo son orientado a las tareas y, a menudo requieren datos más específicos que los procesos. Los procesos se componen de uno o más flujos de trabajo relevantes para el objetivo general del proceso.
En muchos sentidos, los flujos de trabajo de grandes datos son similares a los flujos de trabajo estándar. De hecho, en cualquier flujo de trabajo, los datos es necesario en las diversas fases para llevar a cabo las tareas. Considere el flujo de trabajo en una situación de la salud.
Un flujo de trabajo elemental es el proceso de " la extracción de sangre ". La extracción de sangre es una tarea necesaria requerida para completar el proceso de diagnóstico en general. Si algo sucede y la sangre no se ha establecido o los datos de esa prueba de sangre se ha perdido, será un impacto directo sobre la veracidad ni la exactitud de la actividad global.
¿Qué sucede cuando se introduce un flujo de trabajo que depende de una fuente de datos grande? A pesar de que podría ser capaz de utilizar los flujos de trabajo existentes, no se puede asumir que un proceso o flujo de trabajo funcionarán correctamente con sólo sustituir una fuente de datos grande para una fuente estándar. Esto puede no funcionar porque los métodos de procesamiento de datos estándar no tienen los enfoques de tratamiento o la realización de manejar la complejidad de los grandes datos.
El ejemplo de la salud se centra en la necesidad de realizar un análisis después de la sangre se extrae del paciente. En el flujo de trabajo de datos estándar, la sangre se escribe y luego ciertas pruebas químicas se llevan a cabo sobre la base de los requisitos de la profesional de la salud.
Es poco probable que este flujo de trabajo comprende las pruebas necesarias para la identificación de biomarcadores específicos o mutaciones genéticas. Si usted suministró fuentes de datos grandes de biomarcadores y mutaciones, el flujo de trabajo sería un fracaso. No es big data conscientes y tendrá que ser modificado o reescrito para soportar grandes volúmenes de datos.
La mejor práctica para entender los flujos de trabajo y el efecto de los datos es de grande para hacer lo siguiente:
Identificar las fuentes de datos grandes que necesita para su uso.
En el mapa los tipos de datos grandes a sus tipos de datos de flujo de trabajo.
Asegúrese de que tiene la velocidad de procesamiento y acceso de almacenamiento para apoyar el flujo de trabajo.
Seleccione el almacén de datos más adecuado para los tipos de datos.
Modifique el flujo de trabajo existente para dar cabida a los grandes datos o crear nuevo flujo de trabajo de datos grande.
Después de tener sus grandes flujos de trabajo de datos, será necesario afinar estos para que no abrumar o contaminar su análisis. Por ejemplo, muchas fuentes de datos grandes no incluyen definiciones de datos bien definidos y metadatos sobre los elementos de esas fuentes. A veces, estas fuentes de datos no se han limpiado. Usted necesita asegurarse de que tiene el nivel adecuado de conocimientos acerca de las fuentes que se van a utilizar.