Los flujos de trabajo de datos grandes

Para entender los flujos de trabajo de datos grandes, usted tiene que entender lo que es un proceso es y cómo se relaciona con el flujo de trabajo en entornos de datos intensivos. Los procesos tienden a ser diseñados como de alto nivel, estructuras de extremo a extremo útiles para la toma de decisiones y la normalización de cómo se hacen las cosas en una empresa u organización.

En contraste, los flujos de trabajo son orientado a las tareas y, a menudo requieren datos más específicos que los procesos. Los procesos se componen de uno o más flujos de trabajo relevantes para el objetivo general del proceso.

En muchos sentidos, los flujos de trabajo de grandes datos son similares a los flujos de trabajo estándar. De hecho, en cualquier flujo de trabajo, los datos es necesario en las diversas fases para llevar a cabo las tareas. Considere el flujo de trabajo en una situación de la salud.

Un flujo de trabajo elemental es el proceso de " la extracción de sangre ". La extracción de sangre es una tarea necesaria requerida para completar el proceso de diagnóstico en general. Si algo sucede y la sangre no se ha establecido o los datos de esa prueba de sangre se ha perdido, será un impacto directo sobre la veracidad ni la exactitud de la actividad global.

¿Qué sucede cuando se introduce un flujo de trabajo que depende de una fuente de datos grande? A pesar de que podría ser capaz de utilizar los flujos de trabajo existentes, no se puede asumir que un proceso o flujo de trabajo funcionarán correctamente con sólo sustituir una fuente de datos grande para una fuente estándar. Esto puede no funcionar porque los métodos de procesamiento de datos estándar no tienen los enfoques de tratamiento o la realización de manejar la complejidad de los grandes datos.

El ejemplo de la salud se centra en la necesidad de realizar un análisis después de la sangre se extrae del paciente. En el flujo de trabajo de datos estándar, la sangre se escribe y luego ciertas pruebas químicas se llevan a cabo sobre la base de los requisitos de la profesional de la salud.

Es poco probable que este flujo de trabajo comprende las pruebas necesarias para la identificación de biomarcadores específicos o mutaciones genéticas. Si usted suministró fuentes de datos grandes de biomarcadores y mutaciones, el flujo de trabajo sería un fracaso. No es big data conscientes y tendrá que ser modificado o reescrito para soportar grandes volúmenes de datos.

La mejor práctica para entender los flujos de trabajo y el efecto de los datos es de grande para hacer lo siguiente:

Identificar las fuentes de datos grandes que necesita para su uso.
En el mapa los tipos de datos grandes a sus tipos de datos de flujo de trabajo.
Asegúrese de que tiene la velocidad de procesamiento y acceso de almacenamiento para apoyar el flujo de trabajo.
Seleccione el almacén de datos más adecuado para los tipos de datos.
Modifique el flujo de trabajo existente para dar cabida a los grandes datos o crear nuevo flujo de trabajo de datos grande.

Después de tener sus grandes flujos de trabajo de datos, será necesario afinar estos para que no abrumar o contaminar su análisis. Por ejemplo, muchas fuentes de datos grandes no incluyen definiciones de datos bien definidos y metadatos sobre los elementos de esas fuentes. A veces, estas fuentes de datos no se han limpiado. Usted necesita asegurarse de que tiene el nivel adecuado de conocimientos acerca de las fuentes que se van a utilizar.

Sobre el autor

Almacén de datos: fuentes de datos fuente

Un almacén de datos es, por su propia naturaleza, un almacén de datos física distribuida. Distribución de sus activos de información ayuda en el rendimiento y la facilidad de uso a través de sistemas y en toda la empresa. Hacer este nivel de…

¿Cómo asegurar la validez, veracidad, y la volatilidad de los grandes datos

Alto volumen y alta variedad, y de alta velocidad son las características esenciales de datos grandes. Pero otras características de los grandes datos son igualmente importantes, especialmente cuando se aplica grandes datos para los procesos…

¿Cómo integrar grandes volúmenes de datos

Sólo tener acceso a fuentes de datos grandes no es suficiente. Usted tendrá que integrar estas fuentes. Pronto habrá petabytes de datos y cientos de mecanismos de acceso para que usted pueda elegir. Pero, ¿cuál arroyos y qué tipo de datos qué…

Identificar los datos que necesita para su big data

Hacer un balance de el tipo de datos que está tratando con su proyecto de datos grande. Muchas organizaciones están reconociendo que una gran cantidad de datos generados internamente no se ha utilizado en todo su potencial en el pasado.Mediante el…

Capa 3 de la pila de datos grande: la organización de los servicios y herramientas de datos

La organización de los servicios de datos y herramientas, la capa 3 de la pila de datos grande, capturar, validar, y montar varios elementos de datos grandes en colecciones contextualmente relevantes. Dado que los datos de grande es masiva, las…

El futuro de los almacenes de datos en la era de los grandes datos

El mercado de almacenamiento de datos de hecho ha empezado a cambiar y evolucionar con la llegada de grandes datos. En el pasado, simplemente no era económico para las empresas a almacenar la cantidad masiva de datos de un gran número de sistemas…

Mejores prácticas para la gran integración de datos

Muchas empresas están explorando problemas de datos grandes y dar con algunas soluciones innovadoras. Ahora es el momento de prestar atención a algunos mejores prácticas, o principios básicos, que serán muy útiles a medida que comienza su…

Definición de los grandes datos: el volumen, la velocidad, y la variedad

Big Data permite a las organizaciones almacenar, gestionar y manipular grandes cantidades de datos dispares a la velocidad adecuada y en el momento adecuado. Para obtener los conocimientos adecuados, grandes datos se suelen dividirse por tres…

Gestión de datos empresariales y datos grandes

Gestión de datos empresariales (EDM) es un proceso importante en las grandes datos para la comprensión y el control de la economía de los datos en su empresa u organización. Aunque EDM no es necesaria para los grandes datos, la correcta…

Cómo incorporar datos grandes en el diagnóstico de enfermedades

En todo el mundo, las fuentes de datos grandes para la salud están siendo creados y puestos a disposición para su integración en los procesos existentes. Los datos clínicos de los ensayos, la genética y los datos de mutaciones genéticas, los…

Sentar las bases para su estrategia de datos grande

Las empresas están nadando en grandes volúmenes de datos. El problema es que a menudo no saben cómo utilizar pragmáticamente que los datos sean capaces de predecir el futuro, ejecutar procesos de negocios importantes, o simplemente obtener…

Prácticas para garantizar la gobernabilidad de datos grande

Con los desafíos de la gobernanza presentados por los grandes datos, es sabio y absolutamente necesario contar con las prácticas en el lugar para asegurarse de que usted está protegiendo su información. Si bien el grado en que lo haces éstos…

maniqui-es.com » Computadoras y software » Big Data » La ciencia de datos » Los flujos de trabajo de datos grandes