Desarrollo de flujos de trabajo oozie en hadoop

Flujos de trabajo oozie son, en su núcleo, dirigidas gráficos, donde se puede definir acciones (aplicaciones Hadoop) y el flujo de datos, pero sin looping - lo que significa que no se puede definir una estructura en la que desea ejecutar una operación específica y otra vez hasta algunos condición se cumple (un bucle, por ejemplo).

Flujos de trabajo oozie son bastante flexible ya que puede definir las decisiones basadas en condiciones y caminos bifurcados para la ejecución en paralelo. También puede ejecutar una amplia gama de acciones.

En esta figura, se ve un flujo de trabajo que muestra las capacidades básicas de los flujos de trabajo oozie. En primer lugar, una secuencia de comandos de cerdo se ejecuta, y es seguida inmediatamente por un árbol de decisión. Dependiendo del estado de la salida, el flujo de control puede o bien ir directamente a un HDFS (Hadoop Distributed File System) operación de archivo (por ejemplo, una operación de copyToLocal) o para una acción de tenedor.

Si el flujo de control pasa a la acción tenedor, dos trabajos se ejecutan al mismo tiempo: un trabajo MapReduce, y una consulta Colmena. El flujo de control se dirige a la operación HDFS vez tanto el trabajo MapReduce y consulta Colmena terminado de ejecutar. Después de la operación HDFS, el flujo de trabajo se haya completado.

Las definiciones de flujo de trabajo Oozie están escritos en XML, basado en el esquema de Hadoop Proceso Definition Language (HPDL). Este esquema particular es, a su vez, basado en el XML Process lenguaje de definición de esquema (XPDL), que es un estándar independiente del producto para las definiciones de procesos de negocio del modelaje.

Un flujo de trabajo Oozie se compone de una serie de acciones, que están codificados por los nodos XML. Hay diferentes tipos de nodos, que representan a los diferentes tipos de acciones o directivas de control de flujo. Cada flujo de trabajo Oozie tiene su propio archivo XML, donde se definen todos los nodos y sus interconexiones.

Nodos de flujo de trabajo, requieren identificadores únicos porque están acostumbrados a identificar el siguiente nodo para ser procesado en el flujo de trabajo. Esto significa que el orden en que se ejecutan las acciones depende de donde nodo de una acción aparece en el XML de flujo de trabajo. Para ver cómo este concepto se vería, echa un vistazo a la siguiente lista, que muestra un ejemplo de la estructura básica del archivo XML de un flujo de trabajo Oozie.

......"Trabajo Killed".

En este ejemplo, a un lado desde el principio, fin, y matar a los nodos, tiene dos nodos de acción. Cada nodo de acción representa una aplicación o un comando en ejecución.

Sobre el autor

¿Cómo poner en marcha una aplicación de MapReduce en hadoop 1

Para ver cómo el JobTracker y TaskTracker trabajan juntos para llevar a cabo una acción de MapReduce, echar un vistazo a la ejecución de una aplicación de MapReduce. La figura muestra las interacciones, y la siguiente lista de pasos establece el…

Ibm grande sql y hadoop

IBM tiene una larga historia de trabajo con SQL y la tecnología de base de datos. De acuerdo con esta historia, la solución de IBM para SQL en Hadoop aprovecha los componentes de sus tecnologías de bases de datos relacionales que son portado para…

Replicar los bloques de datos en el sistema de archivos distribuido hadoop

Hadoop Distributed File System (HDFS) está diseñado para almacenar datos en barato y más fiable, hardware. Barato tiene un anillo atractivo a la misma, pero plantea preocupaciones sobre la fiabilidad del sistema en su conjunto, especialmente para…

Ejecución de aplicaciones antes hadoop 2

Debido a que muchos despliegues de Hadoop existentes todavía no están utilizando embargo, otro negociador de recursos (HILO), tomar un rápido vistazo a cómo Hadoop logró su procesamiento de datos antes de los días de Hadoop 2. Concéntrese en…

Operando flujos de trabajo oozie en hadoop

Antes de ejecutar los flujos de trabajo oozie, todos sus componentes tienen que existir dentro de una estructura de directorio especificado. En concreto, el flujo de trabajo en sí debe tener su propio directorio, dedicado, donde workflow.xml está…

Programación y oozie coordinación de flujos de trabajo en hadoop

Después de crear un conjunto de flujos de trabajo, puede utilizar una serie de puestos de trabajo de coordinador oozie para programar cuando son ejecutados. Usted tiene dos opciones de programación para la ejecución: un tiempo específico y la…

Secuencias de comandos con el cerdo latino en hadoop

Hadoop es un ecosistema rico y evolucionando rápidamente con un conjunto cada vez mayor de nuevas aplicaciones. En lugar de tratar de mantenerse al día con todos los requisitos para nuevas capacidades, cerdo está diseñado para ser extensible a…

Nodos esclavos en racimos de Hadoop

En un universo Hadoop, nodos esclavos son los que los datos Hadoop se almacena y donde el procesamiento de datos se lleva a cabo. Los siguientes servicios permiten nodos esclavos para almacenar y procesar datos:NodeManager: Coordina los recursos…

El ecosistema Hadoop de Apache

Hadoop es más de MapReduce y HDFS (Hadoop Distributed File System): Es también una familia de proyectos relacionados (un ecosistema, en realidad) para la computación distribuida y el procesamiento de datos a gran escala. La mayoría (pero no…

Los flujos de trabajo de datos grandes

Para entender los flujos de trabajo de datos grandes, usted tiene que entender lo que es un proceso es y cómo se relaciona con el flujo de trabajo en entornos de datos intensivos. Los procesos tienden a ser diseñados como de alto nivel,…

Cómo programar tareas repetitivas mediante el Automator mac

Mac OS X Tiger incluye una característica llamada Automator que le permite programar tareas repetitivas - cambiar el nombre de un lote de archivos, dice - sin tener que dominar la programación. El Mac Automator es la forma de automatizar o…

Compruebe el estado de un flujo de trabajo de aprobación de SharePoint 2010

Debido a la notificación y la tarea incluyen un enlace al tema pendiente, un flujo de trabajo de aprobación es una buena manera de conseguir la entrada de usuarios que de otro modo no se destinará a SharePoint 2010. Y el flujo de trabajo de…

maniqui-es.com » Computadoras y software » Big Data » Gestión de datos » Desarrollo de flujos de trabajo oozie en hadoop