Modos locales y distribuidas de guiones de cerdos en ejecución en hadoop

Antes de que pueda ejecutar su primer script Cerdo en Hadoop, es necesario tener una manija en cómo los programas de cerdo pueden ser empaquetados con el servidor de cerdo.

Cerdo tiene dos modos de ejecutar secuencias de comandos:

  • Modo local: Todos los scripts se ejecutan en una sola máquina sin necesidad de Hadoop MapReduce y HDFS. Esto puede ser útil para desarrollar y probar la lógica del cerdo. Si estás usando un pequeño conjunto de datos al desarrollador o probar el código, a continuación, el modo local podría ser más rápido que ir a través de la infraestructura de MapReduce.

    Modo local no requiere Hadoop. Cuando se ejecuta en modo local, el programa de cerdo se ejecuta en el contexto de una máquina virtual de Java locales, y acceso a los datos se realiza a través del sistema de archivos local de una sola máquina. Modo local es en realidad una simulación local del MapReduce en clase LocalJobRunner de Hadoop.

  • Modo de MapReduce (también conocido como modo Hadoop): Cerdo se ejecuta en el clúster Hadoop. En este caso, la secuencia de comandos de cerdo se convierte en una serie de trabajos de MapReduce que luego se ejecutan en el clúster Hadoop.

    imagen0.jpg

Si usted tiene un terabyte de datos que desea realizar operaciones en y desea desarrollar un programa de forma interactiva, es posible que pronto se encontrará cosas ralentizar considerablemente, y usted puede comenzar a crecer su almacenamiento. Modo local le permite trabajar con un subconjunto de sus datos de una manera más interactiva para que pueda entender la lógica (y resolver los errores) de su programa de cerdo.

Una vez que haya creado las cosas como quieres y sus operaciones están funcionando sin problemas, a continuación, puede ejecutar la secuencia de comandos en el conjunto utilizando el modo de MapReduce datos completos.




» » » » Modos locales y distribuidas de guiones de cerdos en ejecución en hadoop