Su primer programa hadoop: hola Hadoop!

Después de que el clúster Hadoop está instalado y en funcionamiento, puede ejecutar su primer programa de Hadoop. Esta aplicación es muy sencilla, y calcula el total de millas voladas para todos los vuelos realizados en un año. El año está definido por el archivo de datos que se lee en su aplicación.

Para mantener las cosas un poco más simples aquí, se encontrará con un guión de cerdo para calcular el total de millas voladas. Verá el mapa y reducir fases pasan volando en la salida.

Este es el código para este script Pig:

registros = CARGA '2013_subset.csv' USO PigStorage (',') AS(Year,Month,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,CRSElapsedTime,AirTime,ArrDelay,DepDelay,Origin,Dest,Distance:int,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay, LateAircraftDelay) -milage_recs = registra GRUPO ALL-tot_miles = FOREACH milage_recs GENERAR SUM (records.Distance) -Store tot_miles EN / user / root / totalmiles-

¿Quieres poner este código en un archivo en su máquina virtual, por lo que primero crear un archivo. derecha, haga clic en el escritorio de la máquina virtual y seleccione Crear documento en el menú contextual que aparece y el nombre del documento. A continuación, abra el documento en un editor, pegar en el código, y guarde el archivo.

Desde la línea de comandos, ejecute el siguiente comando para ejecutar el script de cerdo:

totalmiles.pig cerdo

Verá muchas líneas de producción, y, finalmente, un "! Éxito " mensaje, seguido de más estadísticas, y, finalmente, el símbolo del sistema. Después de su trabajo cerdo ha completado, se puede ver la salida:

hdfs dfs -cat / user / root / totalmiles / part-r-00000

Redoble, por favor # 133- Y la respuesta es: 775009272

Y con eso, se le han acabado su primera aplicación Hadoop!




» » » » Su primer programa hadoop: hola Hadoop!