Del acceso a sus datos en Hadoop

Como Hadoop entra en la corriente principal de TI y comienza a ser utilizado de una manera importante en entornos de producción, los mismos problemas de seguridad que se aplican a los sistemas de TI, tales como bases de datos serán de aplicación a Hadoop también. En sus primeros años, Hadoop fue célebremente no

Conteúdo

Gestión perímetro
Control de acceso

Autenticación
Autorización
Auditoría

Encriptación

diseñado pensando en la seguridad, pero la adición de capacidades de seguridad de la empresa resistencia es una parte importante de la mayoría de edad de Hadoop. Es una parte necesaria, así: Para muchas aplicaciones (como las finanzas), si no puede ofrecer garantías de seguridad, es posible que violar la ley.

Este artículo se centra en tres aspectos principales de la seguridad de la información - Aspectos que se aplican a Hadoop como lo haría con cualquier otro sistema de TI:

Gestión Perímetro
Control de acceso
Encriptación

Gestión Perímetro

El primer principio de la seguridad de TI es controlar estrechamente las fronteras entre el sistema y el mundo exterior. Debido Hadoop es un sistema distribuido que abarca muchas computadoras, esto es en gran medida un problema de red. Como plataforma de computación distribuida, un cluster Hadoop tiene muchos equipos individuales, con cada ordenador que tiene un número de puertos y servicios abiertos.

Como era de esperar, esto es una pesadilla de seguridad, que la mayoría de los administradores manejan manteniendo el clúster en una red aislada. El desafío se presenta cuando los usuarios necesitan para ejecutar aplicaciones contra sí Hadoop. Considere la posibilidad de desplegar nodos de borde, con funciones de red compartida, para actuar como pasarelas entre Hadoop y el mundo exterior. Esta estrategia presenta problemas de seguridad, sin embargo. Para hacer frente a este desafío, el equipo Hortonworks ha iniciado el desarrollo del proyecto Apache Knox, que permite el acceso seguro a los servicios del cluster Hadoop.

Control de acceso

Una gran parte de la discusión de seguridad es el control de acceso. Cuando el control del perímetro se trata de reducir al mínimo los puntos de acceso, control de acceso es asegurar que cualquier acceso que no suceda es seguro.

Autenticación

En la primera línea de control de acceso es autenticación, que, en definitiva, es la validación de que los usuarios son quienes dicen que son. La comunidad de código abierto ha puesto una enorme cantidad de trabajo en esta área, permitiendo a los distintos componentes del ecosistema Hadoop para trabajar con Kerberos, el protocolo de autenticación de red informática bien considerado. A partir de la primavera de 2014, ambos Hadoop Hadoop 1 y 2 versiones son totalmente habilitados para Kerberos. (No todas las tiendas de TI utiliza Kerberos, pero otros protocolos, como LDAP, se han aplicado a Hadoop por algunos vendedores de distribución de Hadoop en sus ofertas propietarias.)

Autorización

Después de que sus servicios de autenticación han validado la identidad de un usuario, la siguiente pregunta es determinar qué información y conductas este usuario tiene derecho a - autorización, en otras palabras.

Actualmente, la autorización en Hadoop es bastante primitivo, y se limita a la lectura de estilo POSIX, escritura y ejecución privilegios a nivel de sistema de archivos. Sin embargo, importantes esfuerzos están en marcha para definir clases de usuarios (por ejemplo, los roles de los usuarios) y la administración de las listas de control de acceso (ACL).

El proyecto de la colmena, por ejemplo, que pronto tendrá concesión / revocación de comandos para permitir a los administradores definir qué usuarios pueden acceder a las tablas específicas o puntos de vista. Con este fin, el equipo de Cloudera ha sido la punta de lanza del proyecto Apache Knox para gestionar la definición de roles de usuarios y sus privilegios para acceder a datos en Impala y Colmena.

Auditoría

La pieza final del rompecabezas de control de acceso es el seguimiento de eventos de acceso de datos, lo cual es un requisito básico para una serie de normas reguladoras de gestión de la información, como la Portabilidad del Seguro de Salud y la Ley de Responsabilidad (HIPAA) y de la PCI DSS (PCI DSS). Hadoop hace un buen trabajo de almacenar la información de auditoría para registrar eventos de acceso de datos, por lo que un requisito básico ya está en marcha. Para proteger y administrar que los datos de auditoría, herramientas de terceros están disponibles, como el Navigator de Cloudera o IBM Guardium.

Encriptación

Después de asegurarse de que las defensas de sus datos están en su lugar mediante la gestión del perímetro y que regulan el acceso, se puede hacer aún más en el caso de una violación ocurre. El cifrado puede ser la última línea de defensa. Para los datos en el disco, el trabajo activo se lleva a cabo en la comunidad de Hadoop para incorporar el cifrado como una opción para los datos almacenados en HDFS. Distribución de Intel tiene un salto desde el principio este cifrado, ya que ha permitido para los datos en HDFS aprovechando las ventajas de las instrucciones de cifrado especializados en CPUs de Intel utilizados en nodos esclavos Hadoop. Herramientas de terceros también están disponibles para cifrar los datos en HDFS.

Debido Hadoop es un sistema distribuido depender en gran medida de la comunicación en red, la encriptación de datos a medida que se mueve a través de la red es una parte fundamental de esta historia. De vuelta en Hadoop 1, el sistema (RPC) Hadoop llamada a procedimiento remoto se ha mejorado para admitir el cifrado. Esto cubre la comunicación que participan en el procesamiento de datos, como MapReduce, pero para el movimiento de datos y las interfaces web, Hadoop también utiliza TCP / IP y HTTP. Ambos también se han asegurado: servidor HTTP de Hadoop ahora soporta HTTPS y operaciones de transferencia de HDFS puede ser configurado para ser encriptado.

Sobre el autor

Procesamiento distribuido con MapReduce Hadoop

Hadoop MapReduce implica el procesamiento de una secuencia de operaciones sobre conjuntos de datos distribuidos. Los datos se compone de pares clave-valor, y los cálculos sólo tienen dos fases: una fase de un mapa y una fase de reducir. Trabajos…

Los factores que aumentan la escala de análisis estadístico en hadoop

La razón la gente degustar sus datos antes de ejecutar el análisis estadístico en Hadoop es que este tipo de análisis a menudo requiere importantes recursos de computación. Esto no es sólo acerca de los volúmenes de datos: hay cinco factores…

Hadoop distribuido sistema de archivos (HDFS) federación

La solución a la expansión de grupos de Hadoop indefinidamente es federar el NameNode. Antes de Hadoop 2 entró en escena, racimos de Hadoop tuvieron que vivir con el hecho de que NameNode coloca límites al grado en que podrían escalar. Pocos…

Hadoop distribuido sistema de archivos (HDFS) alta disponibilidad

A menudo en la infancia de Hadoop, una gran cantidad de debate se centra en la representación de la NameNode de un único punto de fallo. Hadoop, en general, ha tenido siempre una arquitectura robusta y el fracaso-tolerante, con la excepción de…

Hadoop Sqoop para grandes datos

Sqoop (SQL-a-Hadoop) es una herramienta de datos grande que ofrece la capacidad de extraer datos de los almacenes de datos no Hadoop, transformar los datos en una forma utilizable por Hadoop, y luego cargar los datos en HDFS. Este proceso se llama…

¿Cómo elegir una arquitectura de clúster Hadoop

Hadoop está diseñado para ser desplegado en un gran grupo de ordenadores conectados en red, con nodos maestros (que albergan los servicios que controlan el almacenamiento de Hadoop y procesamiento) y nodos esclavos (donde se almacena o trata los…

Ibm grande sql y hadoop

IBM tiene una larga historia de trabajo con SQL y la tecnología de base de datos. De acuerdo con esta historia, la solución de IBM para SQL en Hadoop aprovecha los componentes de sus tecnologías de bases de datos relacionales que son portado para…

Modos locales y distribuidas de guiones de cerdos en ejecución en hadoop

Antes de que pueda ejecutar su primer script Cerdo en Hadoop, es necesario tener una manija en cómo los programas de cerdo pueden ser empaquetados con el servidor de cerdo.Cerdo tiene dos modos de ejecutar secuencias de comandos:Modo local: Todos…

Administrar los recursos de datos grandes y aplicaciones con hilo hadoop

Planificación de tareas y seguimiento de los grandes datos son partes integrales de Hadoop MapReduce y se pueden usar para administrar los recursos y aplicaciones. Las primeras versiones de Hadoop apoyaron un sistema de seguimiento de trabajos y…

La gestión de grandes datos con Hadoop HDFS y MapReduce:

Hadoop, un marco de software de código abierto, utiliza HDFS (el sistema de archivos distribuido Hadoop) y MapReduce para analizar grandes volúmenes de datos en clústeres de hardware que la mercancía es, en un entorno de computación…

Hawq Pivotal y hadoop

En 2010, EMC y VMware, los líderes del mercado en la entrega de TI como un servicio a través de la computación en nube, adquirieron Greenplum Corporation, las personas que habían llevado con éxito el producto Greenplum MPP Data Warehouse (DW)…

Replicar los bloques de datos en el sistema de archivos distribuido hadoop

Hadoop Distributed File System (HDFS) está diseñado para almacenar datos en barato y más fiable, hardware. Barato tiene un anillo atractivo a la misma, pero plantea preocupaciones sobre la fiabilidad del sistema en su conjunto, especialmente para…

maniqui-es.com » Computadoras y software » Big Data » Gestión de datos » Del acceso a sus datos en Hadoop