Del acceso a sus datos en Hadoop
Como Hadoop entra en la corriente principal de TI y comienza a ser utilizado de una manera importante en entornos de producción, los mismos problemas de seguridad que se aplican a los sistemas de TI, tales como bases de datos serán de aplicación a Hadoop también. En sus primeros años, Hadoop fue célebremente no
diseñado pensando en la seguridad, pero la adición de capacidades de seguridad de la empresa resistencia es una parte importante de la mayoría de edad de Hadoop. Es una parte necesaria, así: Para muchas aplicaciones (como las finanzas), si no puede ofrecer garantías de seguridad, es posible que violar la ley.Este artículo se centra en tres aspectos principales de la seguridad de la información - Aspectos que se aplican a Hadoop como lo haría con cualquier otro sistema de TI:
Gestión Perímetro
Control de acceso
Encriptación
Gestión Perímetro
El primer principio de la seguridad de TI es controlar estrechamente las fronteras entre el sistema y el mundo exterior. Debido Hadoop es un sistema distribuido que abarca muchas computadoras, esto es en gran medida un problema de red. Como plataforma de computación distribuida, un cluster Hadoop tiene muchos equipos individuales, con cada ordenador que tiene un número de puertos y servicios abiertos.
Como era de esperar, esto es una pesadilla de seguridad, que la mayoría de los administradores manejan manteniendo el clúster en una red aislada. El desafío se presenta cuando los usuarios necesitan para ejecutar aplicaciones contra sí Hadoop. Considere la posibilidad de desplegar nodos de borde, con funciones de red compartida, para actuar como pasarelas entre Hadoop y el mundo exterior. Esta estrategia presenta problemas de seguridad, sin embargo. Para hacer frente a este desafío, el equipo Hortonworks ha iniciado el desarrollo del proyecto Apache Knox, que permite el acceso seguro a los servicios del cluster Hadoop.
Control de acceso
Una gran parte de la discusión de seguridad es el control de acceso. Cuando el control del perímetro se trata de reducir al mínimo los puntos de acceso, control de acceso es asegurar que cualquier acceso que no suceda es seguro.
Autenticación
En la primera línea de control de acceso es autenticación, que, en definitiva, es la validación de que los usuarios son quienes dicen que son. La comunidad de código abierto ha puesto una enorme cantidad de trabajo en esta área, permitiendo a los distintos componentes del ecosistema Hadoop para trabajar con Kerberos, el protocolo de autenticación de red informática bien considerado. A partir de la primavera de 2014, ambos Hadoop Hadoop 1 y 2 versiones son totalmente habilitados para Kerberos. (No todas las tiendas de TI utiliza Kerberos, pero otros protocolos, como LDAP, se han aplicado a Hadoop por algunos vendedores de distribución de Hadoop en sus ofertas propietarias.)
Autorización
Después de que sus servicios de autenticación han validado la identidad de un usuario, la siguiente pregunta es determinar qué información y conductas este usuario tiene derecho a - autorización, en otras palabras.
Actualmente, la autorización en Hadoop es bastante primitivo, y se limita a la lectura de estilo POSIX, escritura y ejecución privilegios a nivel de sistema de archivos. Sin embargo, importantes esfuerzos están en marcha para definir clases de usuarios (por ejemplo, los roles de los usuarios) y la administración de las listas de control de acceso (ACL).
El proyecto de la colmena, por ejemplo, que pronto tendrá concesión / revocación de comandos para permitir a los administradores definir qué usuarios pueden acceder a las tablas específicas o puntos de vista. Con este fin, el equipo de Cloudera ha sido la punta de lanza del proyecto Apache Knox para gestionar la definición de roles de usuarios y sus privilegios para acceder a datos en Impala y Colmena.
Auditoría
La pieza final del rompecabezas de control de acceso es el seguimiento de eventos de acceso de datos, lo cual es un requisito básico para una serie de normas reguladoras de gestión de la información, como la Portabilidad del Seguro de Salud y la Ley de Responsabilidad (HIPAA) y de la PCI DSS (PCI DSS). Hadoop hace un buen trabajo de almacenar la información de auditoría para registrar eventos de acceso de datos, por lo que un requisito básico ya está en marcha. Para proteger y administrar que los datos de auditoría, herramientas de terceros están disponibles, como el Navigator de Cloudera o IBM Guardium.
Encriptación
Después de asegurarse de que las defensas de sus datos están en su lugar mediante la gestión del perímetro y que regulan el acceso, se puede hacer aún más en el caso de una violación ocurre. El cifrado puede ser la última línea de defensa. Para los datos en el disco, el trabajo activo se lleva a cabo en la comunidad de Hadoop para incorporar el cifrado como una opción para los datos almacenados en HDFS. Distribución de Intel tiene un salto desde el principio este cifrado, ya que ha permitido para los datos en HDFS aprovechando las ventajas de las instrucciones de cifrado especializados en CPUs de Intel utilizados en nodos esclavos Hadoop. Herramientas de terceros también están disponibles para cifrar los datos en HDFS.
Debido Hadoop es un sistema distribuido depender en gran medida de la comunicación en red, la encriptación de datos a medida que se mueve a través de la red es una parte fundamental de esta historia. De vuelta en Hadoop 1, el sistema (RPC) Hadoop llamada a procedimiento remoto se ha mejorado para admitir el cifrado. Esto cubre la comunicación que participan en el procesamiento de datos, como MapReduce, pero para el movimiento de datos y las interfaces web, Hadoop también utiliza TCP / IP y HTTP. Ambos también se han asegurado: servidor HTTP de Hadoop ahora soporta HTTPS y operaciones de transferencia de HDFS puede ser configurado para ser encriptado.