Conceptos básicos de computación distribuida para grandes datos

Si su empresa está considerando un proyecto de datos grande, es importante que usted entienda algunos conceptos básicos de computación distribuida primero. No hay un modelo de computación distribuida solo porque los recursos informáticos se pueden distribuir en muchos sentidos.

Por ejemplo, puede distribuir un conjunto de programas en el mismo servidor físico y el uso de servicios de mensajería para que puedan comunicarse y transmitir información. También es posible tener muchos sistemas diferentes o servidores, cada uno con su propia memoria, que pueden trabajar juntos para resolver un problema.

¿Por qué se necesita la computación distribuida para los datos grande

No todos los problemas requieren Distributed Computing. Si una gran limitación de tiempo no existe, el procesamiento complejo puede hacer a través de un servicio especializado de forma remota. Cuando las empresas tenían que hacer análisis de datos complejos, sería mover datos a un servicio o entidad externa, donde estaban disponibles para el procesamiento de una gran cantidad de recursos de repuesto.

No es que las empresas querían esperar a obtener los resultados que necesitábamos, simplemente no era económicamente viable para comprar suficientes recursos informáticos para manejar estos requisitos emergentes. En muchas situaciones, las organizaciones podrían capturar sólo selecciones de datos en lugar de tratar de capturar todos los datos debido a los costos. Los analistas querido todos los datos, pero tuvo que conformarse con las instantáneas, con la esperanza de capturar los datos correctos en el momento adecuado.

Avances de hardware y software clave revolucionaron la industria de gestión de datos. En primer lugar, la innovación y la demanda aumentó el poder y la disminución del precio del hardware. El nuevo software se supo que entiende cómo tomar ventaja de este hardware mediante la automatización de procesos como el balanceo de carga y optimización a través de un enorme grupo de nodos.

El software incluido normas incorporadas que entienden que ciertas cargas de trabajo requieren un cierto nivel de rendimiento. El software tratado todos los nodos como si fueran simplemente un gran charco de computación, almacenamiento, redes y activos, y se trasladaron los procesos a otro nodo sin interrupción si un nodo falla, utilizando la tecnología de virtualización.

La economía cambiantes de la informática y las grandes datos

Avance rápido y muchas cosas han cambiado. En los últimos años, el costo de adquirir los recursos informáticos y de almacenamiento ha disminuido dramáticamente. Con la ayuda de la virtualización, los servidores de los productos básicos que podrían ser agrupados y cuchillas que podrían conectarse en red en un bastidor cambiaron la economía de la informática. Este cambio coincidió con la innovación en soluciones de automatización de software que mejoraron dramáticamente la capacidad de gestión de estos sistemas.

La capacidad de apalancamiento computación distribuida y las técnicas de procesamiento paralelo transformó radicalmente el paisaje y reducir drásticamente la latencia. Hay casos especiales, como el comercio de alta frecuencia (HFT), en los que baja latencia sólo puede lograrse por los servidores localizar físicamente en un solo lugar.

El problema de la latencia para datos de gran

Uno de los problemas perennes con la gestión de datos - especialmente grandes cantidades de datos - ha sido el impacto de la latencia. Estado latente es el retardo dentro de un sistema basado en los retrasos en la ejecución de una tarea. La latencia es un problema en todos los aspectos de la informática, incluyendo comunicaciones, gestión de datos, el rendimiento del sistema, y ​​más.

Si alguna vez ha usado un teléfono inalámbrico, que ha experimentado de primera mano la latencia. Es la demora en las transmisiones entre usted y su interlocutor. A veces, la latencia tiene poco impacto en la satisfacción del cliente, por ejemplo, si las empresas tienen que analizar los resultados de detrás de las escenas para planificar una nueva versión del producto. Esto probablemente no requiere respuesta inmediata o acceso.

Sin embargo, cuanto más cerca que la respuesta es un cliente en el momento de la decisión, más que las cuestiones de latencia.

La computación distribuida y las técnicas de procesamiento paralelo puede hacer una diferencia significativa en la latencia experimentada por los clientes, proveedores y socios. Muchas aplicaciones de datos grandes dependen de baja latencia debido a los requisitos de datos grandes para la velocidad y el volumen y la variedad de los datos.

Puede que no sea posible construir una aplicación de datos grande en un entorno de alta latencia si se necesita un alto rendimiento. La necesidad de verificar los datos en tiempo casi real también puede verse afectado por la latencia. Cuando se trata de datos en tiempo real, un alto nivel de latencia significa la diferencia entre el éxito y el fracaso.

La demanda de datos de Big reúne soluciones

El crecimiento de Internet como plataforma para todo, desde el comercio a la medicina transformó la demanda de una nueva generación de gestión de datos. A finales de 1990, las empresas del motor y de Internet como Google, Yahoo !, y Amazon.com han podido ampliar sus modelos de negocio, aprovechando el hardware de bajo costo para la informática y almacenamiento.

A continuación, estas empresas necesitan una nueva generación de tecnologías de software que les permitan rentabilizar las enormes cantidades de datos que estaban capturando de los clientes. Estas empresas no podían esperar los resultados del procesamiento analítico. Necesitaban la capacidad de procesar y analizar estos datos en tiempo casi real.




» » » » Conceptos básicos de computación distribuida para grandes datos