Los datos estructurados en un entorno de datos grande

El termino datos estructurados

generalmente se refiere a los datos que tiene una longitud definida y el formato de datos grandes. Ejemplos de datos estructurados incluyen números, fechas y grupos de palabras y números de llamadas cuerdas. La mayoría de los expertos coinciden en que este tipo de datos representa alrededor del 20 por ciento de los datos que está ahí fuera. Datos estructurados son los datos que probablemente está acostumbrado a tratar con. Por lo general es almacenada en una base de datos.

Fuentes de datos de gran estructurado

Aunque esto puede parecer como de costumbre, en la realidad, los datos estructurados está asumiendo un nuevo papel en el mundo de los grandes datos. La evolución de la tecnología ofrece nuevas fuentes de datos estructurados que se producen - a menudo en tiempo real y en grandes volúmenes. Las fuentes de los datos se dividen en dos categorías:

  • PC- o máquina generadas: Datos de máquina generadas generalmente se refiere a los datos que se crea por una máquina sin intervención humana.

  • Humano generadas: Se trata de datos que los seres humanos, en la interacción con las computadoras, de suministro.

Algunos expertos sostienen que existe una tercera categoría que es un híbrido entre máquina y humano. Aquí, sin embargo, estamos preocupados por las dos primeras categorías.

Datos estructurados generados por máquina pueden incluir lo siguiente:

  • Datos del sensor: Los ejemplos incluyen las etiquetas de identificación de radio frecuencia, contadores inteligentes, dispositivos médicos, y los datos de Sistema de Posicionamiento Global. Las empresas están interesadas en esto para la gestión de la cadena de suministro y control de inventario.

  • datos de registro web: Cuando los servidores, aplicaciones, redes, etc. operan, capturan todo tipo de datos sobre su actividad. Esto puede equivaler a grandes volúmenes de datos que pueden ser útiles, por ejemplo, para hacer frente a los acuerdos de nivel de servicio o para predecir las brechas de seguridad.

  • Punto de venta de datos: Cuando el cajero desliza el código de barras de cualquier producto que se compra, se genera todos los datos asociados con el producto.

  • Datos financieros: Muchos de los sistemas financieros son ahora programmatic- se operan sobre la base de reglas predefinidas que automatizan los procesos. Los datos de-comercio es un buen ejemplo de esto. Contiene datos estructurados, como el símbolo de la empresa y el valor del dólar. Algunos de estos datos es la máquina generado, y algunos es humano generado.

Ejemplos de datos humanos generados estructurados pueden incluir lo siguiente:

  • Datos de entrada: Esto es cualquier pedazo de datos que una entrada de fuerza humana en una computadora, como nombre, edad, ingresos, respuestas a la encuesta no de forma libre, y así sucesivamente. Estos datos pueden ser útiles para entender el comportamiento básico del cliente.

  • Click-flujo de datos: Los datos se genera cada vez que hace clic en un enlace en una página web. Estos datos pueden ser analizados para determinar el comportamiento del cliente y los patrones de compra.

  • Los datos relacionados con el juego: Cada movimiento que haces en un juego se puede grabar. Esto puede ser útil en la comprensión de cómo los usuarios finales se mueven a través de una cartera de juegos.

Cuando se toma junto con millones de otros usuarios que presentan la misma información, el tamaño es astronómico. Además, muchos de estos datos tiene un componente en tiempo real a lo que puede ser útil para la comprensión de los patrones que tienen el potencial de los resultados de la predicción.

La conclusión es que este tipo de información puede ser de gran alcance y puede ser utilizado para muchos propósitos.

El papel de las bases de datos relacionales en grandes datos

La persistencia de datos se refiere a la forma en una base de datos conserva versiones de sí mismo cuando se modifica. El gran abuelo de los almacenes de datos persistentes es el sistema de gestión de bases de datos relacionales. En sus inicios, la industria de la computación utiliza lo que ahora se consideran técnicas primitivas para la persistencia de datos.

El modelo relacional fue inventado por Edgar Codd, un científico de IBM, en la década de 1970 y fue utilizado por IBM, Oracle, Microsoft y otros. Todavía está en amplio uso hoy y juega un papel importante en la evolución de los datos grandes. La comprensión de la base de datos relacional es importante porque otros tipos de bases de datos se utilizan con grandes volúmenes de datos.

En un modelo relacional, los datos se almacenan en una tabla. Esta base de datos contendría una esquema - es decir, una representación estructural de lo que está en la base de datos. Por ejemplo, en una base de datos relacional, el esquema define las tablas, los campos de las tablas, y las relaciones entre los dos.

Los datos se almacenan en columnas, una para cada atributo específico. Los datos también se almacena en la fila. La primera tabla almacena información-producto de la segunda almacena información demográfica. Cada uno tiene diferentes atributos. Cada tabla puede actualizarse con nuevos datos, y los datos se pueden borrar, leer, y actualizado. Esto a menudo se lleva a cabo en un modelo relacional utilizando un lenguaje de consulta estructurado (SQL).

imagen0.jpg

Otro aspecto de la modelo relacional con SQL es que las tablas se pueden consultar mediante una clave común. La clave común en las mesas es CustomerID.

Usted puede enviar una consulta, por ejemplo, para determinar el sexo de clientes que han comprado un producto específico. Podría ser algo como esto:

Seleccione CustomerID, Estado, Género, producto de la "tabla demográfica", "tabla de productos", donde Producto = XXYY



» » » » Los datos estructurados en un entorno de datos grande