Extracción de los datos, el movimiento y la carga de lujo de almacenamiento de datos
Almacén de datos implementaciones de lujo son grandes - y cada vez más grande todo el tiempo. Las implementaciones que utilizan cientos de gigabytes (un gigabyte equivale a 1 billón de bytes) y terabytes incluso (1 billón de bytes) son cada vez más comunes. Para gestionar este volumen de datos y acceso de los usuarios, se necesita un servidor muy robusto y base de datos.
Prepárese para el desafío! Con un Lite almacén de datos, por lo general puede manejar el movimiento de código al almacén de datos de una manera baja tecnología sencilla - pero con el lujo de almacenamiento de datos, que está ahora de entrar en la Zona de dificultad, donde muchos proyectos de almacenamiento de datos cumplen con su Waterloo.
Es probable que experimente dificultades en este ámbito por varias razones:
Usted está tratando con muchas fuentes de datos diferentes, algunas de las cuales podrían contener datos superpuestos. Por ejemplo, la información de los proveedores podría venir de dos sistemas de compra diferentes, y algunos de sus proveedores tienen entradas en ambos sistemas.
Probablemente usted se encuentra con diferentes conjuntos de identificadores que tienen que converger (por ejemplo, seis caracteres alfanuméricos que se identifican como el SUPPLIER_ID en uno de los sistemas y un entero único conocido como SUP_NUM en el otro).
Si el almacén de datos es grande (mide más de 250 gigabytes), es muy probable que experimente dificultades para extraer, mover y cargar sus ventanas por lotes. Ventanas batch, los plazos en los que se hacen cambios a la bodega, se complican por el número de fuentes de datos que tienen que manejar.
Las posibilidades de tener una extracción en mal estado en marcha, el movimiento, la transformación y proceso de carga se exponencialmente relacionados con el número de elementos de datos que se cargan en el almacén de datos.
Si se pudiera asignar algún factor de dificultad (un entero, por ejemplo) para el proceso de obtención de datos en el almacén, las siguientes medidas podrían ser verdad: Usted tiene n elementos de datos que desea incluir en el almacén de datos con un factor de dificultad de X. Si usted ahora tiene 2n elementos de datos, su factor de dificultad no es 2X- más bien, es X al cuadrado.
Para hacer este factor de dificultad más fácil de entender, asignar algunos números para n y X. Decir que su almacén de datos cuenta con 100 elementos (n) y el factor de dificultad (X) es 5. Si se duplica el número de elementos (n = 200), el factor de dificultad es 25 (5 al cuadrado), no 10 (5 x 2).
El proceso de hacer frente a tantas fuentes de datos, todas se dirigió hacia un lugar (su almacén de lujo datos), tiene todos los elementos de demasiados cocineros en la cocina, o lo que suele decirse.
Para hacer la extracción, el movimiento, la transformación y proceso de carga sin problemas, es probable que tenga que lidiar con muchos propietarios de diferentes aplicaciones, guardianes oficiales de la base de datos, y otras personas de una variedad de diferentes organizaciones, todos los cuales tienen que cooperar como ellos 're parte de una orquesta sinfónica profesional.
La realidad, sin embargo, es que se realizan más como un grupo de estudiantes de jardín de infantes que cada uno escoja un instrumento musical de la papelera de juguete y se les dice, " Ahora jugar algo "! Aunque el proceso no está necesariamente condenado al fracaso, le espera un número de iteraciones hasta que pueda conseguir el lujo de almacenamiento de datos cargado justo.
Un lujo de almacenamiento de datos puede tener tres niveles (como un almacén de datos de lite), excepto con más fuentes de datos y tal vez más de un tipo de herramienta de usuario que accede al almacén. Pero la arquitectura para un lujo de almacenamiento de datos, probablemente se parece más a lo que se muestra en esta figura, con muchos diferentes puntos de recogida de datos.
Además de otra necesario " estaciones de paso " para su entorno particular, su entorno podría tener los siguientes elementos:
Data mart: Recibe subconjuntos de información desde el lujo de almacenamiento de datos y sirve como el principal punto de acceso para los usuarios.
Estación de transformación provisional: Un área en la que grupos de datos extraídos de algunas de las fuentes se someten a algún tipo de proceso de transformación antes de pasar por la tubería hacia la base de datos del almacén.
Estación de Aseguramiento de la calidad: Un área en la que grupos de datos se someten a controles intensivos de control de calidad antes de dejar que se muevan en el almacén de datos.