Data Warehouse

Tras las dificultades de los sistemas tradicionales en satisfacer la creciente necesidad del manejo de información, surge el concepto de Data Warehouse, como solución a las necesidades de información global de la empresa.

Iniciamos definiendo el concepto de un Data Warehouse, es un almacén electrónico donde generalmente una empresa u organización mantiene una gran cantidad de información, por lo que sus principales características son:

Estos deben almacenarse de forma segura, fiable, fácil de recuperar y fácil de administrar.

arqutectura-data-warehouse
Arquitectura de un Data Warehouse

EL marco histórico nos indica que el concepto de data Warehouse se originó en 1988 con el trabajo de los investigadores de IBM, Barry Devlin y Paul Murphy, aun cuando el término data Warehouse fue acuñado por William H. Inmon, el cual es conocido como el padre de Data Warehousing, este describió una data Warehouse como una colección de datos orientada a un tema específico, integrado, variante en el tiempo y no volátil, que soporta el proceso de toma de decisiones.

Entonces:

Una data Warehouse, es un repositorio unificado para todos los datos que recogen los diversos sistemas de una empresa, este puede ser físico o lógico y hace hincapié en la captura de datos de diversas fuentes sobre todo para fines analíticos y de acceso.

En la actualidad muchos de ellos han migrado a la nube, sin embargo, normalmente, una data Warehouse se aloja en un servidor corporativo, los datos de diferentes aplicaciones de procesamiento de transacciones Online (OLTP) y otras fuentes se extraen selectivamente para su uso en aplicaciones analíticas y de consultas por usuarios.

También esta arquitectura de almacenamiento de datos permite a los ejecutivos de negocios organizar, comprender y utilizar sus datos para tomar decisiones estratégicas.

Estructuras

La arquitectura de una data Warehouse puede ser dividida en tres estructuras simplificadas:

  1. Básica

Sistemas operativos y archivos planos proporcionan datos en bruto que se almacenan junto con metadatos, entonces los usuarios finales pueden acceder a ellos para su análisis, generación de informes y minería de datos.

  1. Básica con un área de ensayo

Se puede colocar entre las fuentes de datos y el almacén, ésta proporciona un lugar donde los datos se pueden limpiar antes de entrar en el almacén, es posible personalizar la arquitectura del almacén para diferentes grupos dentro de la organización.

  1. Básica con área de ensayo y data marts.

Agregando data marts, que son sistemas diseñados para una línea de negocio en particular, se pueden tener data marts separados para ventas, inventario y compras, por ejemplo y los usuarios finales pueden acceder a datos de uno o de toda la data marts del negocio.

  • Nota:

La data Warehouse ha evolucionado debido a información contextual que ahora se puede adjuntar a los datos no estructurados y que también puede ser almacenada, aquellos primeros datos relacionales estructurados no podían ser mezclados y emparejados para temas analíticos con datos textuales no estructurados, sin embargo, con el advenimiento de la contextualización, estos tipos de análisis ahora sí pueden hacerse de forma natural y fácilmente.

Las ocurrencias repetitivas de datos, como el flujo de clics, mediciones o el procesamiento máquina o analógico, inicialmente parte principal y siempre inherente de información, entonces los datos no repetitivos son datos basados en textos que fueron generados por la palabra escrita o hablada, leída y reformateada y, lo que es más importante, ahora puede ser contextualizada, con el fin de extraer cualquier sentido de los datos no repetitivos para su uso en el Data Warehouse, deben tener el contexto de los datos establecidos.

En muchos casos, el contexto de los datos no repetitivos es más importante que los datos en sí, reflexionemos que, en cualquier caso, los datos no repetitivos no pueden utilizarse para la toma de decisiones hasta que se haya establecido el contexto.

El procesamiento analítico clásico de datos basado en transacciones se realiza en la data Warehouse como siempre se ha hecho, realmente nada ha cambiado ahí, por otra parte, se puede hacerse analítica sobre datos contextualizados, y esa forma de análisis es nueva, entonces la mayoría de las organizaciones, hasta ahora no habían podido basar su toma de decisiones en datos textuales no estructurados, desde luego que ahora hay una nueva forma de análisis posible en un Data Warehouse:

La posibilidad de la mezcla de análisis

El análisis combinado se realiza mediante una combinación de datos transaccionales estructurados y datos contextuales no estructurados.

Existen muchas otras formas de análisis que también son posibles, estas formas incluyen análisis predictivo y prescriptivo, así como tecnologías de machine learning y otras que están cambiando la forma en que los datos son administrados y analizados, tenemos que la data Warehouse ha sido durante mucho tiempo un elemento básico de la arquitectura de datos empresarial y sigue teniendo tiene un gran futuro en el nuevo mundo de Big Data y la analítica avanzada.

En la nube

La data Warehouse está atravesando actualmente dos transformaciones muy importantes que tienen el potencial de impulsar niveles significativos de innovación empresarial:

La primera área de transformación es el impulso para aumentar la agilidad general.

La gran mayoría de los departamentos de TI están experimentando un rápido aumento de la demanda de datos, ya que los directivos quieren tener acceso a más y más datos históricos, mientras que, al mismo tiempo, los analistas de datos y los estrategas de negocios están explorando formas de introducir nuevos flujos de datos en el almacén para enriquecer el análisis existente, así como impulsar nuevas áreas de análisis, consideremos que esta rápida expansión de los volúmenes y fuentes de datos significa que los equipos de TI necesitan invertir más tiempo y esfuerzo asegurando que el rendimiento de las consultas permanezca constante y necesitan proporcionar cada vez más entornos para equipos individuales para validar el valor comercial de los nuevos conjuntos de datos.

La segunda área de transformación gira en torno a la necesidad de mejorar el control de costos.

Es indudable que tenemos una creciente necesidad de hacer más con cada vez menos recursos, al mismo tiempo que se garantiza que todos los datos sensibles y estratégicos estén completamente asegurados, a lo largo de todo el ciclo de vida, de la manera más rentable.

Pues bien, la nube está demostrando ser un facilitador dominante, permite a las organizaciones enfrentarse de forma activa a los desafíos que presentan estas dos transformaciones clave.

¿Por qué migrar a la nube?

Las tres tecnologías que ya tienen y seguirán teniendo un gran impacto en la transformación de negocios son:

      1. La nube
      2. Datos y Análisis
      3. Internet de las Cosas

Estas tres tecnologías son parte clave del ecosistema de la data Warehouse actual, de esta manera es posible obtener la conclusión de que la data Warehouse en la nube tiene un gran potencial para generar un impacto significativo en los negocios, empresas de todos los tamaños están optando por ejecutar sus soluciones de TI en la nube, trabajando con distintas aplicaciones SaaS para satisfacer diferentes necesidades, si bien todas ellas necesitan hacerlo con datos oportunos, fiables y relevantes.

La importancia de la nube para la data Warehouse está directamente vinculado a tres factores clave:

Mejora de la agilidad

Mucha data Warehouse están embarcados en una fase de actualización, con mucho trabajo puesto ahora en torno al Big data, las empresas buscan aprovechar los nuevos flujos de datos y nuevos tipos de análisis más ricos para apoyar e impulsar nuevas áreas, tales como: analítica de clientes de 360º, análisis predictivo, detección de fraude, análisis de IoT y el establecimiento de los datos como centro de beneficio.

Es cierto que muchos de estos proyectos requieren el aprovisionamiento de nuevos entornos de Hardware y el despliegue de software, para que sea más rápido, más fácil y más eficiente iniciar estos nuevos proyectos centrados en los datos utilizando los servicios en la nube.

Mayor control de costos

Muchos equipos de TI están buscando maneras de consolidar la data marts existentes, cada uno ejecutándose en Hardware dedicado o incluso en Hardware propietario, en un único entorno integrado, los servicios en la nube de calidad ofrecen la oportunidad perfecta para iniciar este tipo de proyectos.

El cumplimiento legal no puede ser visto como un extra opcional cuando se planifica un traslado a la nube, entonces los activos de datos deben estar protegidos a lo largo de todo el ciclo de vida.

Los servicios en la nube deben facilitar todo esto, siendo más rentables, ya que todas las características de seguridad se pueden habilitar de forma predeterminada, mejorada y actualizándose de forma transparente.

Co-Localización para una carga más rápida

La mayoría de la data Warehouse generan datos directamente desde aplicaciones clave, como entrada de pedidos, ventas, finanzas y fabricación, por lo tanto, tiene mucho sentido ubicar conjuntamente la data Warehouse junto con los sistemas fuente, que ya se estén ejecutándose en la nube, la ubicación conjunta ofrece una carga de datos más rápida, lo que significa que los usuarios obtienen un acceso más oportuno a sus datos.

Ventajas de mover la data Warehouse a la nube

Existen tres ventajas principales para mover una data Warehouse a la nube, y estas están directamente vinculados a los tres controladores clave enumerados anteriormente:

  1. Más fácil consolidación y racionalización
  2. Monetización más rápida de los datos en la nube
  3. La nube ofrece mejor protección

 Calidad de datos

Conseguir la calidad de los datos es un gran logro, sin duda alguna, pero ello no significa que hayamos alcanzado un objetivo definitivo ni mucho menos, muy al contrario, su garantía de validez está en estrecha relación con los procesos que se llevan a cabo durante el flujo de la calidad de los datos, lo que significa que se trata de un proceso constante.

La misma implementación de los procesos de calidad se realiza de forma escalable, lo que significa que va a ir ampliándose a otras áreas de la corporación paulatinamente, entre otros apoyos, contando con la colaboración de un responsable de la calidad de la información, entonces es habitual la figura de la data Steward, que coordina el proceso con una doble visión, técnica y funcional.

datawarehouse

Diferencias entre Data Warehouse, Big Data y Business Intelligence

Los tres conceptos están interconectados y la perspectiva es que, cada vez más, la mayoría de empresas utilicen el análisis generado por este tipo de tecnologías para tener una visión más analítica de su negocio y así poder tomar las mejores decisiones para crecer.

Se trata de tres conceptos completamente diferentes que tienen en común una nueva manera de lidiar con los datos, siempre teniendo en cuenta la existencia de un gran volumen de información en varios formatos que contribuyen, de forma estructurada o no estructurada, a la toma de decisiones estratégicas, consideremos que el objetivo final de cualquiera de estas tecnologías es ofrecer una ventaja competitiva a las empresas, pero la forma en que se utiliza es la que marcará la diferencia.

Big Data

Podemos definir a Big Data como un gran volumen de datos con una variedad, complejidad y velocidad de crecimiento enorme y que además tienen la característica de no ser estructurados, esto significa que no son relacionales, estando además fuera del entorno corporativo, es un tipo de tecnología que te permite analizar los datos en tiempo real y puede provenir de diferentes fuentes y formas, tales como mensajería instantánea, redes sociales, registros de grabaciones, imágenes, mensajes de correo electrónico, etc.

Para tener una idea de la importancia del Big Data, este mercado está creciendo cada año, alrededor de un 40%, bastante acelerado, mismo que da pie a  la paradoja que reside en el hecho de que cuanto mayor es la evolución del Big Data, mayor es la escasez de profesionales cualificados para satisfacer esa demanda, entonces la expectativa es que en unos pocos años, haya un crecimiento aún más significativo para el uso de Big Data y por lo tanto un aumento en la demanda mano de obra especializada y de partners tecnológicos especializados en esta materia.

Data Warehouse

Por otro lado, una data Warehouse almacena datos consolidados de diversas fuentes o sistemas de la empresa, se trata de datos estructurados, que tiene como objetivo principal ser precisos y de alta calidad para de esta forma poder dar soporte a la toma de decisiones de la empresa, en su proceso tratar de conseguir todos los datos juntos para después poder dividirlos y entonces hacer un análisis de determinados sectores o estrategias.

Business Intelligence

Un Business Intelligence es una especie de “cuello de botella” de los datos recogidos de la data Warehouse, que llegan de forma exacta y útil para ayudar a la toma de decisiones, este transforma los datos en información útil para analizar no sólo los negocios, sino también las principales estrategias corporativas.

Los tres conceptos están interconectados y la perspectiva es que, cada vez más, la mayoría de empresas utilicen el análisis generado por este tipo de tecnologías para una visión más analítica de su negocio y así poder tomar las mejores decisiones para crecer.

Aun cuando es una tendencia bastante significativa para reforzar el uso de información en las empresas, sin duda son conceptos, que muchas veces se alejan de los usuarios que hacen uso de un Data Warehouse, sirva el presente para proporcionar una referencia básica a ello.

Los proyectos que apuntan a implementar estas tecnologías, deben de originarse desde la planificación de la estrategia de IT en niveles superiores, el respaldo técnico de la gerencia de IT, especialistas y proveedores.

Logo MX Rberny

Deja un comentario