CASO DE ÉXITO #BigData #DataPlatform
Diseño y construcción de plataforma de datos relacionales

STRUCTURALIA es una escuela internacional de formación de posgrado especializada en ingeniería, infraestructuras, energía, edificación, transformación digital y nuevas tecnologías.
Han formado a más de 115.000 alumnos a lo largo de 52 países. Cuenta con oficinas en España, Colombia, México, Perú, Chile, Puerto Rico y Centroamérica.
Según Harvard Business Review, el petróleo del siglo XXI son los datos que genera cada empresa. Pero no todas las empresas saben o están preparadas para sacarles valor que repercute directa o indirectamente sobre sus ingresos.
Muchas compañías tienen sistemas de tratamiento de datos desde hace algún tiempo, sin embargo, son estructuras concebidas para solucionar una situación concreta o no pensadas para responder a necesidades futuras, como pueda ser la explotación de los datos.
Se hace indispensable construir infraestructuras tecnológicas elásticas y escalables, que permitan rendir en entornos actuales y prever su rendimiento bajo distintas condiciones. Los entornos de nube pública permiten y facilitan el diseño de infraestructuras modernizadas y autogestionadas adecuadas para la evolución de plataformas de datos que permitan ingestar, tratar y explotar la información con mayores capacidades. Lo que a la larga llevará a la empresa a convertirse en una organización data driven, o lo que es lo mismo, una empresa que pueda tomar decisiones directamente de sus datos generados.
Structuralia contaba con una plataforma de datos y sistemas de ingesta y transformación de datos en AWS. Pero estos procesos y plataforma de datos no contaban con la fiabilidad, escalabilidad y capacidad de crecimiento que Structuralia demandaba para poder dar servicios de analítica avanzada y BI a sus clientes.
Para solventar estas carencias, Keepler inició un proceso de modernización de su plataforma, diseñando y construyendo una plataforma de datos en AWS conectando con bases de datos relacionales, APIs y third-party; permitiendo la orquestación de workflows de ingesta y transformación del dato con la posibilidad de ingesta de datos en RT, NRT y formato batch. Para ello, se definieron tres hitos de obligado cumplimiento para lograr los requerimientos del cliente:
- La arquitectura debe permitir implementar el primer caso de uso y escalar con nuevas fuentes de datos y necesidades analíticas de forma ágil y flexible.
- La ingesta de datos relacionales debe realizarse mediante la construcción de conectores y la orquestación del flujo de datos con las fuentes de datos seleccionadas.
- Debe poder accederse a los datos mediante API y poder explotarlos de forma directa mediante una herramienta de BI y de forma indirecta.
Para poder alcanzar los hitos marcados para este proyecto se establecieron los siguientes objetivos principales:
- Ingestar los datos de manera segura a través del servicio Database Migration Service (DMS). Las cargas que se realizan mediante este proceso serán totales y diarias.
- Crear un Data Lake que nos permita gestionar de forma centralizada los datos almacenados y procesar los datos almacenados de tal manera que aporten valor a las diferentes etapas posteriores.
- Ofrecer una capa extra de seguridad para acceder a los datos almacenados en el Data Lake.
- Poder generar reportes y replicar los ya existentes cuadros de mando basados en la información contenida en el Data Lake a través de Quicksight.
Listado de servicios utilizados indicando la herramienta y para qué sirve.
La tecnología utilizada para el desarrollo de este proyecto ha sido Amazon Web Services, la cual comprende una serie de herramientas y servicios de cloud computing. Dentro de sus servicios, se han utilizado los siguientes:
-
Amazon Aurora: sistema de administración de bases de datos relacionales (RDBMS) creado para la nube con compatibilidad total con MySQL y PostgreSQL.
-
Data Migration Service: servicio de migración de bases de datos a AWS de forma rápida y segura.
-
Lake Formation: servicio que permite la gestión de Data Lakes.
-
S3: servicio de almacenamiento de objetos dónde se alojan los datos.
-
Glue: repositorio de metadatos.
-
Athena: servicio de consulta interactivo que facilita el análisis de datos en Amazon S3 y otras fuentes de datos federadas mediante SQL estándar.
-
Quicksight: servicio de inteligencia comercial (BI) a escala de la nube que puede usar para brindar información fácil de entender a las personas con las que trabaja, donde sea que estén.

Keepler es una empresa boutique de servicios profesionales tecnológicos especializada en el diseño, construcción, despliegue y operaciones de soluciones software de Big Data y Machine Learning para grandes clientes. Utiliza metodologías Agile y Devops y los servicios nativos de la nube pública para la construcción de sofisticadas aplicaciones de negocio centradas en datos e integradas con diversas fuentes en modo batch y tiempo real. Es nivel Advanced Consulting Partner y cuenta con una plantilla técnica en la que el 90% de sus profesionales están certificados en AWS. Keepler actualmente trabaja para grandes clientes en diversos mercados, como servicios financieros, industria, energía, telecomunicaciones y media.