Según datos publicados por IDC, solo en 2020 se crearon 64,2 Zetabytes de datos, cifra muy cercana a la capacidad de almacenamiento total instalada que alcanza los 6,8 Zetabytes. La explosión de generación de datos tiene mucho que ver con el impulso de la Covid-19, que disparó el consumo por trabajo y educación remotas, aumento del ocio digital y de consumo de redes sociales. 

Sin embargo, de todo este volumen de datos en constante crecimiento, hasta 2021 solo se han guardado y almacenado el 2%, la gran mayoría restante o bien se pierde o bien forman parte de lo que se conoce como “datos efímeros”, aquellos únicamente asociados al momento del consumo, que requieren almacenamiento solo temporal, o que son actualizados o sobrescritos con datos nuevos. 

En este contexto, lo que está claro es que las compañías deberían preparar sus sistemas para capturar más información. Los datos son y serán un valor de negocio clave para las organizaciones, permitiéndoles entrar en lo que se conoce como el círculo virtuoso de los datos: la captura de datos permite generar información de valor, que analizada y explotada, genera insights de negocio para mejorar la toma de decisiones y generar más ventas, las cuales volverán a entregar más datos que generarán nuevos insights

Más datos, nuevos retos

Con tal volumen de información, muchas organizaciones se enfrentan a retos relacionados con la gestión, organización y consumo ordenado del dato, más si cabe en entornos de tecnología cloud e híbridos. 

A medida que la organización escala, aparecen nuevas necesidades e iniciativas que, en muchos casos, implican la construcción de repositorios de datos dispersos en distintas áreas, con distintas tecnologías y con distinto modo de consumo.

En muchas ocasiones, esta situación presenta problemas derivados del mantenimiento de estos repositorios de información que pasan a ser silos aislados. La generación de silos en la organización trae derivados problemas como el desconocimiento o inaccesibilidad de la información por parte de las distintas unidades de negocio, que trabajan sin visibilidad de lo que hacen otras áreas y sin aprovechar el valor que estas generan; la replicación del trabajo en distintas áreas y departamentos, repitiendo tareas una y otra vez cuando se podrían generar sinergias más eficientes; la incapacidad de poner en marcha iniciativas de casos de uso que consuman datos, ante la falta de conocimiento de la existencia de los mismos; la falta de confianza y fiabilidad en los datos existentes, causada por la propia gestión aislada y sin criterios comunes y compartidos, lo que lleva a su no uso o a dedicar excesivo tiempo a validarlos; y, por último, y quizás más clave, la inexistencia de una figura que represente y vele por la calidad y consistencia de los datos en el conjunto de la organización. 

Pero, en un escenario así, no está todo perdido. Existen mecanismos que ayudan a enfrentar estos retos y que pasan por realizar un trabajo de descubrimiento del dato y de definición de palancas del cambio dentro de la organización. 

La colaboración es indispensable, a través de trabajar estrechamente con y entre los representantes de negocio de cada área generadora de iniciativas y de datos dentro de la organización; la clasificación de dominios de datos de la organización, complementándolo con la definición de subdominios y datasets que pertenezcan a cada uno de ellos; el identificar el dominio técnico de cada uno de esos datasets; la definición de un framework de trabajo en cuanto a clasificación, catalogación y control de calidad del dato; y, todo ello, apoyado en una herramienta de gobierno del dato que ayude con la puesta en marcha del modelo de gestión y de gobierno. 

La puesta en marcha de este tipo de mecanismos no es directa ni inmediata, implica una gestión del cambio dentro de los equipos de negocio e IT que requieren capacitación y tiempo. No obstante, una vez definido el marco de trabajo, hay ciertas labores que se pueden realizar de una manera distribuida en los distintos departamentos y equipos de trabajo y que ayudan enormemente a que la gestión del dato sea exitosa. 

  • Distribuir la tarea de descubrimiento del dato inicial entre los equipos generadores de datos. 
  • Establecer un modelo de gestión del dato (Data Owner, Data Steward) donde cada área se responsabiliza de sus dominios de datos.
  • Repartir las tareas de catalogación del dato técnico y de negocio. 
  • Definir claramente los mecanismos de acceso al dato y los responsables de los mismos.

Para la gestión y supervisión de estas tareas distribuidas, son necesarias herramientas y soluciones tecnológicas. Por ejemplo, algunas organizaciones tienden a apoyar su gestión y gobierno del dato en suites completas, listas para usar y licenciadas tipo Collibra o Informatica. También existen soluciones propias de los proveedores cloud y versiones open source que permiten una customización de los procesos y funcionalidades a las necesidades concretas de cada organización, como son Apache Atlas o Datahub.

Este tipo de plataformas o herramientas ofrecen una serie de funcionalidades comunes: catálogo y organización de los datos y dominios de los datos, definición de roles y administradores del dato en sus distintos sabores, implementación de glosarios de términos de negocio, linaje del dato e información de consumo, funcionalidades de explotación del dato, reporting de uso y consumo… 

En definitiva, la gestión eficaz y eficiente del dato requiere dar varios pasos indispensables: una fase de descubrimiento del dato de la organización, una fase de definición y consolidación de un marco de trabajo en cuanto a calidad, ownership y organización del dato y una etapa de aterrizaje e implantación tecnológica que nos ayudará en la puesta en marcha y en la implementación de ese marco de trabajo.

Las organizaciones que sean capaces de acometer esta transición a una gestión del dato más distribuida, accesible y eficaz, conseguirán implementar, más fácilmente y de forma exitosa, una cultura del dato dentro de la organización.

Author

  • Cloud Architect en Keepler. "Lifelong learner and interested in cloud computing and public cloud technologies. Engineer with extensive experience in backend development and skills in machine learning techniques. Passionate about learning and solving real world problems. I enjoy collaborative teamwork, sharing knowledge and creating amazing products."