Data Products vs Data as a Project

El crecimiento del número de proyectos basados en datos está teniendo un gran impacto en las empresas de los distintos sectores industriales y tecnológicos. Estos proyectos están siendo impulsados para la mejora de la automatización de procesos, la optimización de recursos, y la obtención de información de valor que permita la mejora de la toma de decisiones.

Los equipos técnicos y de negocio dedicados al desarrollo de estas soluciones están enfocados en la explotación de la información disponible en sus “Data Lakes”, desarrollando herramientas analíticas tales como la construcción de dashboards para reflejar KPIs relevantes de negocio, la ingesta y transformación de grandes cantidades de datos o la implementación de modelos ML que les permitan la inferencia en ciertos casos de uso.

Toda esta transformación tecnológica está teniendo sus desafíos en relación al rápido desarrollo y escalabilidad de estos proyectos de datos donde se aprecian algunas dificultades tales como los cuellos de botella producidos por equipos centralizados de Data y ML, en colaboración con otros equipos funcionales más orientados al dominio de los datos o los propios consumidores de esta información.

Al iniciar nuevos proyectos, habitualmente el equipo de Data realiza un estudio de viabilidad con la exploración de los nuevos datasets proporcionados y se intentan determinar las métricas objetivo de negocio a cubrir. Es en estos momentos donde se invierte un tiempo valioso en la comprensión de los datos, en la transformación de los mismos y en la captación de las necesidades lo cual en ocasiones implica que los proyectos se dilaten en esta fase inicial y haya que realizar un esfuerzo extraordinario para la adquisición del conocimiento de negocio asociado a estos datos.

Ante esta situación donde los responsables del dominio de los datos no tienen porqué tener presente el uso que pueda darse a los mismos, surge la necesidad de cambiar los proyectos de datos como los vemos tradicionalmente, por el desarrollo de Productos de Datos (Data Products).

Un Producto de Datos debe ser implementado, desarrollado y mantenido por un equipo responsable de un dominio de datos. Por tanto pertenece exactamente a un dominio.

Puede ser definido como un dataset disponible, o un dashboard donde se reflejan distintos KPIs o un modelo ML accesible desde otros Dominios de datos mediante una interfaz o API. No solo ha de proporcionar los datos sino también la información necesaria para su comprensión (estructura, metadatos, interfaces para consumirlos, mantenimiento o ciclo de vida).

El objetivo de un Producto de Datos es ser un activo reutilizable definido para proporcionar datos confiables para un propósito específico alineado con las necesidades de negocio.

Zhamag Dehgani en su libro «Data Mesh: Delivering Data-Driven Value at Scale» nos indica las principales características que definen a un Producto de Datos y que resumimos entre las siguientes:

Para que un Producto de Datos sea útil requiere al menos de las siguientes cualidades:

  • Diseñado para su actualización: deben tener la posibilidad de ser versionados o bien que sean extensibles, añadiendo nuevas funcionalidades en el futuro.
  • Diseñado para escalar: dada la creciente tasa de crecimiento de los datos disponibles , el número de fuentes de datos en un dominio, o la diversidad de usuarios.
  • Diseñado para proporcionar valor: enfocados en proporcionar de forma sencilla datos con la mayor calidad posible y confiables a los consumidores de forma comprensible.

Para entender mejor este concepto veamos algunos ejemplos.

¿Es Gmail un Producto de Datos? Lo cierto es que no lo es puesto que su primer objetivo es permitir la comunicación escrita asíncrona entre usuarios, sin embargo la determinación de un correo como spam sí lo es y está basado en la aplicación de técnicas de procesamiento de lenguaje natural.

Otro ejemplo puede ser Instagram, que tampoco puede considerarse como un Producto de Datos, sin embargo está compuesto por ellos como son las notificaciones, la opción de búsqueda o de explorar.

Finalmente, ¿es Google Analytics un Data Product? Así es, se trata de un producto cuyo propósito es proporcionar información sobre el comportamiento de los usuarios en sitios web.

De la misma manera, el buscador de Google o el recomendador de Netflix son productos de datos altamente escalables.

El desarrollo de nuevos productos de datos no es trivial para una empresa que actualmente esté involucrada en la implementación de Proyectos de Datos tradicionales porque se requiere de una transformación en la estrategia operacional que permita el desarrollo de un entorno en el que se normalicen templates y data pipelines que puedan acelerar el lanzamiento de nuevos productos.

Se requiere, además, de disponer de equipos que adquieran el ownership de los distintos dominios de datos en los que se van a desarrollar dichos productos.

Son múltiples los aspectos que se deben tener presentes cuando se definen nuevos productos de datos, como son la definición de metadatos, establecimiento de los requerimientos necesarios que deberán tener los nuevos datos que se incorporen al dominio, determinar las distintas formas en las que se serán accesibles los datos, establecer el data profiling, versionado y el ciclo de vida de los datos, o establecer el nivel de granularidad en el que se separarán las aplicaciones, dominios o componentes, entre otros.

Keepler ha fundamentado su offering en el desarrollo de un servicio full-stack analytics basado en capacidades de infraestructura en la nube pública, aplicando las mejores prácticas en data engineering, cloud, data governance, data science y data visualization. Con este enfoque, junto con una propuesta metodológica Agile, le permite una eficiente identificación, definición, desarrollo y despliegue de nuevos data products en sus clientes.

Nuestra propuesta de Data Products involucra la creación o evolución de Data Lakes enfocados a la extracción de valor a partir del análisis descriptivo de la información. 

Adicionalmente incorporando capacidades de AI / ML que permitan análisis más sofisticados y la generación de nueva información relevante para la mejora de la toma de decisiones y la reducción de la incertidumbre.

+ posts

Data Scientist in Keepler Data Tech: "Live full, die empty" defines my state. This becomes my lifestyle taking me out of my comfort zone and driving my voracious learning attitude about different aspects of Data Science. I love learning by teaching and am always open to new challenges that push me further my comprehension."

0 comentarios

Deja un comentario

You May Also Like

Descubre más desde New

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo