{"id":2076,"date":"2023-01-18T10:40:59","date_gmt":"2023-01-18T09:40:59","guid":{"rendered":"https:\/\/keepler.io\/2023\/01\/18\/data-products-vs-data-as-a-project-2\/"},"modified":"2023-09-12T10:40:26","modified_gmt":"2023-09-12T10:40:26","slug":"data-products-vs-data-as-a-project-2","status":"publish","type":"post","link":"https:\/\/keepler.io\/es\/2023\/01\/18\/data-products-vs-data-as-a-project-2\/","title":{"rendered":"Data Products vs Data as a Project"},"content":{"rendered":"<p><span style=\"font-weight: 300;\">El crecimiento del n\u00famero de proyectos basados en datos est\u00e1 teniendo un gran impacto en las empresas de los distintos sectores industriales y tecnol\u00f3gicos. Estos proyectos est\u00e1n siendo impulsados para la mejora de la automatizaci\u00f3n de procesos, la optimizaci\u00f3n de recursos, y la obtenci\u00f3n de informaci\u00f3n de valor que permita la mejora de la toma de decisiones.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Los equipos t\u00e9cnicos y de negocio dedicados al desarrollo de estas soluciones est\u00e1n enfocados en la explotaci\u00f3n de la informaci\u00f3n disponible en sus \u201cData Lakes\u201d, desarrollando herramientas anal\u00edticas tales como la construcci\u00f3n de <\/span><i><span style=\"font-weight: 300;\">dashboards<\/span><\/i><span style=\"font-weight: 300;\"> para reflejar KPIs relevantes de negocio, la ingesta y transformaci\u00f3n de grandes cantidades de datos o la implementaci\u00f3n de modelos ML que les permitan la inferencia en ciertos casos de uso.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Toda esta transformaci\u00f3n tecnol\u00f3gica est\u00e1 teniendo sus desaf\u00edos en relaci\u00f3n al r\u00e1pido desarrollo y <\/span><b>escalabilidad de estos proyectos de datos <\/b><span style=\"font-weight: 300;\">donde se aprecian algunas dificultades tales como los cuellos de botella producidos por equipos centralizados de Data y ML, en colaboraci\u00f3n con otros equipos funcionales m\u00e1s orientados al dominio de los datos o los propios consumidores de esta informaci\u00f3n.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Al iniciar nuevos proyectos, habitualmente el equipo de Data realiza un estudio de viabilidad con la exploraci\u00f3n de los nuevos datasets proporcionados y se intentan determinar las m\u00e9tricas objetivo de negocio a cubrir. Es en estos momentos donde se invierte un tiempo valioso en la comprensi\u00f3n de los datos, en la transformaci\u00f3n de los mismos y en la captaci\u00f3n de las necesidades lo cual en ocasiones implica que los proyectos se dilaten en esta fase inicial y haya que realizar un esfuerzo extraordinario para la adquisici\u00f3n del conocimiento de negocio asociado a estos datos.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Ante esta situaci\u00f3n donde los responsables del dominio de los datos no tienen porqu\u00e9 tener presente el uso que pueda darse a los mismos, surge la <\/span><b>necesidad de cambiar los proyectos de datos como los vemos tradicionalmente<\/b><span style=\"font-weight: 300;\">, <\/span><b>por el desarrollo de Productos de Datos (Data Products).<\/b><\/p>\n<p><span style=\"font-weight: 300;\">Un <\/span><b>Producto de Datos<\/b><span style=\"font-weight: 300;\"> debe ser implementado, desarrollado y mantenido por un equipo responsable de un dominio de datos. Por tanto pertenece exactamente a un dominio.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Puede ser definido como un <\/span><i><span style=\"font-weight: 300;\">dataset<\/span><\/i><span style=\"font-weight: 300;\"> disponible, o un <\/span><i><span style=\"font-weight: 300;\">dashboard<\/span><\/i><span style=\"font-weight: 300;\"> donde se reflejan distintos KPIs o un modelo ML accesible desde otros Dominios de datos mediante una interfaz o API. No solo ha de proporcionar los datos sino tambi\u00e9n la informaci\u00f3n necesaria para su comprensi\u00f3n (estructura, metadatos, interfaces para consumirlos, mantenimiento o ciclo de vida).<\/span><\/p>\n<blockquote><p><i><span style=\"font-weight: 300;\">El <\/span><\/i><b><i>objetivo de un Producto de Datos <\/i><\/b><i><span style=\"font-weight: 300;\">es ser un <\/span><\/i><b><i>activo reutilizable<\/i><\/b><i><span style=\"font-weight: 300;\"> definido para proporcionar datos confiables para un prop\u00f3sito espec\u00edfico alineado con las necesidades de negocio.<\/span><\/i><\/p><\/blockquote>\n<p><a href=\"https:\/\/www.thoughtworks.com\/insights\/books\/data-mesh\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 300;\">Zhamag Dehgani en su libro &#8220;Data Mesh: Delivering Data-Driven Value at Scale&#8221;<\/span><\/a><span style=\"font-weight: 300;\"> nos indica las <\/span><b>principales caracter\u00edsticas que definen a un Producto de Datos<\/b><span style=\"font-weight: 300;\"> y que resumimos entre las siguientes:<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Para que un <\/span><b>Producto de Datos sea \u00fatil <\/b><span style=\"font-weight: 300;\">requiere al menos de las siguientes cualidades:<\/span><\/p>\n<ul>\n<li style=\"font-weight: 300;\" aria-level=\"1\"><span style=\"font-weight: 300;\">Dise\u00f1ado para su actualizaci\u00f3n: deben tener la posibilidad de ser versionados o bien que sean extensibles, a\u00f1adiendo nuevas funcionalidades en el futuro.<\/span><\/li>\n<li style=\"font-weight: 300;\" aria-level=\"1\"><span style=\"font-weight: 300;\">Dise\u00f1ado para escalar: dada la creciente tasa de crecimiento de los datos disponibles , el n\u00famero de fuentes de datos en un dominio, o la diversidad de usuarios.<\/span><\/li>\n<li style=\"font-weight: 300;\" aria-level=\"1\"><span style=\"font-weight: 300;\">Dise\u00f1ado para proporcionar valor: enfocados en proporcionar de forma sencilla datos con la mayor calidad posible y confiables a los consumidores de forma comprensible.<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 300;\">Para <\/span><b>entender mejor este concepto<\/b><span style=\"font-weight: 300;\"> veamos algunos ejemplos.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">\u00bfEs <\/span><b>Gmail<\/b><span style=\"font-weight: 300;\"> un Producto de Datos? Lo cierto es que no lo es puesto que su primer objetivo es permitir la comunicaci\u00f3n escrita as\u00edncrona entre usuarios, sin embargo la determinaci\u00f3n de un correo como <\/span><i><span style=\"font-weight: 300;\">spam<\/span><\/i><span style=\"font-weight: 300;\"> s\u00ed lo es y est\u00e1 basado en la aplicaci\u00f3n de t\u00e9cnicas de procesamiento de lenguaje natural.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Otro ejemplo puede ser <\/span><b>Instagram<\/b><span style=\"font-weight: 300;\">, que tampoco puede considerarse como un Producto de Datos, sin embargo est\u00e1 compuesto por ellos como son las notificaciones, la opci\u00f3n de b\u00fasqueda o de explorar.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Finalmente, \u00bfes <\/span><b>Google Analytics<\/b><span style=\"font-weight: 300;\"> un Data Product? As\u00ed es, se trata de un producto cuyo prop\u00f3sito es proporcionar informaci\u00f3n sobre el comportamiento de los usuarios en sitios web.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">De la misma manera, el <\/span><b>buscador de Google <\/b><span style=\"font-weight: 300;\">o el <\/span><b>recomendador de Netflix<\/b><span style=\"font-weight: 300;\"> son productos de datos altamente escalables.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">El <\/span><b>desarrollo de nuevos productos de datos no es trivial <\/b><span style=\"font-weight: 300;\">para una empresa que actualmente est\u00e9 involucrada en la implementaci\u00f3n de Proyectos de Datos tradicionales porque se requiere de una transformaci\u00f3n en la estrategia operacional que permita el desarrollo de un entorno en el que se normalicen templates y data pipelines que puedan acelerar el lanzamiento de nuevos productos.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Se requiere, adem\u00e1s, de disponer de equipos que adquieran el <\/span><i><span style=\"font-weight: 300;\">ownership<\/span><\/i><span style=\"font-weight: 300;\"> de los distintos dominios de datos en los que se van a desarrollar dichos productos.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Son m\u00faltiples los aspectos que se deben tener presentes cuando se definen nuevos productos de datos, como son la definici\u00f3n de metadatos, establecimiento de los requerimientos necesarios que deber\u00e1n tener los nuevos datos que se incorporen al dominio, determinar las distintas formas en las que se ser\u00e1n accesibles los datos, establecer el <\/span><i><span style=\"font-weight: 300;\">data profiling<\/span><\/i><span style=\"font-weight: 300;\">, versionado y el ciclo de vida de los datos, o establecer el nivel de granularidad en el que se separar\u00e1n las aplicaciones, dominios o componentes, entre otros.<\/span><\/p>\n<p><b>Keepler <\/b><span style=\"font-weight: 300;\">ha fundamentado su <\/span><i><span style=\"font-weight: 300;\">offering<\/span><\/i><span style=\"font-weight: 300;\"> en el desarrollo de un servicio<\/span><i><span style=\"font-weight: 300;\"> full-stack analytics<\/span><\/i><span style=\"font-weight: 300;\"> basado en capacidades de infraestructura en la nube p\u00fablica, aplicando las mejores pr\u00e1cticas en <\/span><i><span style=\"font-weight: 300;\">data engineering<\/span><\/i><span style=\"font-weight: 300;\">, <\/span><i><span style=\"font-weight: 300;\">cloud<\/span><\/i><span style=\"font-weight: 300;\">,<\/span><i><span style=\"font-weight: 300;\"> data governance<\/span><\/i><span style=\"font-weight: 300;\">, <\/span><i><span style=\"font-weight: 300;\">data science<\/span><\/i><span style=\"font-weight: 300;\"> y <\/span><i><span style=\"font-weight: 300;\">data visualization<\/span><\/i><span style=\"font-weight: 300;\">. Con este enfoque, junto con una propuesta metodol\u00f3gica Agile, le permite una eficiente identificaci\u00f3n, definici\u00f3n, desarrollo y despliegue de nuevos data products en sus clientes.<\/span><\/p>\n<p><b>Nuestra propuesta de Data Products<\/b><span style=\"font-weight: 300;\"> involucra la creaci\u00f3n o evoluci\u00f3n de Data Lakes enfocados a la extracci\u00f3n de valor a partir del an\u00e1lisis descriptivo de la informaci\u00f3n.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Adicionalmente incorporando capacidades de AI \/ ML<\/span> <span style=\"font-weight: 300;\">que permitan an\u00e1lisis m\u00e1s sofisticados y la generaci\u00f3n de nueva informaci\u00f3n relevante para la mejora de la toma de decisiones y la reducci\u00f3n de la incertidumbre.<\/span><\/p>\n","protected":false},"excerpt":{"rendered":"<p>El crecimiento del n\u00famero de proyectos basados en datos est\u00e1 teniendo un gran impacto en las empresas de los distintos sectores industriales y tecnol\u00f3gicos. Estos proyectos est\u00e1n siendo impulsados para la mejora de la automatizaci\u00f3n de procesos, la optimizaci\u00f3n de recursos, y la obtenci\u00f3n de informaci\u00f3n de valor que permita la mejora de la toma [&hellip;]<\/p>\n","protected":false},"author":134360170,"featured_media":34838,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_seopress_robots_primary_cat":"","_seopress_titles_title":"","_seopress_titles_desc":"","_seopress_robots_index":"","_seopress_analysis_target_kw":"","_et_pb_use_builder":"","_et_pb_old_content":"","_et_gb_content_width":"","_crdt_document":"","content-type":"","_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_feature_clip_id":0,"_jetpack_memberships_contains_paid_content":false,"footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":true,"jetpack_social_options":{"image_generator_settings":{"template":"highway","default_image_id":0,"font":"","enabled":false},"version":2},"_wpas_customize_per_network":false,"jetpack_post_was_ever_published":false},"categories":[226],"tags":[255,293,287,269,280],"class_list":["post-2076","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data","tag-cloud-es","tag-data-science-es","tag-ia","tag-machine-learning-es","tag-tecnologias"],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"https:\/\/i0.wp.com\/keepler.io\/wp-content\/uploads\/2023\/01\/keepler-data-product-versus-data-project-2.jpg?fit=1280%2C452&ssl=1","jetpack_shortlink":"https:\/\/wp.me\/p9CeZw-xu","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/posts\/2076","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/users\/134360170"}],"replies":[{"embeddable":true,"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/comments?post=2076"}],"version-history":[{"count":1,"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/posts\/2076\/revisions"}],"predecessor-version":[{"id":2288,"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/posts\/2076\/revisions\/2288"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/media\/34838"}],"wp:attachment":[{"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/media?parent=2076"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/categories?post=2076"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/tags?post=2076"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}