La transparencia de datos equivale a productos confiables

Estamos apenas en el comienzo de la era impulsada por los datos, desde la implementación de sistemas distribuidos y aplicaciones en tiempo (casi) real hasta la toma de decisiones basadas en la información, ya sea de inteligencia empresarial o de algoritmos de análisis. Este artículo trata sobre qué es la transparencia de datos, cómo ayuda a ser justo y confiable, y algunas soluciones para implementarla.

La transparencia (de datos) significa visibilidad

En la imagen de arriba hay una factura de un restaurante en París.

Me sorprendió gratamente la información detallada sobre por qué el plato principal tenía un cierto precio y cómo se utiliza el dinero en el restaurante. Para ser justos y confiables, el restaurante optó por proporcionar una descripción cuantitativa: una lista de precios por componente de la comida, con porcentajes. La factura anterior no es solo un ejemplo de transparencia de datos, sino también un ejemplo de transparencia empresarial.

Factura detallada

Tanto como individuos como ciudadanos, exigimos transparencia de nuestros gobiernos, legisladores, empleadores, familiares y amigos. Deseamos conocer el motivo por el cual las cosas funcionan como lo hacen, y creo que, en lugar de depender de que las personas descubran cómo se utilizan sus datos o de que los legisladores sigan el ritmo del progreso técnico, es necesario cambiar la forma en que desarrollamos y ofrecemos aplicaciones a nuestros usuarios.

Consentimiento, el Santo Grial de la Transparencia

Para implementar la transparencia de datos, primero debemos implementar formularios de consentimiento. Las aplicaciones tienden a depender de que el usuario lea las interminables políticas de privacidad y condiciones de servicio, redactadas de una manera indigesta. La forma en que se presentan las condiciones de uso y privacidad de datos al usuario final refuerza la idea de que las empresas tienen algo que ocultar y de lo que pueden beneficiarse a partir de la ignorancia del usuario.

El primer paso para ser transparentes y confiables con los datos es implementar una interfaz de consentimiento y conciencia de datos simplificada para nuestros usuarios. Además de facilitar el consentimiento a los usuarios, tenemos la autoridad para controlar el uso de los datos en función de este consentimiento. La sociedad en su conjunto no debería esperar a que los legisladores realicen auditorías para confirmar que las empresas cumplen con la ley, sino que debería ser responsabilidad de cada empresa evaluar y gestionar la privacidad de los datos, así como nuestra responsabilidad como ciudadanos de no infringir la ley.

La transparencia de los datos puede conducir a la inteligencia personal

Una vez que el usuario da su consentimiento, la transparencia de datos puede educar a los usuarios finales haciéndoles conscientes de su comportamiento. Si en las comunidades cerradas las personas solían ser corregidas por sus compañeros, en el entorno abierto que brinda Internet, hay demasiadas opiniones para juzgar nuestro propio comportamiento. Las aplicaciones que construimos pueden proporcionar información personal, lo que puede ayudar a las personas a obtener “inteligencia personal”.

Desde la cantidad de minutos hasta el tipo de temas que nos interesan, pasando por el análisis de sentimientos sobre nuestra forma de comunicarnos, todos estos son conocimientos que ya se implementan en la mayoría de las aplicaciones que usamos. En lugar de mantener estos conocimientos en secreto, las empresas podrían ponerlos a disposición de sus usuarios de forma predeterminada. Al igual que las empresas aprenden de la inteligencia de datos, las personas comunes también pueden hacerlo.

Caso de estudio: Transparencia de datos en YouTube

Como usuarios de YouTube, interactuamos con diferentes servicios:

  • creamos una cuenta con una dirección de correo electrónico, fecha de nacimiento y número de teléfono;
  • podemos proporcionar información de facturación para suscripciones y membresías;
  • la información de facturación requiere la información de la dirección física;
  • podemos suscribirnos, darnos de baja e ignorar canales;
  • podemos dar me gusta, no me gusta, subir y compartir contenido;
  • podemos comentar;
  • podemos buscar contenido;
  • el contenido que buscamos se muestra en un orden determinado;
  • se nos recomienda contenido;
  • etc.

Cada vez que usamos YouTube, vemos una parte de la información anterior en la aplicación, debajo de la información de nuestra cuenta y en la página principal (suscripciones al canal, membresías, recomendaciones, videos que gustan, etc.). Mostrar esta información no constituye transparencia de datos, porque son datos operativos que creamos y en los que la aplicación se basa para funcionar.

Ser transparente con los datos implica que YouTube muestre a sus usuarios cómo se utilizan sus datos. Si hacemos clic en nuestro icono en YouTube, veremos un elemento del menú llamado “Tus datos en YouTube”, que nos redirigirá a una página con mucha información sobre nuestros datos y cómo YouTube los utiliza:

Cómo YouTube recomienda videos
Otras aplicaciones de YouTube
Cómo utiliza YouTube los datos de ubicación

Si bien el texto es fácil de entender, oscurece los muchos componentes involucrados en cómo se recopilan, almacenan y utilizan los datos. También hay muy poca información sobre terceros con los que YouTube comparte los datos.

También existe una opción para descargar los datos (y no solo para YouTube sino para todos los servicios que ofrece Google), llamada Google Takeout. Si bien es una función interesante para los entusiastas de los datos, ¿cuántas personas pueden obtener información de él y comprender en particular cómo se utilizan sus datos? ¿cuántas personas realmente pueden obtener información de ella y comprender cómo se utilizan sus datos? De todos modos, exporté mis datos de YouTube y los analicé, y descubrí lo siguiente.

Los datos descargados contienen información sobre mi canal, mis suscripciones y mi historial de búsqueda y reproducción de videos. Todavía me sorprendió descubrir que los datos no contienen:

  • ninguna información que proporcioné al crear mi cuenta;
  • ninguna información sobre mis membresías (tengo una cuenta Premium);
  • ninguna información sobre mi grupo familiar;
  • ninguna información sobre cuánto tiempo paso viendo videos;
  • ninguna información sobre los temas que me interesan;
  • ninguna información sobre mi ubicación (que se usa como se ve en las capturas de pantalla anteriores)

Si consideramos que los temas, etiquetas y los datos generados por YouTube en sí son datos de referencia que el sistema posee (como temas, etiquetas, etc.), el resto de la información faltante debería estar disponible para el usuario, ya que son datos que el usuario crea. No se menciona cómo YouTube utiliza realmente mi historial de búsqueda y reproducción de videos para proporcionar su servicio, cómo YouTube utiliza los detalles de pago y dónde se gestionan (ya que no forman parte de la descarga, supongo que hay un servicio diferente que los maneja) o qué información obtiene YouTube de los detalles de mi sesión (información del dispositivo, IP, ubicación, navegador, etc.).

¿Cómo se puede lograr la transparencia de los datos?

La transparencia de datos está estrechamente relacionada con la gestión de datos: el acto de administrar y saber cómo se utilizan los datos dentro de una empresa. Desde solicitar el consentimiento hasta proporcionar información relevante sobre cómo se utilizan los datos, la transparencia de datos debería ser un componente activo del ciclo de desarrollo de software.

Para habilitar la transparencia de datos, los equipos deben ser conscientes y estar atentos a los datos que utilizan o producen. Algunas ideas sobre cómo los equipos podrían incorporar la conciencia en su forma de trabajar se pueden encontrar en “Conciencia de datos: el asedio algorítmico a nuestra humanidad” de Brandeis Hill Marshall , que recomiendo a cualquier equipo de datos.

En general, una empresa desarrollará tres categorías de aplicaciones para su negocio:

  • las aplicaciones operativas, que brindan los servicios principales de la empresa (una tienda web, una aplicación de banca por Internet, una aplicación de transmisión de video, etc.);
  • las aplicaciones de análisis avanzado, que dan soporte al marketing (publicidad), recomendaciones, ranking, notificaciones, búsqueda, etc.;
  • las aplicaciones de inteligencia comercial, que admiten auditorías, informes financieros, tasas de conversión generales, desgaste de usuarios, etc.
Flujo de datos entre aplicaciones

Existe una gran superposición entre estos dominios, pero en la práctica, requieren experiencia y pilas técnicas diferentes. Por lo tanto, implementar la transparencia de datos puede ser un problema complejo.

La transparencia de datos implica, en primer lugar, la trazabilidad de los datos: el acto de rastrear los datos y poder comprender dónde se utilizan los datos en un momento determinado. Lo que solemos ver es que la trazabilidad de datos tiende a implementarse en aplicaciones de análisis o inteligencia empresarial, mientras que en los sistemas operativos, el concepto prácticamente no existe.

El linaje de datos, el pilar de la transparencia

Dentro de (casi) cualquier plataforma de datos, hay una manera de obtener el linaje de los datos: qué campo se usa en qué proceso y poder calcular un cierto grado de impacto. Si bien esto es extremadamente útil y relevante para las cargas analíticas, cuando hablamos de transparencia de datos, el linaje de datos es un componente que debe implementarse comenzando con los sistemas operativos, en todas las demás aplicaciones, hasta el usuario final.

El usuario final está en contacto directo con un sistema operativo (creando una cuenta, iniciando sesión, pagando), pero rara vez está al tanto de las otras aplicaciones que están usando sus datos. Por lo tanto, si bien un usuario puede deducir el uso inicial de sus datos, no sabe cómo se usan realmente sus datos en otros servicios y cómo afecta su comportamiento.

El linaje de datos es un componente central para rastrear los datos a medida que son producidos y consumidos por diferentes aplicaciones. Pero para habilitar la transparencia de datos, el linaje de datos debe tener visibilidad para los usuarios finales. Para lograr esto, se deben desarrollar interfaces de usuario simples que muestren el linaje de los datos y brinden una visión clara y comprensible de cómo se utilizan los datos del usuario.

Linaje de (meta)datos

La implementación de la transparencia de datos es una combinación de la implementación del linaje de metadatos vinculado al usuario. Para ser transparentes, no necesitamos abrumar al usuario proporcionando todos sus datos en formatos que el usuario no puede entender, pero podemos proporcionar información relevante (metadatos) para que el usuario tenga visibilidad de su uso de datos.

Los gráficos de conocimiento, los catálogos de datos, las bases de datos relacionales o NOSQL son lugares donde se pueden almacenar y crear dichos datos, junto con los procesos de datos utilizados por las propias aplicaciones. Ahora tenemos los medios para implementar tal transparencia y no escondernos detrás de la lógica de la propiedad intelectual: todos usamos código abierto, hacemos las cosas casi de la misma manera y ofrecemos en su mayoría las mismas funcionalidades a nuestros usuarios. Proporcionar información no significa necesariamente que demos nuestra solución, al igual que el restaurante francés no dio su receta proporcionando una factura detallada.

Conclusión

La transparencia de datos es fundamental para construir confianza en la era impulsada por los datos. Considero que tenemos la responsabilidad de implementar la transparencia de los datos en todas nuestras plataformas. Las empresas deben esforzarse por implementar formularios de consentimiento claros y concisos, así como proporcionar a los usuarios interfaces de usuario que muestren el linaje de los datos y cómo se utilizan. De modo que nuestros usuarios no solo confíen en nuestros productos, sino que también puedan tener un mayor control y comprensión de sus datos, y a su vez, les permitirá tomar decisiones más informadas sobre su privacidad y cómo interactúan con las aplicaciones y servicios en línea.