No es solamente lo que decimos. Es también lo que otros pueden inferir. Traducción de “We Don’t Know What ‘Personal Data’ Means” por David Golumbia.

Muchos de nosotros pensamos que los “datos personales” son un concepto sencillo. En varias de las discusiones que implican a Facebook, Cambridge Analítica, GPDR, y el resto de las cuestiones empapadas sobre los datos que estamos viviendo, procedemos a asumir que los datos personales significa algo así como “datos sobre mi que le entrego a determinada plataforma.” Es decir, mi fecha de nacimiento, género, conexiones familiares y mi afiliación política. Estos son los datos que debemos proteger en particular y que nos preocupa entregar a los servicios de internet.

http://miniature-calendar.com/181118

Muchos de nosotros pensamos que los “datos personales” son un concepto sencillo. En varias de las discusiones que implican a Facebook, Cambridge Analítica, GPDR, y el resto de las cuestiones empapadas sobre los datos que estamos viviendo, procedemos a asumir que los datos personales significa algo así como “datos sobre mi que le entrego a determinada plataforma.” Es decir, mi fecha de nacimiento, género, conexiones familiares y mi afiliación política. Estos son los datos que debemos proteger en particular y que nos preocupa entregar a los servicios de internet.

Esto es parcialmente cierto, pero de cierta forma también es erróneo. Incluso, esta forma de pensar los datos personales nos desvía de como deberíamos pensar en proteger nuestros datos privados y personales, más aún de de nuestras instituciones políticas.

Debemos pensar nuestros datos personales de manera amplia e incluso más invasiva de la que suponemos.

Una clave para entender este proceso es el informe por parte de Martin Abrams, Director Ejecutivo de la Fundación de Responsabilidad en el uso de la Información (un think tank pro regulación), publicado en 2014 y llamado “Los orígenes de los Datos Personales y su implicancia para la gobernabilidad”

Abrams ofrece una descripción clara de cuatro tipos de datos personales:

datos proveídos: originado por acciones directas del usuario en el que es consciente de la entrega de su información personal.

datos observados: simplemente lo que es observado y registrado, una categoría que incluye un rango enorme de datos como “de dónde viene, que observa, con qué frecuencia e incluso la duración de las pausas.

datos derivados: “se deriva de forma bastante mecánica de otros datos y se convierte en un nuevo elemento de datos relacionado con el individuo”

datos inferidos: “El producto de un proceso analítico basado en la probabilidad”.

A esta lista necesitamos agregar al menos dos nuevas categorías: datos anonimados y datos agregados. El primero son datos que de alguna manera tiene información identificatoria, por ejemplo, el nombre de una persona pero despojado de ella; a diferencia de las demás categorías, la GDPR reconoce esta como así también los seudónimos en su enunciado 26 donde “por lo tanto, la regulación no se refiere al procesamiento de dicha información anónima”; esto podría ser más reconfortante si no quedara claro que “el verdadero proceso de anonimización de los datos es una barra extremadamente alta, y los controladores de datos a menudo no llegan a anonizar los mismos”.

Los datos agregados, como uso el término en este artículo, refieren a los que son recolectados a nivel grupal, pero no permiten llegar a usuarios específicos. En ambos casos, la falta de identificación personal no interfiere con la habilidad de apuntar a los individuos, incluso cuando no son ubicados necesariamente por el nombre (aunque la preocupación sobre los casos en donde corre el anonimato es que puedan desbloquear este proceso). El impacto de la GDPR en los datos agregados es una de las áreas de regulación que aún permanecen inciertas.

Para entender por qué estos datos que en la superficie parecen “impersonales”, pero en realidad pueden permitir ubicarnos de manera precisa como individuos debemos considerar, por ejemplo, una de las formas de análisis que se encontró a lo largo y ancho del caso Facebook / Cambridge Analytica, las así llamadas cinco dimensiones de la personalidad: apertura, conciencia, extroversión, amabilidad y neuroticismo. (por su sigla en inglés OCEAN)

Una historia reciente publicada en el New York Times toma ejemplos de la investigaciones de Michael Kosinski, un académico de Stanford cuyo trabajo es ubicado en general en el medio de estas discusiones, por haber sido usado por Cambridge Analytica. Si bien Kosinski puede ser un vendedor particularmente bueno para las técnicas que emplea, no tenemos que aceptar a simple vista que todo lo que dice es correcto para ver que los métodos generales que utiliza son ampliamente empleados por otras personas y parecen tener una validez realmente significativa.

Kosinski entregó al Times las inferencias que realizó sobre los puntajes OCEAN de los individuos basándose solamente en los datos sobre los Me gusta. Generó estas inferencias tomando un grupo de participantes experimentales, rankeando sus propios puntajes de Me gusta frente al puntaje OCEAN, y luego utilizó programas basados en Machine Learning para inferir las probabilidades de asociación entre ambos rankings.

Además de los rankings OCEAN, en ciertas situaciones Kosinski reinvindica que sacó aún más partido de esta técnica. Por ejemplo, en un famosos segmento del reciente documental de Jamie Bartlett: los secretos de Silicon Valley: Kosinski infiere correctamente el pasado religioso de Bartlett usando los likes de Facebook. Este es exactamente el tipo de información agregada o inferencia que existe sobre nosotros que la infame aplicación “This Is Your Digital Life” Facebook dice que Cambridge Analytica utilizó para conseguir información no sólo de nosotros, sino también de nuestros amigos.

Estos hechos crean un enorme enigma para los defensores de la privacidad. Quizá le hayamos dicho a Facebook que nos gusta “La Naranja Mecánica”, y ese podría ser el final de la historia. Pero ¿que tal si además de darles a conocer este dato, les decimos que somos homosexuales, o que tenemos cirrosis, o que siempre votamos en contra de otorgar permisos sobre zonas comerciales a grandes empresas?

Es crítico entender que no importa si esta información es acertada a nivel usuario. Los recolectores de datos saben que no son del todo precisa. Nuevamente, las personas yerran en la correlación para una relación lineal, causal: “si me gusta el senderismo como un hobby, soy consciente de esta elección”.

Luego ellos evaluarán si la relación en términos de si es significativo. Pero también es un error. Lo correcto sobre estas técnicas es que involucra inferencias estadísticas. La inferencia es algo así como “el 75% que informó que les gusta el senderismo rankean alto en la escala de apertura (OCEAN)”. Seguramente haya errores en algunos casos. Pero eso no importa. Si un publicista u operativo político pretende modificar nuestros comportamientos, buscarán esos disparadores que motiven a las personas que tuvieron un puntaje alto en apertura. Luego ofrecerán productos, servicios y manipularán medios con puntajes similares.

Es simplemente eso, no necesitan saber por qué un dato implica otro dato. Lo único que necesitan saber es que se implican, dentro de un cierto grado de efectividad. Por esa razón es que las descripciones inferenciales, agregadas y anónimas deben ser nuestra principal preocupación en entender lo que típicamente llamamos “privacidad”.

Investigaciones en relación a los análisis hechos en base a Big Data están repletos de ejemplos sobre datos derivados e inferidos que necesitamos comprender mejor. La cientista en datos y matemática Cathy O’Neil publicó un importante libro llamado Armas de destrucción matemática (Weapons of Math Destructiondonde retoma varios de estos ejemplos, por ejemplo su propia experiencia diseñando un sistema para determinar qué tan propicio es una persona a comprar cierto producto basado en su comportamiento al cliquear en publicidades.

Otro libro excelente es el volumen publicado en 2017 por la cientista política y activista Virginia Eubanks: “Automating Equality: How High-Tech Tools Profile, Police, and Punish the Poor

En este libro también encontraremos varios ejemplos de datos derivados e inferidos que son utilizados para dañar a miembros que ya son vulnerables en nuestra sociedad, como un algoritmo para una ciudad en Pennsylvania que intentaba predecir que familias eran probables de presentar casos de abuso infantil, pero que las mismas usaban una gran cantidad de datos y análisis de Big Data entre las cuales la mayoría no tenían una relación probada con el abuso infantil, y las mismas terminaron apuntando (¡oh casualidad!) de manera desproporcionada a familias afroamericanaas (capítulo 4)

En el caso de Cambridge Analytica, los datos inferidos aparecen de manera fundamental. Cuando con David Carroll hicimos un pedido de nuestros datos bajo las leyes británicas, lo más interesante que recibimos fue una tabla de temas políticos candentes rankeados del 1 al 10.

En ningún lugar se podía observar el procedimiento sobre como se producen estos datos, pero ciertamente no eran datos que entregamos a nadie; incluso ni siquiera hubiera pensado sobre estos temas en este formato, e incluso si la información fuera correcta, son nuevas noticias sobre como pienso. Los datos no son claramente de los observados porque requiere al menos un foro en donde haya tomado acciones para indicar la importancia relativa de estos temas para mi, y no recuerdo un lugar donde haya realizado tal cosa.

Por esa razón no me queda otra razón que pensar en datos inferidos e inferidos, y tanto Carroll como los investigadores coincidimos en que estos datos son inferidos de una gran base de datos en manos de Cambridge Analytica. Los mismos han llegado a divulgar que tienen casi 4000 puntos de datos sobre los individuos en relación a lo que Kosinski llama “psicográficos”, este tipo de información de lo que venimos hablando que funciona en orden para determinar aspectos muy específicos de las personas, incluyendo su susceptibilidad a ciertas formas de manipulación de comportamiento.

Aún cuando es difícil juzgar si esta jerarquía acierto de manera precisa (en gran parte porque no sabemos como fue pensada o para que se usaría), en general parece bastante acertada y ofrece un perfil político bastante completo solamente basado en información entregada y observada de manera parcial.

Si, efectivamente deberíamos ser conscientes que si agregamos datos personales en nuestras publicaciones, las mismas serán referenciadas a nosotros, como escribir “Demócratas” o “#Resistir” en tu perfil público de Twitter. Ahora bien, por un lado deberíamos pensar seriamente en cuando y dónde ponemos este tipo de información personal o, aún mejor, deberíamos pensar en quién tiene permiso para procesar y almacenar este tipo de información. Sin importar de quien la tomó, incluso si no se la entregamos nosotros directamente.

En su declaración frente a la Cámara de Representantes en el Comité de Energía y Comercio en Abril de 2018, el CEO de Facebook Mark Zuckerberg ofreció a sus usuarios la siguiente aclaración.

El contenido que compartís, lo alojás allí. Lo podes quitar cuando quieras. La información que recolectamos, podés elegir que no lo hagamos. Podés borrar lo que quieras y, por supuesto, podés irte de Facebook si querés.

TWP

A simple vista, es todo lo que los usuarios deseamos escuchar. Pero leamos con atención el lenguaje utilizado. El contenido que “los usuarios comparten” y el contenido que Facebook “recolecta” nombra indirectamente segmentos de lo datos en la plataforma que las palabras usadas no terminan de sugerir.

Tomando a Zuckerberg de manera literal: “el contenido que compartís” son los datos entregados, la “información que recolectamos” suena a una especie de mezcla no especificada entre datos observados y entregados.

¿Pero qué sucede con los datos derivados, inferidos y agregados?

Este tipo de información puede hacer cosas aún no pensadas para quiénes desean manipularnos, pero su potencial de daño es demasiado claro para dejarlo pasar por alto.

Las regulaciones existentes y los acuerdos impuestos a Facebook y otros recolectores de datos han probado ser insuficientes. Si algo no ha dejado el caso de Cambridge Analytica y su historia con Facebook es que las democracias, y específicamente los gobiernos democráticos necesitan tomar cartas en el asunto de manera inmediata, porque el público en general aún no logra comprender la extensión que estos datos “impersonales” en realidad pueden lograr revelar nuestros secretos más íntimos.

Cierto es que Google y Facebook son las puntas más visibles de este enorme iceberg que representan los corredores de datos, cuyo negocio consiste simplemente en vender datos sobre nosotros que nunca les dimos directamente dado que sus acciones son realizadas por fuera de la esfera pública. Compañías como Acxiom agregan, analizan y venden datos tanto para publicidad como un gran rango de actividades que impactan en nosotros de formas sutiles y otras no tanto, como el sistema de “crédito social” que está desarrollando e implementando el Gobierno de China para registrar y controlar ciertos aspectos del comportamiento en público.

Incluso peor, estos datos dan de comer a ciertas actividades de vigilancia como Palantir de Peter Thiel. La misma que Zuckerberg dice no conocer tanto, aún cuando Thiel es uno de los primeros inversores de Facebook y mentor para Mark. Incluso Facebook tiene un interés turbio sobre la información de las personas que aún no están registradas en la página.

Aún cuando estas páginas pudieran ofrecernos completo control sobre la información que entregamos, ¿podrían mantenerse en estos márgenes? ¿sería funcional a su modelos de negocios? No lo creo.

Aún la tan envalentonada e importante GDPR no es tan clara sobre los distintos tipos de datos. Si queremos reinar en las masivas invasiones que se realizan sobre nuestra vida privada a través de las redes sociales, necesitamos entender de manera más clara y precisa que datos son, y que cosas las compañías de redes sociales, corredores de datos e incluso académicos están haciendo con ella.

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s