*Las falsas promesas del “Big Data”

Imagen1

Los datos revolucionaron la manera en que entendemos, proyectamos y asumimos nuestro mundo. La probabilidad de analizar grandes cantidades de información mediante software especializado ha instalado la sensación de que las cuestiones más complejas son posibles de abordar y una ola de solucionismo inunda de optimismo hasta el mas recóndito rincón.

Presos de un sistema que no diferencia la publicidad del análisis es fácil adherir con entusiasmo a este tipo de métodos milagrosos sin advertir los riesgos que implican. Este ejercicio escéptico -como casi todos los que realizo en este espacio- está lejos de denostar las nuevas tecnologías y por el contrario aboga por un uso racional que potencialice sus beneficios.

La idea es compartir y traer al debate  distintos artículos publicados en los últimos meses que presentan el panorama actual del Big Data, sus debilidades y la liviandad con la que se aplica en muchos casos.

Kate Crawford es una investigadora y académica australiana que en los últimos meses ha protagonizado la contracorriente en materia de investigación a partir de datos (analizar cantidades masivas de información para detectar patrones, tendencias y hacer predicciones respecto a situaciones complejas).

Sus publicaciones han aparecido en el New York Times, Foreign Policy, Harvard Business review y su participación en Strata Conference 2013 fue un éxito en las redes sociales. A pesar de que posee una sólida carrera en investigación de las prácticas sociales, políticas y culturales que conllevan las nuevas tecnologías, su voz resalta hoy como ninguna en cuanto a las falsas promesas del “Big data”.

Empezaré con algunas ideas extraídas del artículo de Crawford publicado el pasado 9 de mayo en Foreign Policy bajo el título Think Again: Big Data. La premisa es responder a los “fundamentalistas” del Big Data, que ocupan sin lugar a dudas los primeros lugares en la escena mundial tan proclive al hipnotismo tecnológico y positivista. Mediante sucesivos ejemplos y argumentos exhibe las grandes debilidades de este método, su fragilidad ética y los riesgos para las conquistas sociales alcanzadas si no se establecen con urgencia parámetros éticos y técnicos. 

Lo primero es establecer que los números por sí  solos -como afirman los fundamentalistas segun Crawford- y los sets de datos, no importa cuán grandes sean, siguen siendo objetos que dependen del trabajo humano. El uso de la tecnología no inmuniza la existencia de sesgos, fallas y falsos supuestos. De modo que aun en relación con el Big Data existe la probabilidad de estos errores y por eso es falsa la promesa de que a mayor cantidad de datos , mayor calidad en los mismos.

Ejemplos: Cuando se realizan análisis de sentimientos en las redes sociales debe tenerse en cuenta que existe una alta probabilidad de que no refleje la realidad por varias razones: el tipo de población que usa esa red social, existencia de cuentas falsas y los errores propios del algoritmo al momento de interpretar determinada expresión.

Los sitios agregadores de noticias, que ofrecen un contenido personalizado de acuerdo a las elecciones del pasado, utilizan un algoritmo que tiene sus propios sesgos, por ejemplo asumir que frecuencia equivale a importancia o que lo más popular que se comparte en las redes sociales es importante para un individuo en particular.

Ed Felten y su equipo de la Universidad de Princeton investigan hoy esos errores en los algoritmos, especialmente aquellos en los que el gobierno de los Estados Unidos se fundamenta pare evaluar estatus de los individuos como la famosa lista de no-fly (no viajar) que el FBI y la Agencia de Seguridad de Transporte recaudan de múltiples fuentes accesibles al gobierno y que determinan políticas de seguridad en los aeropuertos.

Aunque no cabe duda que el análisis de datos relacionados con el funcionamiento de las ciudades puede otorgar beneficios, existen graves problemas de relacionadas con el exceso o la subestimación en la representación de ciertos sectores de la población. Un ejemplo de esta situación es el análisis de la aplicación Boston’s street Bump  a través de la cual se monitorea el estado de las calles, mediante los reportes realizados por los ciudadanos a través de sus smartphones. El riesgo es que si la información proviene únicamente de esta fuente lo más probable es que los datos representen las zonas de mayor poder adquisitivo (la misma de los propietarios de los smartphones) en perjuicio de otras zonas con menores ingresos que impiden acceder a los medios para reportar. Si una decisión de política pública se tomara en base a estos datos sin considerar los posibles sesgos, estaríamos sin duda frente a una situación de injusticia social.

El mismo análisis es válido para las iniciativas de Gobierno Abierto: la existencia de más datos, no significa necesariamente que mejorarán los índices de transparencia y responsabilidad del gobierno a menos que se establezcan mecanismos de participación e intercambio entre los ciudadanos y sus instituciones y un adecuado criterio en la interpretación de los datos.

Las organizaciones de derechos humanos también han acudido al Big Data para entender conflictos y crisis y aquí también es preciso preguntarse sobre la calidad de los datos y del análisis. En la actualidad el CHRS de la Universidad Carnegie Mellon desarrolla una investigación sobre el efecto real en la protección de los derechos humanos que se realiza a través de las redes sociales y el análisis de datos.

De acuerdo a Jay D. Aronson, el director del proyecto, existen serias dudas sobre el uso de los datos y las responsabilidades de los académicos y las organizaciones de derecho humanos con sus fuentes. En muchos casos no está claro si la protección y seguridad de las personas se mejora o se amenaza con la aplicación de estas nuevas tecnologías. La idea entonces es ayudar a mediar estas tensiones y aumentar el potencial de las nuevas tecnologías para promover los derechos humanos a través de un riguroso análisis académico.

Otros ejemplos de fallas pueden apreciarse en materia de investigación médica, recursos humanos, privacidad, anonimato de los datos e incluso en aspectos relacionados con la seguridad pública. Los riesgos incluyen discriminación de grupos sociales y el consecuente trato diferencial; uso indebido de información privada y estigmatización racial. Para profundizar sobre ellos recomiendo consultar el artículo citado.

Planteado el escenario de  vulnerabilidad del método, el paso siguiente sería proporcionar soluciones o formas de trabajar con los datos que tuvieran en cuenta todos los factores. Este será el tema de la próxima entrada, por ahora baste decir que la integración de grupos interdisciplinarios (que combinan profesionales de las ciencias sociales con las duras) es la respuesta, así como el uso complementario con los métodos tradicionales.  

Para los que quieran seguir planteándose preguntas sobre el tema les incluyo el video de la conferencia de Crawford y el link al paper “Governing Algorithms: A provocation piece” .

4 pensamientos en “*Las falsas promesas del “Big Data”

  1. Pingback: Adorados sean los MOOC | milmomentosdecomunicación

  2. Pingback: Lecturas de Domingo (13) | Ciencias y cosas

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s