El análisis de datos y la mirada humana

En los últimos años nos hemos acostumbrado a encontrar en los medios menciones al big data y al aprendizaje automático. Estos términos suelen usarse indiscriminadamente para referir a técnicas y algoritmos que extraen información desde los datos. Pero ¿qué tipo de información se extrae? Típicamente se busca relacionar y clasificar individuos, ya sean personas o cosas, según algunas de sus características, para luego predecir su comportamiento. Netflix, por ejemplo, recomienda películas y series a sus usuarios, basándose en lo que otros usuarios similares prefieren. Parte del problema consiste en definir qué características se usan y cuáles son los criterios para medir la similitud entre dos usuarios, pero esta discusión está más allá del objetivo de esta columna.

Pero ¿cuál es el impacto que estas técnicas tienen en nuestras vidas? Cuando el sistema de recomendaciones de Netflix se equivoca, puede sugerirnos una serie que no nos gusta, pero ¿qué pasa cuando un software utilizado por el Poder Judicial indica, incorrectamente, que los afrodescendientes tienen casi el doble de probabilidad de reincidir en crímenes que los blancos (1)?

Los aspectos éticos detrás de las técnicas de análisis de datos no son nuevos. En áreas como la medicina o las ciencias sociales, diferentes herramientas estadísticas son utilizadas desde hace más de un siglo, y se conocen, por ejemplo, los riesgos de extraer conclusiones desde un conjunto sesgado de datos. Lo que sí es novedoso en nuestros tiempos es la masificación del uso de las técnicas de análisis de datos (auspiciada por la abundancia de datos existente), su aplicación en áreas como la educación, la seguridad pública, o la política, y el impacto que estas tienen en los procesos de toma de decisiones en ámbitos públicos y privados.

Estos contextos de aplicación son inherentemente diferentes, y deberían, por lo tanto, regirse por premisas diferentes. Una cosa es aplicar algoritmos para segmentar un mercado y vender más productos, y otra cosa es definir políticas públicas siguiendo lógicas similares. En este segundo escenario se suele argumentar que estas técnicas permiten conocer mejor a las poblaciones objetivo, mejorar la gestión de los recursos y, en consecuencia, contribuir al bienestar de la población, lo cual no es necesariamente cierto. Nuestro país no está libre de este tipo de iniciativas que anuncian con bombos y platillos las bondades del análisis de datos. A modo de ejemplo, el proyecto Edu-Data propone recopilar información para evaluar y predecir el desempeño de preescolares que asisten a los Centros de Atención a la Infancia y a la Familia (2). Sin las precauciones adecuadas, estas herramientas pueden ser peligrosas y potenciar la desigualdad, como veremos a continuación.

Ya en 2012 algunos autores advertían sobre los riesgos del uso indiscriminado del análisis de datos y cuestionaban algunas de sus premisas (3). En particular, quisiera destacar dos ideas centrales. Por un lado, la necesidad de derribar el mito de que la tecnología, y en particular estos programas, son neutrales y objetivos. En tanto artefactos creados por humanos, suelen estar contaminados por el sistema de creencias de quien los diseña o de quien interpreta los resultados. Por otro lado, la importancia de que las organizaciones que utilicen estas técnicas sean capaces de rendir cuentas acerca de por qué tomaron ciertas decisiones, y, en particular, qué datos y técnicas utilizaron. Retomando estas ideas, Julia Stoyanovich y otros investigadores definen el uso responsable del análisis de datos en términos de tres conceptos: equidad, diversidad y transparencia (4). La equidad refiere a que el análisis deberá estar libre de sesgo, que puede provenir de los datos en sí, por ejemplo debido a los mecanismos usados para recabarlos, o de los algoritmos utilizados y la interpretación de los resultados, los cuales pueden reflejar las preferencias políticas, comerciales, sexuales, religiosas, etcétera, de sus desarrolladores y eventualmente resultar discriminatorios. La diversidad refiere a que no basta con que los algoritmos retornen los resultados más populares, sino que también deben considerar resultados menos frecuentes que enriquezcan las opciones, ya que sin diversidad se corre el riesgo de excluir resultados menos populares (“los ricos son más ricos y los pobres son más pobres”). Por último, el concepto de transparencia aplica, por un lado, a aspectos relacionados con la privacidad –que los usuarios puedan conocer qué datos se están recopilando sobre ellos y para qué están siendo utilizados, por ejemplo–, aunque también refiere a la posibilidad de verificar y auditar los algoritmos para demostrar que respetan los principios de equidad, diversidad y privacidad.

Algunas organizaciones y gobiernos no son ajenos a estas preocupaciones. La Unión Europea, que es referencia a escala mundial en normativa sobre protección de datos personales y en la cual se inspira la normativa uruguaya, ha publicado recientemente un estudio que explora cómo aplicar técnicas de análisis de datos que promuevan el crecimiento económico y, además, consideren las dimensiones éticas de este análisis. En particular, se proponen acciones entre las que se destacan un marco general para el análisis ético de datos y su aplicación a datos de salud y educación (5).

En resumen, pese a estar fuertemente asistido por las máquinas, el análisis de datos es una actividad humana y por tanto subjetiva y enmarcada en un sistema de creencias. Es imprescindible desmitificarla, no creer en sus resultados como si fuese una cuestión de fe, y reglamentarla para ser capaces de transparentar el marco político e ideológico subyacente.

Dra. Ing. Lorena Etcheverry, profesora adjunta del Instituto de Computación, Facultad de Ingeniería, Udelar

(1) Angwin, J. y otros (2016). “There’s software used across the country to predict future criminals. And it’s biased against blacks”. Machine Bias ProPublica. https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing

(2) Castro, L. (2017). “Página web sistematizará datos del alumno generados por centro educativo y otras instituciones para devolver un análisis”, ver la diaria del 31/7/2017.

(3) Boyd, D. y Crawford, K. (2012). “Critical questions for big data: Provocations for a cultural, technological, and scholarly phenomenon”. Information, Communication & Society, 15(5), 662-679.

(4) Stoyanovich,J.; Abiteboul, S. y Miklau, G. (2016). “Data, Responsibly: Fairness, Neutrality and Transparency in Data Analysis” en International Conference on Extending Database Technology, Burdeos, Francia. https://hal.inria.fr/hal-01290695/document

(5) European Economic and Social Committee, (2017). The ethics of Big Data: Balancing economic benefits and ethical questions of Big Data in the EU policy context. http://www.eesc.europa.eu/en/our-work/publications-other-work/publications/ethics-big-data.