Por Bárbara Poblete, doctora en Informática y Comunicación Digital de la Universitat Pompeu Fabra en Barcelona, España. Académica de la Universidad de Chile e investigadora del Instituto Milenio Fundamentos de los Datos.

  • 6 diciembre, 2018

Una de las áreas más fascinantes a las que he dedicado mi investigación en los últimos 10 años –y que tiene tremendo impacto social– es la minería de datos, actualmente conocida como “data science”, aplicada a las redes sociales y la web. La idea es utilizar datos no estructurados, de calidad variable, que compartimos de manera pública las personas en la web. Por datos no estructurados entendemos aquellos como el texto en lenguaje natural, imágenes y videos. Datos para los cuales no se ha definido de antemano un formato y de los que desconocemos qué información útil nos puedan entregar. Un ejemplo de esto son los mensajes en redes sociales en los que las personas escriben de diversas formas, usando expresiones coloquiales, modismos e ironías. 

El desafío es extraer de esos datos trozos de información valiosos y que puedan nutrir distintas áreas. 

Actualmente, en el Instituto Milenio Fundamentos de los Datos (IMFD) estamos desarrollando una fuerte línea de investigación que busca crear herramientas para mejorar la calidad de la información que circula en la red. La meta es, por ejemplo, ser capaces de identificar de manera automática información falsa, de mala calidad, así como expresiones de odio en redes sociales e internet. Esto último es la primera prioridad para muchos investigadores, así como para grandes empresas como Facebook y Twitter, quienes están dedicando importantes recursos a este problema.

En Estados Unidos, recientemente una persona fue arrestada por su vinculación con el envío de alrededor 13 cartas-bomba dirigidas, entre otros, a importantes representantes del Partido Demócrata, incluyendo al expresidente Barack Obama. Antes de esto, había sido denunciado a Twitter por una usuaria como alguien potencialmente peligroso por escribir amenazas y utilizar lenguaje de odio (hate speech) en su cuenta. A pesar de esto Twitter no reaccionó, desestimando la acusación, y la empresa debió pedir disculpas públicas después del arresto. 

No siempre se ven situaciones tan extremas como esta, sin embargo, el lenguaje de odio ha mostrado ser un síntoma de otros tipos de situaciones conflictivas, como el cyberbullying, la discriminación hacia las personas, la manipulación de información y la incitación a la polarización extrema en la población con fines de propaganda política. 

Este tipo de episodios ilustra la necesidad de contar con herramientas automatizadas, que permitan detectar a tiempo conversaciones tóxicas dentro del volumen gigantesco de datos que generamos día a día en la web.

Junto con eso, en el IMFD estamos trabajando en herramientas de detección de hate speech con énfasis en idiomas que no sean el inglés. Utilizando técnicas de machine learning, buscamos transferir el conocimiento obtenido desde datos en inglés, que es un lenguaje con muchos recursos léxicos y semánticos a nivel computacional, y llevarlo de manera automática a otros idiomas para los cuales se tienen menos recursos. Para lograrlo, buscamos encontrar patrones robustos de información a partir de los datos en redes sociales y en otras fuentes digitales. Esperamos que esto nos permita entender mejor las dinámicas conflictivas que se dan entre usuarios y también en el funcionamiento de bots (cuentas ficticias, muchas veces automatizadas), para así mejorar la calidad de la información.