Cómo descubrir la verdad en Twitter

Ahora que cada vez más gente utiliza las redes sociales como principal fuente de información, ¿cómo podemos distinguir lo que es verdad de lo que es mentira?

1514466164_971806_1514467226_noticia_normal_recorte1

El 29 de octubre de 2012, fecha en que el huracán Sandy azotó la ciudad de Nueva York, un tuitero malintencionado publicó lo siguiente: “ÚLTIMA HORA: Confirmada la inundación de la Bolsa de Nueva York. El parqué se encuentra sumergido bajo casi un metro de agua”, un mensaje que se propagó rápidamente a los informativos convencionales.

Solo que no era verdad.

Recientemente, esta clase de bromas, que se suelen publicar con la intención de engañar, han recibido la denominación de fake news. A veces, a los periodistas, las autoridades y los usuarios corrientes de las redes sociales les cuesta entresacar las noticias verdaderas de este raudal de desinformación. Las redes sociales se están convirtiendo en la principal fuente de información para muchas personas, así que encontrar la manera de juzgar si algo es verdadero o falso es cada vez más importante.

Nosotros hemos desarrollado un marco de referencia, publicado en PLOS One, que evalúa la probabilidad de que un hecho del que se informa en un tuit corresponda al relato de un testigo presencial mediante la ponderación de los indicios de si el autor del mensaje se encontraba o no en el lugar de los hechos.

Evaluar la fiabilidad de un tuit

Un principio establecido hace tiempo en los procedimientos penales es que los relatos de los testigos presenciales son más fiables que lo que se cuenta de oídas. Por lo tanto, para juzgar si un tuit es digno de confianza tenemos que decidir si la información que contiene es de primera mano.

Nuestro esquema, desarrollado a partir de un trabajo anterior de Marie Truelove, analiza los detalles de un mensaje para establecer si se trata del relato de un testigo presencial. El punto de partida más obvio es la georreferencia de los metadatos de algunos tuits. Lo que ocurre es que solamente una pequeña parte de los usuarios activa esta opción. Para encontrar otras fuentes de pruebas tuvimos que recurrir al contenido del propio tuit, es decir, al texto y a las fotografías.

Primero buscamos indicios de que el autor estuvo presente en el suceso sobre el cual escribió. Luego pusimos a prueba el resultado buscando indicios de que, en realidad, no estuvo allí. En el texto, declaraciones como determinadas observaciones sobre el hecho (por ejemplo, el humo en el cielo en el caso de un incendio), las imágenes adjuntas (como una fotografía en directo de un partido de fútbol), y la existencia de geoetiquetado en los metadatos corroboran que un usuario es un testigo digno de crédito.

Además, identificamos aquellas pruebas en contra que indican que un tuitero no ha sido testigo presencial, por ejemplo, si se sitúa a sí mismo en otro sitio o publica una imagen televisiva del suceso, y las utilizamos para verificar las anteriores. Si descubrimos que ambas se contradicen, se puede proceder a investigar la naturaleza del mensaje.

A continuación, estos indicios, que se pueden extraer utilizando el aprendizaje automático, se evalúan con el fin de asignar al tuit una medida de credibilidad que va desde baja hasta alta.

Las dificultades

Nuestro sistema tiene que vencer dificultades importantes, entre ellas decidir si el tuit se ha generado a partir de la experiencia directa del suceso o mientras este se veía en televisión.

Las imágenes adjuntas pueden ser copias anónimas procedentes de otras fuentes o reproducir sucesos del pasado que tuvieron lugar en el mismo sitio. Los tuiteros pueden publicar lo deseosos que están de asistir a un acontecimiento que tendrá lugar después, pero al final no ir, o, por el contrario, posponer la publicación de sus relatos presenciales hasta que están de vuelta a casa una vez que el acontecimiento ha concluido.

El comportamiento de los testigos presenciales a la hora de publicar también puede variar dependiendo del hecho de que se trate. Por ejemplo, los tuits en los que se informa por anticipado de la asistencia a determinado acontecimiento no se pueden detectar a menos que este esté programado. Asimismo, los que informan de que un suceso no ha ocurrido solamente aparecerán si este se ha predicho; por ejemplo, si no se producen las inundaciones y los apagones asociados a un ciclón anunciados con anterioridad.

Para vencer estas dificultades, investigamos fundamentalmente las distintas fuentes de indicios contenidas en los tuits y aplicamos una serie de procesos para eliminar los menajes que no permiten obtener indicios de que quien publica está presente en el lugar del os hechos, como pasa con los retuits.

Después utilizamos técnicas supervisadas de aprendizaje automático para aplicar modelos de clasificación dirigidos a obtener pruebas de los tuits restantes que aportan datos que demuestran que, quien mandó el tuit, estuvo presente en el sitio en cuestión.

Cuando descubrimos múltiples indicios para un mismo tuitero, podemos ponerlos a prueba por combinación, demostrada aplicando la teoría de la evidencia de Dempster Shafer en el estudio que hemos publicado en PLOS One. Esta teoría nos permite combinar o fundir diferentes tipos de pistas que respaldan distintos niveles de certeza.

Verificar la credibilidad

Hemos descubierto que incluir indicios procedentes del texto y de las fotografías adjuntas permite descubrir más autores de tuits presentes en determinado suceso que cuando se los identifica únicamente a partir de las georreferencias.

Además, el número de tuits que se pueden analizar en busca de pruebas corroborativas o contradictorias se multiplica cuando se identifican pruebas a favor y en contra en el historial de mensajes publicados.

Si se hubiese utilizado este sistema se habría estimado que la medida de credibilidad del tuit sobre la inundación de la Bolsa de Nueva York era baja, ya que faltaban indicios que confirmasen que su autor estaba presente en el sitio, no había ninguna imagen que proporcionase pruebas adicionales, y los tuits anteriores y posteriores no guardaban suficiente relación con el hecho.

Si las agencias de noticias en particular tuviesen acceso a un marco de referencia como el nuestro para valorar los tuits de pretendidos testigos presenciales, todos podríamos confiar un poco más en los informativos.

Fuente: El País, España