Cómo Facebook está usando AI para combatir la información errónea de COVID-19 y detectar 'memes de odio'

Facebook lanzó el lunes un nuevo informe que detalla cómo utiliza una combinación de inteligencia artificial y verificadores de datos humanos y moderadores para hacer cumplir los estándares de su comunidad. El informe, denominado Informe de aplicación de normas comunitarias , que generalmente incluye datos y hallazgos de los últimos tres a seis meses, se centra principalmente en la IA en esta ocasión.

Esto se debe a que Facebook confía más en la tecnología para ayudar a moderar su plataforma durante la pandemia de COVID-19, lo que impide que la empresa use sus firmas moderadoras de terceros habituales porque los empleados de esas firmas no pueden acceder a datos confidenciales de Facebook desde su hogar ordenadores.

Dicho esto, Facebook dice que los datos que se han recopilado hasta el momento no contienen tendencias más grandes en su aplicación o comportamiento ofensivo en su plataforma porque la pandemia golpeó muy tarde en su período de informe. "Este informe incluye datos solo hasta marzo de 2020, por lo que no refleja el impacto total de los cambios que hicimos durante la pandemia", escribe Guy Rosen, vicepresidente de integridad de la compañía, en una publicación de blog . "Anticipamos que veremos el impacto de esos cambios en nuestro próximo informe, y posiblemente más allá, y seremos transparentes al respecto".

Dado el estado del mundo, el informe de Facebook contiene nueva información sobre cómo la compañía está luchando específicamente contra la información errónea relacionada con el coronavirus y otras formas de abuso de la plataforma, como el aumento de precios en Facebook Marketplace, utilizando sus herramientas de inteligencia artificial.

"Durante el mes de abril, pusimos etiquetas de advertencia en aproximadamente 50 millones de publicaciones relacionadas con COVID-19 en Facebook, basadas en alrededor de 7,500 artículos de nuestros socios independientes de verificación de hechos", dijo la compañía en una publicación de blog separada , escrita por un grupo de sus investigadores científicos e ingenieros de software, sobre sus continuos esfuerzos de desinformación de COVID-19 publicados hoy. “Desde el 1 de marzo, hemos eliminado más de 2.5 millones de piezas de contenido para la venta de máscaras, desinfectantes para manos, toallitas desinfectantes de superficies y kits de prueba COVID-19. Pero estos son desafíos difíciles, y nuestras herramientas están lejos de ser perfectas. Además, la naturaleza adversaria de estos desafíos significa que el trabajo nunca se realizará ”.

Facebook dice que sus etiquetas están funcionando: el 95 por ciento de las veces, alguien a quien se le advierte que un contenido contiene información errónea decidirá no verlo de todos modos. Pero producir esas etiquetas en su enorme plataforma está demostrando ser un desafío. Por un lado, Facebook está descubriendo que una gran cantidad de información errónea, así como el discurso de odio, ahora se muestran en imágenes y videos, no solo en enlaces de texto o artículos.

"Hemos encontrado que un porcentaje sustancial del discurso de odio en Facebook a nivel mundial se produce en fotos o videos", dice la compañía en una publicación de blog específica sobre el discurso de odio sobre sus recientes hallazgos de moderación e investigación . "Al igual que con otros contenidos, el discurso de odio también puede ser multimodal: un meme podría usar texto e imagen juntos para atacar a un grupo particular de personas, por ejemplo".

La IA admite que este es un desafío más difícil para la IA. No solo los modelos entrenados en IA tienen más dificultades para analizar una imagen de meme o un video debido a complejidades como el juego de palabras y las diferencias de idioma, sino que ese software también debe ser entrenado para encontrar duplicados o solo versiones marginalmente modificadas de ese contenido a medida que se difunde Facebook. Pero esto es precisamente lo que Facebook dice que se logró con lo que llama SimSearchNet, un esfuerzo de varios años en muchas divisiones dentro de la compañía para capacitar a un modelo de inteligencia artificial sobre cómo reconocer tanto las copias de la imagen original como las que están casi duplicadas y tienen quizás una palabra en la línea de texto cambiado.

“Una vez que los verificadores de hechos independientes han determinado que una imagen contiene afirmaciones falsas o engañosas sobre el coronavirus, SimSearchNet, como parte de nuestro sistema de indexación y comparación de imágenes de extremo a extremo, puede reconocer coincidencias casi duplicadas para que podamos aplicar etiquetas de advertencia ", Dice la compañía. “Este sistema se ejecuta en cada imagen cargada en Instagram y Facebook y verifica contra bases de datos curadas por humanos específicas de la tarea. Esto representa miles de millones de imágenes que se verifican por día, incluso contra bases de datos configuradas para detectar información errónea COVID-19 ".

Facebook utiliza el ejemplo de una imagen engañosa modelada a partir de un gráfico de noticias de difusión con una línea de texto superpuesto que dice: "COVID-19 se encuentra en el papel higiénico". La imagen es de un conocido vendedor de noticias falsas llamado Now8News, y el gráfico ha sido desmentido por Snopes y otras organizaciones de verificación de hechos. Pero Facebook dice que tuvo que entrenar su IA para diferenciar entre la imagen original y una modificada que dice: "COVID-19 no se encuentra en el papel higiénico".

El objetivo es ayudar a reducir la propagación de imágenes duplicadas y, al mismo tiempo, no etiquetar inadvertidamente publicaciones genuinas o aquellas que no cumplen con los requisitos de desinformación. Este es un gran problema en Facebook, donde muchas páginas y organizaciones con motivación política o aquellas que simplemente se alimentan de la indignación partidista tomarán fotografías, capturas de pantalla y otras imágenes y las alterarán para cambiar su significado. Un modelo de inteligencia artificial que conoce la diferencia y puede etiquetar uno como información errónea y el otro como genuino es un paso significativo hacia adelante, especialmente cuando puede hacer lo mismo con cualquier contenido duplicado o casi duplicado en el futuro sin incluir imágenes no ofensivas en el proceso.

Imagen: Facebook

"Es extremadamente importante que estos sistemas de similitud sean lo más precisos posible, porque un error puede significar tomar medidas sobre el contenido que realmente no viola nuestras políticas", dice la compañía. “Esto es particularmente importante porque por cada pieza de información errónea que el verificador de identidad identifica, puede haber miles o millones de copias. El uso de AI para detectar estas coincidencias también permite a nuestros socios de verificación de hechos centrarse en detectar nuevas instancias de información errónea en lugar de variaciones casi idénticas de contenido que ya han visto ".

Facebook también ha mejorado su moderación del discurso de odio utilizando muchas de las mismas técnicas que está empleando para el contenido relacionado con el coronavirus. "La IA ahora detecta de manera proactiva el 88.8 por ciento del contenido de discurso de odio que eliminamos, en comparación con el 80.2 por ciento del trimestre anterior", dice la compañía. "En el primer trimestre de 2020, tomamos medidas sobre 9.6 millones de contenidos por violar nuestras políticas de discurso de odio, un aumento de 3.9 millones".

Facebook puede confiar más en la inteligencia artificial, gracias a algunos avances en la forma en que sus modelos entienden y analizan el texto, tanto como aparece en las publicaciones y los enlaces que lo acompañan, como superpuesto en imágenes o videos.

“Las personas que comparten discursos de odio a menudo tratan de eludir la detección modificando su contenido. Este tipo de comportamiento de confrontación varía desde palabras mal escritas intencionalmente o evitar ciertas frases hasta modificar imágenes y videos ”, dice la compañía. “A medida que mejoramos nuestros sistemas para abordar estos desafíos, es crucial hacerlo bien. Clasificar erróneamente el contenido como discurso de odio puede significar evitar que las personas se expresen y comprometerse con los demás ". Facebook dice que la llamada contra discurso, o una respuesta al discurso de odio que argumenta en su contra, pero que generalmente contiene fragmentos del contenido ofensivo, es "particularmente difícil de clasificar correctamente porque puede parecer muy similar al discurso de odio en sí mismo".

El último informe de Facebook incluye más datos de Instagram, incluida la cantidad de contenido de intimidación que elimina la plataforma y la cantidad de contenido que se apela y se restablece. Aplicó sus esfuerzos de coincidencia de imágenes para encontrar publicaciones de suicidio y autolesiones, aumentando el porcentaje de contenido de Instagram que se eliminó antes de que los usuarios lo informaran.

La aplicación de suicidios y autolesiones en Facebook también se expandió en el último trimestre de 2019, cuando la compañía eliminó 5 millones de piezas de contenido, el doble de la cantidad que había eliminado en los meses anteriores. Un portavoz dice que este aumento surgió de un cambio que permitió a Facebook detectar y eliminar gran cantidad de contenido muy antiguo en octubre y noviembre, y los números cayeron drásticamente en 2020 a medida que cambió su enfoque a material más nuevo.

Facebook dice que sus nuevos avances, en particular, una red neuronal que llama XLM-R anunciada en noviembre pasado , están ayudando a sus sistemas de moderación automatizados a comprender mejor el texto en varios idiomas. Facebook dice que XLM-R le permite "entrenar eficientemente en órdenes de magnitud más datos y por una mayor cantidad de tiempo", y transferir ese aprendizaje a varios idiomas.

Pero Facebook dice que los memes están demostrando ser un mecanismo de entrega resistente y difícil de detectar para el discurso de odio, incluso con sus herramientas mejoradas. Por lo tanto, creó un conjunto de datos dedicado de "memes de odio" que contiene 10,000 ejemplos, donde el significado de la imagen solo se puede entender completamente procesando tanto la imagen como el texto y entendiendo la relación entre los dos.

Un ejemplo es una imagen de un desierto árido con el texto "Mira cuántas personas te aman", superpuesto en la parte superior. Facebook llama al proceso de detectar esto con sistemas automatizados de comprensión multimodal, y entrenar sus modelos de IA con este nivel de sofisticación es parte de su investigación de moderación más avanzada.

Imagen: Facebook

“Para proporcionar a los investigadores un conjunto de datos con términos claros de licencia, otorgamos licencias de activos de Getty Images. Trabajamos con anotadores externos capacitados para crear nuevos memes similares a los existentes que se habían compartido en los sitios de redes sociales ”, dice la compañía. "Los anotadores utilizaron la colección de imágenes de Getty Images para reemplazar las imágenes originales y al mismo tiempo preservar el contenido semántico".

Facebook dice que está proporcionando el conjunto de datos a los investigadores para mejorar las técnicas para detectar este tipo de discurso de odio en línea. También está lanzando un desafío con un premio de $ 100,000 para que los investigadores creen modelos entrenados en el conjunto de datos que puedan analizar con éxito estas formas de discurso más sutiles que Facebook está viendo con más frecuencia ahora que sus sistemas están eliminando de manera más proactiva contenido de odio más descarado.