IA falha na moderação de discurso de ódio online, mostra estudo

Com o aumento do discurso de ódio online – que pode intensificar a polarização política e afetar a saúde mental –, empresas de inteligência artificial lançaram grandes modelos de linguagem para filtrar automaticamente conteúdo prejudicial.

Uma nova análise, publicada no ACL Antology, revela que esses sistemas são altamente inconsistentes.

inteligencia artificial
Sistemas de IA tratam conteúdos idênticos de maneira diferente e podem exagerar ou subestimar a moderação dependendo do contexto – Imagem: Anggalih Prasetya/Shutterstock

Testes usaram as principais IAs do mercado

Pesquisadores da Escola de Comunicação Annenberg realizaram a primeira avaliação comparativa em larga escala de sete modelos de IA usados para moderação de conteúdo, incluindo sistemas da OpenAI, Mistral, Claude 3.5 Sonnet, DeepSeek V3 e Google Perspective.

Eles testaram 1,3 milhão de frases sintéticas abordando 125 grupos sociais, variando entre termos neutros, positivos e insultos.

Leia mais

inteligência artificial
Estudo que testou IAs percebeu ausência de padrão confiável na moderação de discurso de ódio (Imagem: WANAN YOSSINGKUM/iStock)

Principais achados

  • Decisões divergentes sobre o mesmo conteúdo: sistemas diferentes classificaram conteúdos idênticos de maneiras opostas – alguns os sinalizando como prejudiciais e outros como aceitáveis –, o que pode gerar percepção de viés e minar a confiança do público.
  • Variação interna e sensibilidade a grupos específicos: alguns modelos são mais previsíveis, enquanto outros produzem resultados inconsistentes. As diferenças foram mais acentuadas para grupos baseados em escolaridade, interesses pessoais e classe econômica, indicando que certas comunidades podem ficar mais vulneráveis online.
  • Tratamento desigual de frases neutras e positivas: modelos especializados, como Claude 3.5 Sonnet e Mistral, consideram insultos prejudiciais independentemente do contexto, enquanto outros avaliam a intenção, demonstrando falta de meio-termo na classificação.

Os pesquisadores alertam que essas inconsistências destacam os desafios de equilibrar precisão e moderação excessiva, mostrando que os sistemas de IA ainda têm limitações significativas na regulação do discurso de ódio.

Ilustração sobre interação entre usuários e interfaces com inteligência artificial
Inconsistência de IA deixa comunidades vulneráveis a discurso de ódio (Imagem: LariBat/Shutterstock)

O post IA falha na moderação de discurso de ódio online, mostra estudo apareceu primeiro em Olhar Digital.

Rolar para cima