Estudo da USP São Carlos propõe sistemas de IA transparentes para detecção de discurso de ódio e fake news
Métodos desenvolvidos contrastam com os modelos ‘caixas-pretas’ recentemente banidos por Mark Zuckerberg, CEO da Meta
Imagine uma ferramenta que, em poucos segundos, analisa comentários suspeitos na internet e revela se eles são falsos ou promovem discurso de ódio, explicando o motivo da classificação. Esse foi o objetivo que inspirou Francielle Alves Vargas a desenvolver sua tese, intitulada Socially Responsible and Explainable Automated Fact-Checking and Hate Speech Detection, defendida em novembro de 2024 no Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos.
A pesquisadora conta que suas próprias experiências com discriminação, sendo uma mulher em uma área majoritariamente masculina, despertaram não apenas interesse científico, mas também motivação para usar seu conhecimento como ferramenta de transformação social. “Minha intenção foi contribuir de alguma forma para mitigar esse problema, criando soluções que pudessem identificar e combater o discurso de ódio. Trabalhar com isso, é de alguma forma, proteger grupos vulneráveis e construir um ambiente online mais seguro e justo”, defende.
Apesar de eficientes em identificar fake news e discursos de ódio, os sistema atuais de verificação de fatos carecem de transparência pois não revelam os critérios usados para as classificações. Essa falta de transparência, característica de modelos baseados em inteligência artificial (IA) e que funcionam como “caixas-pretas”, podendo propagar diferentes tipos de vieses, levou Mark Zuckerberg, fundador do Facebook, a suspender o sistema de checagem da Meta em janeiro deste ano, decisão amplamente criticada pela imprensa.
A resolução para este entrave – necessidade de verificação x falta de imparcialidade das checagens, seria justamente a adoção de métodos transparentes e eficazes tal como propõe Francielle em sua tese. A pesquisadora criou 3 modelos que classificam e explicam por que uma notícia ou comentário foi classificado como falso ou ofensivo, ajudando o público a entender o processo de decisão, além de mitigar os riscos desses modelos estarem enviesados e reforçarem ou propagarem problemas sociais
Fake News e discurso de ódio – Para desenvolver sistemas de verificação de fatos e detecção de discurso de ódio, é essencial dispor de grandes conjuntos de dados organizados e rotulados, ou seja, bases que indiquem claramente quais conteúdos são factuais, enviesados (que apresentam alguma parcialidade ou opinião) ou falsos (compostos por informações inverídicas ou manipuladas). Até então, essas bases existiam principalmente em inglês, o que dificultava a adaptação de modelos para o contexto brasileiro.
“Criar uma base de dados é algo custoso, demorado e exige conhecimento especializado”, explica Francielle.
Apesar do desafio, a pesquisadora não se intimidou e contou com o apoio de duas colegas doutoras na área de Ciência de Dados e IA: Isabelle Carvalho e Fabiana Góes. Juntas, elas rotularam manualmente 7 mil comentários do Instagram ao longo de seis meses, resultando no HateBR: primeiro banco de dados brasileiro voltado exclusivamente para a detecção de discurso de ódio.
Para reduzir o risco de viés de classificação — que ocorre quando as interpretações ou preferências pessoais dos anotadores influenciam os resultados —, Francielle adotou uma estratégia de diversidade. Ela selecionou pesquisadoras com perfis variados, incluindo mulheres brancas e negras, provenientes das regiões Norte e Sudeste do Brasil, e com diferentes orientações políticas. Essa abordagem garantiu uma análise mais equilibrada e representativa, minimizando possíveis influências subjetivas nas anotações dos dados.
Para construir o FactNews, Francielle selecionou notícias dos mesmos assuntos e do mesmo dia publicadas por três veículos de mídia amplamente reconhecidos no Brasil — Folha de São Paulo, Estadão e O Globo. No total, foram coletadas 300 notícias, sendo 100 de cada veículo, que foram classificadas frase a frase, com base na factualidade, ou seja, se condizem com fatos reais e se estes eram parciais ou imparciais (sem interpretações ou julgamentos). Se a frase fosse objetiva, ela era classificada como conteúdo factualmente correto.
Caso fosse parcial, ela passava para uma segunda classificação, baseada no modelo da AllSides, empresa americana que avalia o viés político de agências de notícias. Entre as 12 categorias de viés da notícia, se destacam alegações infundadas, distorção da informação e sensacionalismo.
“Essa categorização foi crucial porque lidamos com estratégias sofisticadas de desinformação, que são elaboradas para manipular a percepção das pessoas”.
Como exemplo desse tipo de sensacionalismo, Francielle cita a frase de uma notícia, que apesar de conter elementos factuais, traz uma linguagem alarmista e faz apelo ao medo: “Se esses políticos concorrerem no Rio de Janeiro em novembro, vai ser um banho de sangue”.
Francielle também aplicou métodos estatísticos para calcular a pontuação de concordância entre as classificações das três pesquisadoras. Essa abordagem garantiu que as análises fossem consistentes e minimamente subjetivas, aumentando a confiabilidade dos dados.
Raízes do Discurso de Ódio – Francielle também mergulhou nos aspectos sociais e emocionais da desinformação e do discurso de ódio. Durante três meses como pesquisadora visitante na Universidade do Sul da Califórnia, em 2024, ela se aprofundou nas origens desse tipo de comportamento.
Segundo a pesquisadora, conteúdo odioso pode ser dividido em duas categorias principais:
Discurso Ofensivo: Motivado por frustrações cotidianas, que não é direcionado ou motivado contra um alvo, como alguém que acorda de mau humor e desconta suas emoções em tudo e todos.
Discurso de Ódio – direcionado a um alvo baseado na sua identidade social: Esse tipo de discurso é mais profundo e perigoso, pois é um ódio baseado na identidade social da vítima, como gênero, raça, ou orientação sexual. Esse tipo de discurso também é o que desencadeia os crimes de ódio. Exemplos incluem frases como “Eu odeio mulheres” ou “eu odeio imigrantes” ou “eu odeio pessoas da esquerda/direita”.
A pesquisadora relata que um especialista e pesquisador da Universidade do Sul da Califórnia explicou que essas formas de ódio têm raízes antropológicas e históricas. “Há crenças enraizadas na sociedade que geram ameaças percebidas. Por exemplo, quando um homem vê uma mulher em uma posição de poder, ele pode sentir que sua própria posição está ameaçada. Esse tipo de crença, fruto de um histórico de desigualdades, alimenta o discurso de ódio contra determinados grupos”, contextualiza.
Soluções inovadoras – Após desenvolver uma base de dados robusta, Francielle criou três novos métodos explicáveis para verificação de fatos e detecção de discurso de ódio:
Sentence-Level Factual Reasoning (SELFAR): método baseado em grandes modelos de linguagem (também conhecidas por LLMs (Large Language Models, em inglês) que classifica a confiabilidade e a factualidade de artigos de notícias ou postagem na web no nível da sentença, gerando explicações para as classificações. Por exemplo, na postulação “Vacina causa autismo”, além de classificar como conteúdo falso, o método explica que a ideia é baseada em um estudo fraudulento de 1998 liderado por Andrew Wakefield que sugeriu uma ligação entre a vacina tríplice viral (sarampo, caxumba e rubéola) e autismo. Além disso, o método também atribui uma nota de credibilidade para cada sentença e explica porque determinada sentença foi classificada como imparcial ou enviesada. “Isso torna a ferramenta transparente, ética e educativa, que além de mitigar os
riscos de propagarem viés, também permite ao usuário entender como as decisões foram tomadas”, reforça a pesquisadora. Nos experimentos, Francielle demonstrou que notícias não confiáveis são compostas principalmente de palavras subjetivas, em contraste com as confiáveis.
Social Stereotype Analysis (SSA): ferramenta que detecta estereótipos em classificadores de IA, comparando frases com e sem viés social. Ela descreve estereótipos como estruturas cognitivas que contêm o conhecimento, crenças e expectativas do observador sobre grupos humanos, podendo desencadear viés social positivo ou negativo, dependendo da identidade social envolvida. Além disso, são apresentados exemplos que contrastam estereótipos e contra-estereótipos para evidenciar vieses nos classificadores de discurso de ódio, como “Mulheres são sempre sensíveis demais” (estereótipo) versus “Homens são sempre sensíveis demais” (contra-estereótipo)
Bag-of-Words Contextualizado com Feature Saliency (B+M): este método combina abordagem tradicional, que contabiliza a frequência das palavras em um texto, com a análise contextual, que considera o significado das palavras no contexto em que estão inseridas. O objetivo é identificar as palavras mais relevantes para a classificação de um texto, como discurso de ódio ou fake news. A diferença em relação aos métodos tradicionais está na inclusão da análise de saliência, que atribui pesos às palavras com base em sua importância no contexto específico, em vez de apenas contar sua ocorrência. Exemplo de funcionamento: Em uma frase como “Mulheres são inferiores e burras”, o método tradicional simplesmente identificaria as palavras “mulheres”, “inferiores” e “burras” como frequentes. No entanto, o B+M destacaria que as palavras “inferiores” e “burras” têm um peso maior no contexto, por ser crucial para entender o viés discriminatório da frase. Isso permite que o modelo identifique com mais precisão e livre de vieses, padrões de discurso ofensivo ou discriminatório. Dessa forma, esses métodos conseguem classificar cada comentário e explicar o porquê ele foi classificado como ofensivo ou discurso de ódio. Isso além de aumentar a transparência do sistema, permite que o usuário entenda as decisões tomadas pelos modelos de aprendizado, mitigando os riscos deles estarem enviesados ou reforçarem em escala estereótipos prejudiciais normativos sociais, explica a pesquisadora.
Além dos três métodos, a pesquisadora também criou o Brasil#SemÓdio, um sistema web que se utiliza de conhecimento estatístico e de especialistas para classificar comentários ofensivos em três níveis diferentes: levemente, moderadamente e altamente ofensivo. Através de um site simples e de fácil utilização, é possível classificar um ou vários comentários em redes sociais ao mesmo tempo. “Basta acessar a página, incluir um comentário no local indicado e dar enter. A ferramenta fará a classificação, que pode ser: ‘não ofensivo’ ou ‘ofensivo’. Os comentários ofensivos são subdivididos em três categorias: ‘altamente ofensivo’, ‘moderadamente ofensivo’ e ‘ligeiramente ofensivo’. Além disso, comentários ofensivos podem ser classificados como discursos de ódio caso estejam direcionados a um grupo com base em sua identidade social, como, por exemplo, pessoas pretas, imigrantes, mulheres, etc”.
Desafios e colaborações – O orientador da pesquisa, professor Thiago Pardo, do ICMC, enfatiza a complexidade e relevância do trabalho. “Detecção de discurso de ódio e checagem de fatos são temas desafiadores. Além das questões técnicas e científicas, há dilemas éticos e legais, como os limites entre censura, liberdade de expressão e crimes”, revela.
Durante o desenvolvimento da pesquisa, Francielle enfrentou desafios comuns a muitas pesquisadoras brasileiras, entre eles o fato de muitas vezes ser a única mulher em sala de aula, e a necessidade de muita organização financeira para que o valor que recebia como bolsa de estudo cobrisse todas as despesas. Esses desafios, dentre outros, apesar de grandes, foram superados com muita persistência e o apoio de sua colega Isabelle Carvalho, e do seu co-orientador, o professor Fabrício Benevenuto, da Universidade Federal de Minas Gerais (UFMG), que trouxe sua expertise nessa área de pesquisa colaborando com o projeto. “Foi, sem dúvida, um trabalho intenso, que exigiu muito esforço, produção de vários artigos, além de insistência e resiliência. Às vezes, encontramos obstáculos, mas o importante é focar em ser ainda mais forte e competente e seguir em frente para avançar”, diz Francielle.
Para Thiago Pardo, os resultados conquistados pela pesquisadora, refletem suas qualidades: “Ela tem uma sensibilidade única para questões sociais e uma força de trabalho impressionante, que garantiu resultados de grande impacto. Esse tipo de pesquisa avança o conhecimento científico e tem aplicações práticas fundamentais, como checagem de fatos em eleições e moderação de discursos de ódio.”
Impacto e sonhos futuros – Francielle conta que a paixão por essa área de pesquisa surgiu logo após concluir sua segunda graduação, em Linguística. Foi nessa época que ela descobriu a área de processamento de linguagem natural (PLN), um subcampo da IA que conecta duas paixões da pesquisadora: computação e linguística. “Sempre gostei de estudar, e cursar Linguística depois de ter me formado em Sistemas da Informação me trouxe uma perspectiva única. De fato, quando temos uma formação multidisciplinar, conseguimos enxergar soluções inovadoras e abordagens distintas que, talvez, não fossem perceptíveis em uma visão mais tradicional. Isso fez toda a diferença”, comenta.
A pesquisadora diz que sonha em ver seu projeto, cujo código está disponível em um servidor experimental da USP, ser disponibilizado em larga escala, ajudando especialmente grupos vulneráveis, como pessoas idosas e com menos acesso à educação. “Meu desejo é que todos os brasileiros possam usar essas ferramentas para checar notícias falsas e entender os mecanismos por trás das decisões dos modelos de IA. A transparência, além de gerar aumento de confiabilidade, também tem um papel educativo, criando uma sociedade mais crítica e consciente”, declara.
Embora ainda necessite de investimento e recursos para ampliar seu alcance, a pesquisa representa um avanço essencial para o uso ético e responsável da IA. “Vivemos dilemas diários com o poder das big techs, a epidemia de desinformação e os discursos de ódio. Trabalhos como o de Francielle são fundamentais para
promover uma sociedade mais justa, transparente e democrática”, conclui o professor Thiago Pardo.
Francielle está no momento organizando, junto com uma professora da USP e um colega da Universidade do Sul da Califórnia, um evento internacional, que acontecerá neste ano na Itália, entre os dias 30 de junho e 5 de julho. O workshop intitulado, Explainable Deep Neural Networks for Responsible AI: Post-Hoc and Self-Explaining Approaches (DeepXplain 2025), visa dar continuidade a sua proposta de doutorado, para garantir a transparência dos modelos de Processamento de Linguagem Natural, sobretudo LLMs, aumentando sua credibilidade, além de garantir que eles sejam socialmente responsáveis.
Texto: Gabriele Maciel, da Fontes Comunicação Científica