Introdução
Em tempos de Fake News e Big Data, nada melhor que seguir o
conselho de René Descartes: não acreditar em tudo o que se recebe como
informação.
Com o crescente uso de tecnologias de informação e
comunicação, cada um pode criar informação ou disseminar. É a era do Prosumidor:
as pessoas querem consumir mas também produzir informações. Isto está gerando o
fenômeno conhecido como Big Data, caracterizado por 3 Vs: grande volume de
dados, alta velocidade na geração e na transmissão de informações e muita variedade
de informações (imagens, sons, textos, gráficos, planilhas, etc). Mais 2 Vs
foram acrescentados recentemente ao Big Data: valor e veracidade.
Há alguns anos venho estudando formas de avaliar a qualidade
de informações na Internet. Com base nestes meus estudos, apresento neste texto
algumas dicas e técnicas para avaliar se uma informação é verdadeira ou não,
com o objetivo de iniciar uma discussão sobre o assunto.
Dividimos o processo de análise da informação pelos
seguintes quesitos:
a) analisar a informação em si, sua forma de apresentação,
suas subdivisões em unidades básicas de informações, o estilo linguístico;
b) analisar o autor e a fonte da informação (de onde vem,
quem disseminou, onde foi publicada);
c) analisar a repercussão, incluindo quem avaliou a
informação, e o rastreamento da origem (por onde passou).
Já adianto que o texto é mais uma discussão do que uma
fórmula pronta para verificar a veracidade de uma informação. A seção de
comentários está aberta para críticas e complementos.
Análise da informação e suas partes
Uma das maneiras de confirmar uma informação é verificando a
veracidade de suas unidades (o método conhecido como analítico, também proposto
por Descartes e outros). Por exemplo, se alguém diz “que Fulano construiu um
hospital enquanto era prefeito da cidade X”, temos que verificar:
a)
Fulano foi mesmo prefeito na cidade X ?
b)
Foi ele que construiu o hospital ?
c)
Foi no período em que ele era prefeito ?
Algumas verdades básicas podem ser assumidas como premissas
para não se precisar provar tudo. Se formos céticos com tudo, seremos chatos e
ineficientes. Se vamos calcular a área de um quadrado, sabemos que a fórmula é
o tamanho do lado multiplicado por ele mesmo. Não é necessário verificar esta
fórmula, pois já foi provada anteriormente.
É preciso também lembrar que quanto mais detalhes forem
dados na informação, menor será a probabilidade de ser verdade. Por exemplo, se
alguém disser que “haverá um terremoto na cidade X no dia 23 de novembro de
2020 às 9 horas”, os seguintes fatos devem acontecer:
a)
Terremoto na cidade X
b)
Terremoto no referido dia
c)
Terremoto às 9 horas
E tudo isto deve ocorrer junto (é uma conjunção).
Entretanto, a falta de informação ou informações incompletas
aceleram a disseminação dos boatos. Allport e Postman concluíram que a
intensidade (ou força) de um boato é diretamente proporcional à importância do
tema e à ambiguidade de evidência ou certeza. O rumor se espalha porque serve
para (a) explicar e (b) liberar tensões emocionais sentidas pelos indivíduos, pois
funcionam bem para explicar eventos ou
situações (ganham força por causa disto).
ALLPORT,
Gordon W.; POSTMAN, Leo J. The basic psychology of rumor. Transactions of the
New York Academy of Sciences, series II, 1945, p.61-81.
ALLPORT,
Gordon W.; POSTMAN, Leo. The Psychology of Rumor. Henry Holt and Company, 1947.
A validação de uma informação pode utilizar estatísticas
anteriores para dar maior credibilidade. No exemplo acima, se a cidade X fica
no Japão, a probabilidade de um terremoto é maior do que se a cidade ficasse no
Brasil.
Para toda regra há exceções. São chamados “cisnes negros”
por Taleb (“A Lógica do Cisne Negro”). Por isto, é importante verificar
exageros tais como: sempre, nunca, todos, nenhum, dados muito grandes (ex.
“milhões de pessoas fizeram tal coisa”).
Temos que ter cuidado também com uso da lógica. Um erro
comum é este:
Vermelhos apoiam o candidato X
Fulano apoia o candidato X
Fulano é vermelho
Para maiores detalhes sobre a construção de conhecimento com
uso de raciocínio lógico, ver http://miningtext.blogspot.com/2015/05/de-onde-vem-o-conhecimento-inteligencia.html
Segundo experimentos de Skinner em laboratório (citado por
Michael Shermer no livro “Por que as
pessoas acreditam em coisas estranhas”), a mente humana procura relações entre
eventos e com frequência as encontra, mesmo quando elas não estão presentes. Shermer
complementa: “Pessoas inteligentes acreditam em coisas estranhas porque são
competentes para defender crenças que elas acabaram adotando por razões não
inteligentes.”
Há também o viés da confirmação, explicado por Mlodinow (“O
andar do bêbado: como o acaso determina nossas vidas”): “Se os detalhes que
recebemos se adequarem à imagem mental que temos de alguma coisa, então, quanto
maior o número de detalhes numa situação, mais real ela parecerá.”
Uma maneira eficiente de confirmar uma informação é fazendo
uma prova ou refazendo a situação. É como funciona o método científico. E isto
já era usado pelos primeiros cientistas da Idade Média. Eles observavam um
fenômeno, construíam uma teoria e depois faziam novos experimentos ou
observações para tentar validar a teoria.
Entretanto, um aviso de Ian Stewart (“Será que Deus joga
dados? A nova matemática do Caos”): “nunca se pode ter certeza de que uma
teoria é absolutamente correta, ainda que ela resista a um milhão de testes
experimentais; pois – quem sabe? – poderá fracassar no milionésimo primeiro.”
Portanto, um modelo ou teoria talvez só funcione em algumas
situações ou condições. E pode haver uma temporalidade. Até quando o modelo vai
durar? O peru acredita que a família gosta dele pois lhe dá alimento e cuida de
sua saúde. Mas isto só dura até o Dia de Ação de Graças.
Thomas Kuhn (“A estrutura das revoluções científicas”)
discute como as verdades científicas foram sendo alteradas ao longo do tempo e
quão difícil é aceitar as novas verdades. Ver http://miningtext.blogspot.com/2017/10/quebra-de-paradigmas.html
Assim, talvez não possamos dizer que uma informação é
verdadeira. O que devemos dizer é: há uma probabilidade X de que esta
informação seja verdadeira. Conforme Descartes nos lembra: “quando não está em
nosso poder o distinguir as opiniões mais verdadeiras, devemos seguir as mais
prováveis”.
Análise do estilo linguístico
Como já dito antes, textos com muitos detalhes tornam a
informação mais improvável. Mas como fica difícil verificar cada detalhe,
muitas vezes o leitor acredita na informação só porque o emissor se deu ao
trabalho de colocar os detalhes. Um texto criado de maneira muito fácil pode
ser indício de fraude.
Então uma forma de avaliar a probabilidade de uma informação
ser verdadeira ou não é analisando o texto em si. Textos muito simples, sem
detalhes ou fáceis de criar são suspeitos.
Isto não significa que textos bem elaborados e com muitos
detalhes sejam verdadeiros. Leia sobre a arte da retórica. Mas detalhes como “quem
disse quando onde para quem” facilitam a verificação da informação e dão maior
credibilidade pois, se alguns detalhes forem verdadeiros, é possível que todos
os detalhes também o sejam.
Um aplicativo desenvolvido pela USP de São Carlos analisa as
características de um texto para comparar com padrões de textos considerados
Fake News.
Análise do autor do texto ou originário da
informação
Se o autor do texto divulgando uma informação for alguém renomado,
com vários artigos ou livros, com boas críticas, com prêmios, ou seja, com boa
reputação, então é mais provável que a informação que ele divulgue seja
verdadeira.
Mas como hoje em dia há tantos textos livres publicados em
páginas de redes sociais (LinkedIn, Facebook, Twitter, etc) ou blogs por
pessoas pouco conhecidas, fica difícil avaliar a reputação do autor. Então um
indicador pode ser o número de seguidores. Entretanto, hoje em dia muitos
blogueiros ou influenciadores digitais usam artimanhas para conseguir mais
seguidores. E muitas pessoas seguem outros sem critérios.
O melhor seria verificar a qualidade e veracidade de textos
anteriores já publicados pelo mesmo autor e aí ir formando uma reputação (que
pode ser um índice numérico). A qualidade do autor pode ser medida pela
qualidade e repercussão de seus artigos.
O uso de indicadores como “like” no Facebook e Youtube nas
publicações podem ajudar a formar a reputação do autor dessas publicações.
Entretanto, nada garante que as pessoas que fizeram este tipo de avaliação
possuem competência para tal. Mas é a tal da sabedoria das massas.
Atualmente, muitos usam a chamada sabedoria das
massas/multidões (wisdom of crowds) para chegar a soluções ou respostas a
questões. A argumentação é que a média dos saberes estaria mais correta que o
saber de uma pessoa (mesmo sendo um especialista). Pois quando um erra para
mais, outro erra para menos e no total ou na média, a informação estaria mais
correta. Isto funciona bem em alguns casos como descrito por Surowiecki no
livro homônimo. Por outro lado, há também a burrice ou tolice das massas. Ver http://miningtext.blogspot.com/2013/07/sabedoria-das-massas-e-inteligencia.html
Outra forma de avaliar o autor é pelo seu currículo. Michael
Shermer (“Por que as pessoas acreditam em coisas estranhas: pseudociência,
superstição e outras confusões dos nossos tempos”) traz uma definição para
pessoas inteligentes. São aquelas que possuem graus acadêmicos, cargos
universitários (especialmente em instituições reconhecidas e de prestígio),
publicações que são revistas por pares. Por outro lado, o mesmo autor adverte:
embora “a expertise seja útil para separar o joio do trigo, é perigosa, pois
podemos: 1) aceitar uma ideia errada só porque está sendo apoiada por alguém
que respeitamos (falso positivo) ou 2) rejeitar uma ideia correta só porque é
apoiada por alguém que não respeitamos (falso negativo).”
O índice h é um indicador numérico para reputação de
cientistas.
Se o autor cita outros autores, como fontes de partes da
informação, isto pode ser bom ou ruim. Bom porque as fontes citadas podem já
ser conhecidas do leitor e isto simplifica a análise da veracidade das partes. Além
disto, citar ou referenciar autores conhecidos ou com boa reputação demonstra
que o autor está usando premissas verdadeiras. Por outro lado, uma coleção de
partes de informação com origens bem diferentes aumenta o trabalho do leitor
para validar cada parte (tendo que ir nas fontes citadas).
Análise da fonte ou veículo da publicação
John Dominic Crossan utilizou, no livro “Jesus Histórico”,
uma metodologia para saber que fatos eram verdadeiros sobre Jesus. A teoria é
que, se uma informação aparece em duas ou mais fontes independentes, então a
informação seria verdadeira, porque seria muita coincidência que o mesmo fato
fosse “criado” por duas fontes. Então ele analisou primeiro que fontes eram
dependentes de que fontes (quem tinha lido ou se baseado em quem), e depois
analisou os eventos descritos em fontes independentes.
Podemos usar a mesma metodologia para confirmação de
informações. Se a informação aparece em mais de uma fonte e estas fontes não
estão conectadas (uma não se baseia na outra), então podemos confirmar a
informação. De novo, temos aí a sabedoria das massas.
O Google utiliza um método baseado na sabedoria das massas
para montar o ranking de páginas nos resultados de cada busca. Filtros antispam
também usam a indicação de várias pessoas para saber o que é spam. E tem
funcionado bem.
Mas também é possível que cada pessoa monte a reputação de
cada fonte, avaliando o histórico de publicações ou viés ideológico. Uma boa
maneira de explicitar o viés seria cada veículo (por exemplo, da imprensa)
fazer editoriais expondo suas posições para cada assunto.
Ou então podemos utilizar um esquema coletivo de reputação,
como por exemplo para revistas científicas, o índice de impacto (baseado nas
citações dos artigos publicados).
O problema da reputação da fonte é que o índice pode mudar
com o tempo. Então teria que ser atualizado constantemente. Se a fonte é
confiável, não dá para confiar sempre. Da mesma forma, o viés ideológico pode
mudar também. Principalmente quando há patrocinadores externos ou quando
diretores, editores ou donos mudam.
Jornais e sites de notícias
Em geral, veículos de comunicação mais conhecidos são tidos
como mais confiáveis. Os menores são mais desprezados e as pessoas desconfiam
mais destes. Em parte, isto acontece porque são os jornalistas que trabalham no
veículo que acabam gerando a fama. Mas há também jornalistas independentes que
são confiáveis.
Na minha opinião, não existe mídia imparcial porque as
pessoas são parciais. Por mais que um autor ou jornalista tente mostrar todos
os lados possíveis, há uma tendência em apresentar argumentos que lhe soam
melhor (e esconder ou não dar tanta ênfase aos argumentos que parecem menos
confiáveis pelos editores).
Qual o viés político ou social de um veículo de comunicação?
Cada veículo deveria divulgar explicitamente seu viés ou dar orientações dele através
de editoriais para assuntos específicos. Isto permitiria aos leitores
entenderem que tipo de ênfase será dada. Isto não necessariamente afasta
leitores, pois alguns que forem contrários à tendência do veículo vão querer
lê-lo para saber o que está pensando o outro lado.
O melhor então seria cada um formar uma reputação sobre cada
veículo e comparar com a reputação formado coletivamente.
Livros
Hoje em dia qualquer um pode publicar um livro impresso ou
e-book com ISBN. Então, um livro com ISBN não significa um livro de qualidade. Um
indicador pode ser a editora do livro, se é renomada ou experiente. Mas mesmo
boas editoras podem deixar livros bons de fora e publicar coisas ruins.
Também não vejo problemas em livros publicados de forma
independente. Meus livros são todos independentes mas possuem ISBN. O que irá
dizer se o livro tem qualidade ou não são os números de vendas e as críticas ao
livro. De novo, a reputação do autor é um indicador importante.
Artigos de congressos e periódicos especializados
Dizem que, se um artigo foi publicado num periódico ou em anais
científicos, ele já é de qualidade. Mentira. Já foram feitos estudos provando
que artigos ruins (mesmo alguns criados aleatoriamente por robôs) já foram
aceitos para publicação. E mesmo congressos e periódicos de qualidade podem
deixar bons artigos de fora ou aceitar alguns não tão bons.
O melhor é avaliar a qualidade da fonte (congresso ou
periódico), qual entidade é a organizadora ou editora, quem são os membros do
comitê avaliador ou editorial. Isto aumenta a probabilidade de a fonte ser de
qualidade e consequentemente seus artigos também.
Para avaliar o veículo (congresso ou periódico), podemos
usar indicadores como índice de impacto, que avalia as citações em artigos
publicados no veículo e dá uma ideia de qualidade do veículo (se os artigos
publicados ali são muito citados, o veículo faz uma boa seleção e portanto tem
maior qualidade).
Também podemos avaliar os autores, por indicadores como o
h-index (o Scholar do Google apresenta este indicador). Mas há problemas. Há
muitas autocitações que são contadas e não deveriam. Há também grupos que se
combinam de citar um os artigos do outro, inflacionando artificialmente o
indicador.
Blogs e postagens
Hoje em dia é muito fácil criar um blog ou uma página na web
ou em redes sociais e publicar textos. Por um lado, democratiza a informação,
dá chances a entidades ou pessoas menos conhecidas ou com poucos recursos. Mas
também aumenta as chances de aparecer mais bobagem.
O número de seguidores não é um bom indicador, porque muitos
destes meios conseguem seguidores através de campanhas persuasivas e não
espontaneamente. Assim também, o número de citações pode ser inflado
artificialmente.
A qualidade de um texto publicado livremente pode ser medida
pela qualidade do autor (já discutida antes). E a qualidade do autor pode ser
medida pela repercussão de seus artigos (como já dito antes).
Wikipédia
Como funciona a Wikipédia? Qualquer pessoa pode incluir um
novo verbete ou editar (incluir, alterar, excluir) informações em verbetes já
existentes. Editores humanos (geralmente, voluntários) analisam as alterações.
Então, apesar de qualquer pessoa poder contribuir com informações, há revisão,
e portanto há um certo controle de qualidade.
Em verbetes mais conhecidos, a revisão é maior, porque mais
pessoas leem e dão sugestões. Nos temas menos conhecidos, provavelmente há
menos revisões e há mais chances de erros. Portanto, a Wikipédia é boa para
encontrar definições bem aceitas na comunidade em geral. Como ela não é um
veículo de publicações científicas, provavelmente as informações que constam na
Wikipédia foram tiradas de outras fontes. Então a Wikipédia funciona bem com um
“hub”, ou seja, um índice para outras fontes de informações.
Um artigo publicado na Nature fez a comparação da Wikipédia
com a Enciclopédia Britânica
Jim Giles (“Internet
encyclopedias go head to head”) na revista Nature (n.438, v.7070, dezembro de 2005,
p.900–901).
A diferença entre artigos científicos e a Wikipédia é que os
primeiros são revisados por pares, ou seja, pessoas do mesmo ramo ou assunto do
artigo e com nível de qualificação semelhante do autor do artigo, enquanto que
as revisões na Wikipédia são feitas por pessoas selecionadas pela Wikipédia.
Podemos concluir que a Wikipédia é boa para assuntos mais
populares e geram informações mais genéricas ou gerais, enquanto que artigos
científicos são mais específicos e aprofundados. Daí então que citar a
Wikipédia para uma definição mais usual não é problema. Agora, uma questão mais
técnica provavelmente só será tratada de forma superficial pela Wikipédia. Se
quiser mais profundidade, procure artigos científicos.
Análise da repercussão ou rastreamento de origem
Uma das formas de avaliar uma informação é avaliando quem a compartilhou
ou a repassou adiante (pessoa ou veículo de comunicação) e não a fonte ou
origem da informação. Se tais intermediários tiverem a fama (construída como
uma reputação) de compartilhar informações duvidosas, então é mais provável que
a informação em questão também não seja confiável.
Entretanto, a repetição ou redundância da mesma informação
acaba reforçando sua confiabilidade. Há uma frase atribuída a Joseph Goebbels,
ministro da propaganda de Hitler: “uma mentira contada mil vezes se torna uma
verdade”. Então, se recebemos a mesma informação por vários canais, mesmo ela
não sendo verdade, acabamos acreditando mais nela.
Tversky e Kahnemann estudaram os vieses que influenciam a
análise de dados e a tomada de decisão. Nossas percepções e avalições presentes
são influenciadas por dados históricos. Mas nem sempre conseguimos recuperar
todos os dados. Alguns ficam mais evidentes que outros. Além disto, costumamos
usar classificações e modelos que balizam nosso pensamento, mesmo quando tais
padrões não são exatamente o que temos no momento. O cérebro humano faz ajustes
e utiliza uma lógica difusa e até mesmo confusa para fazer avaliações. Muitas
vezes usamos o sistema rápido de decisão, conforme bem descrito por Kahneman no
seu livro “Rápido e Devagar”.
Além disto, ainda há o viés da conformidade. Isto acontece
porque costumamos dar maior ênfase aos argumentos que reforçam nossas crenças.
Argumentos contrários são muito mais difíceis de serem aceitos.
Ecker, Lewandowky e parceiros alertam também que, mesmo a
tentativa de corrigir uma informação acaba reforçando a informação original,
mesmo ela sendo errada, simplesmente porque ela está sendo repetida, aumentando
a familiaridade e reforçando-a.
ECKER,
Ullrich; LEWANDOWSKY, Stephan; SWIRE, Briony; CHANG, Darren. Correcting false
information in memory: Manipulating the strength of misinformation encoding and
its retraction.
LEWANDOWSKY,
Stephan; ECKER Ullrich K. H.; SEIFERT, Colleen M.; SCHWARZ, Norbert; COOK,
John. Misinformation and Its Correction: Continued Influence and Successful
Debiasing.
Quem
avaliou a informação
Outra forma de avaliar a veracidade da informação é analisar
as críticas à informação (positivas ou negativas).
Primeiro, podemos avaliar quem aprovou ou endossou a
informação. Depois, quem desaprovou ou contestou. Sabendo da reputação ou viés
de cada pessoa ou veículo que se manifestou (a favor ou contra), podemos ter
uma ideia do viés da informação e também da probabilidade de ser verdadeira ou
não.
Podemos também avaliar se a informação beneficia ou denigre
algum grupo. Conforme o conceito de Justiça de Michael Sandel, a informação é
justa se não beneficia ou denigre nenhum lado. Se a informação contém
argumentos pró e contra cada afirmativa, se contém afirmações que ajudam os
vários lados envolvidos, se contém afirmações contrárias a cada argumento
positivo, se apresentam diferentes pontos de vista, então a informação é menos
provável de ter sido manipulada. E poderia ser considerada imparcial.
Desafios
Não há uma fórmula matemática ou software que possa avaliar
a veracidade de uma informação. A avaliação humana ainda é a decisão final. Mas
podemos ter ferramentas que nos ajudem neste processo.
Primeiro, precisamos definir indicadores quantitativos ou
mensuráveis. Depois, seria bom ter uma fórmula probabilística para combinar estes
indicadores e resultar num número matemático que indicasse a probabilidade de a
informação ser verdadeira ou não.
Seria útil também ter diferentes tipos de software para automatizar
a coleta de informações, para analisar textos, imagens e vídeos, para analisar
pessoas e veículos envolvidos, para rastrear históricos, para comparar
informações semelhantes, para montar um histórico de fatos e unidades de
informação, para então medir ou calcular o grau de veracidade (dado em
probabilidade).
E mais, se pudéssemos registrar todas as informações
veiculadas publicamente, poderíamos anos mais tarde avaliar se uma informação
foi alterada posteriormente. Seia como o site Web Archive (web.archive.org), que tenta registrar
todos os sites da web e suas modificações.