terça-feira, 13 de novembro de 2018

O que é uma informação confiável?


Introdução

Em tempos de Fake News e Big Data, nada melhor que seguir o conselho de René Descartes: não acreditar em tudo o que se recebe como informação.

Com o crescente uso de tecnologias de informação e comunicação, cada um pode criar informação ou disseminar. É a era do Prosumidor: as pessoas querem consumir mas também produzir informações. Isto está gerando o fenômeno conhecido como Big Data, caracterizado por 3 Vs: grande volume de dados, alta velocidade na geração e na transmissão de informações e muita variedade de informações (imagens, sons, textos, gráficos, planilhas, etc). Mais 2 Vs foram acrescentados recentemente ao Big Data: valor e veracidade.

Há alguns anos venho estudando formas de avaliar a qualidade de informações na Internet. Com base nestes meus estudos, apresento neste texto algumas dicas e técnicas para avaliar se uma informação é verdadeira ou não, com o objetivo de iniciar uma discussão sobre o assunto.

Dividimos o processo de análise da informação pelos seguintes quesitos:
a) analisar a informação em si, sua forma de apresentação, suas subdivisões em unidades básicas de informações, o estilo linguístico;
b) analisar o autor e a fonte da informação (de onde vem, quem disseminou, onde foi publicada);
c) analisar a repercussão, incluindo quem avaliou a informação, e o rastreamento da origem (por onde passou).

Já adianto que o texto é mais uma discussão do que uma fórmula pronta para verificar a veracidade de uma informação. A seção de comentários está aberta para críticas e complementos.

Análise da informação e suas partes

Uma das maneiras de confirmar uma informação é verificando a veracidade de suas unidades (o método conhecido como analítico, também proposto por Descartes e outros). Por exemplo, se alguém diz “que Fulano construiu um hospital enquanto era prefeito da cidade X”, temos que verificar:
a)      Fulano foi mesmo prefeito na cidade X ?
b)      Foi ele que construiu o hospital ?
c)      Foi no período em que ele era prefeito ?

Algumas verdades básicas podem ser assumidas como premissas para não se precisar provar tudo. Se formos céticos com tudo, seremos chatos e ineficientes. Se vamos calcular a área de um quadrado, sabemos que a fórmula é o tamanho do lado multiplicado por ele mesmo. Não é necessário verificar esta fórmula, pois já foi provada anteriormente.

É preciso também lembrar que quanto mais detalhes forem dados na informação, menor será a probabilidade de ser verdade. Por exemplo, se alguém disser que “haverá um terremoto na cidade X no dia 23 de novembro de 2020 às 9 horas”, os seguintes fatos devem acontecer:
a)      Terremoto na cidade X
b)      Terremoto no referido dia
c)      Terremoto às 9 horas
E tudo isto deve ocorrer junto (é uma conjunção).

Entretanto, a falta de informação ou informações incompletas aceleram a disseminação dos boatos. Allport e Postman concluíram que a intensidade (ou força) de um boato é diretamente proporcional à importância do tema e à ambiguidade de evidência ou certeza. O rumor se espalha porque serve para (a) explicar e (b) liberar tensões emocionais sentidas pelos indivíduos, pois   funcionam bem para explicar eventos ou situações (ganham força por causa disto).

ALLPORT, Gordon W.; POSTMAN, Leo J. The basic psychology of rumor. Transactions of the New York Academy of Sciences, series II, 1945, p.61-81.
ALLPORT, Gordon W.; POSTMAN, Leo. The Psychology of Rumor. Henry Holt and Company, 1947.


A validação de uma informação pode utilizar estatísticas anteriores para dar maior credibilidade. No exemplo acima, se a cidade X fica no Japão, a probabilidade de um terremoto é maior do que se a cidade ficasse no Brasil.

Para toda regra há exceções. São chamados “cisnes negros” por Taleb (“A Lógica do Cisne Negro”). Por isto, é importante verificar exageros tais como: sempre, nunca, todos, nenhum, dados muito grandes (ex. “milhões de pessoas fizeram tal coisa”).

Temos que ter cuidado também com uso da lógica. Um erro comum é este:
Vermelhos apoiam o candidato X
Fulano apoia o candidato X
Fulano é vermelho

Para maiores detalhes sobre a construção de conhecimento com uso de raciocínio lógico, ver http://miningtext.blogspot.com/2015/05/de-onde-vem-o-conhecimento-inteligencia.html

Segundo experimentos de Skinner em laboratório (citado por Michael Shermer no livro “Por que  as pessoas acreditam em coisas estranhas”), a mente humana procura relações entre eventos e com frequência as encontra, mesmo quando elas não estão presentes. Shermer complementa: “Pessoas inteligentes acreditam em coisas estranhas porque são competentes para defender crenças que elas acabaram adotando por razões não inteligentes.”

Há também o viés da confirmação, explicado por Mlodinow (“O andar do bêbado: como o acaso determina nossas vidas”): “Se os detalhes que recebemos se adequarem à imagem mental que temos de alguma coisa, então, quanto maior o número de detalhes numa situação, mais real ela parecerá.”

Uma maneira eficiente de confirmar uma informação é fazendo uma prova ou refazendo a situação. É como funciona o método científico. E isto já era usado pelos primeiros cientistas da Idade Média. Eles observavam um fenômeno, construíam uma teoria e depois faziam novos experimentos ou observações para tentar validar a teoria.

Entretanto, um aviso de Ian Stewart (“Será que Deus joga dados? A nova matemática do Caos”): “nunca se pode ter certeza de que uma teoria é absolutamente correta, ainda que ela resista a um milhão de testes experimentais; pois – quem sabe? – poderá fracassar no milionésimo primeiro.”

Portanto, um modelo ou teoria talvez só funcione em algumas situações ou condições. E pode haver uma temporalidade. Até quando o modelo vai durar? O peru acredita que a família gosta dele pois lhe dá alimento e cuida de sua saúde. Mas isto só dura até o Dia de Ação de Graças.

Thomas Kuhn (“A estrutura das revoluções científicas”) discute como as verdades científicas foram sendo alteradas ao longo do tempo e quão difícil é aceitar as novas verdades. Ver http://miningtext.blogspot.com/2017/10/quebra-de-paradigmas.html

Assim, talvez não possamos dizer que uma informação é verdadeira. O que devemos dizer é: há uma probabilidade X de que esta informação seja verdadeira. Conforme Descartes nos lembra: “quando não está em nosso poder o distinguir as opiniões mais verdadeiras, devemos seguir as mais prováveis”.

Análise do estilo linguístico

Como já dito antes, textos com muitos detalhes tornam a informação mais improvável. Mas como fica difícil verificar cada detalhe, muitas vezes o leitor acredita na informação só porque o emissor se deu ao trabalho de colocar os detalhes. Um texto criado de maneira muito fácil pode ser indício de fraude.

Então uma forma de avaliar a probabilidade de uma informação ser verdadeira ou não é analisando o texto em si. Textos muito simples, sem detalhes ou fáceis de criar são suspeitos.

Isto não significa que textos bem elaborados e com muitos detalhes sejam verdadeiros. Leia sobre a arte da retórica. Mas detalhes como “quem disse quando onde para quem” facilitam a verificação da informação e dão maior credibilidade pois, se alguns detalhes forem verdadeiros, é possível que todos os detalhes também o sejam.

Um aplicativo desenvolvido pela USP de São Carlos analisa as características de um texto para comparar com padrões de textos considerados Fake News.

Análise do autor do texto ou originário da informação

Se o autor do texto divulgando uma informação for alguém renomado, com vários artigos ou livros, com boas críticas, com prêmios, ou seja, com boa reputação, então é mais provável que a informação que ele divulgue seja verdadeira.

Mas como hoje em dia há tantos textos livres publicados em páginas de redes sociais (LinkedIn, Facebook, Twitter, etc) ou blogs por pessoas pouco conhecidas, fica difícil avaliar a reputação do autor. Então um indicador pode ser o número de seguidores. Entretanto, hoje em dia muitos blogueiros ou influenciadores digitais usam artimanhas para conseguir mais seguidores. E muitas pessoas seguem outros sem critérios.

O melhor seria verificar a qualidade e veracidade de textos anteriores já publicados pelo mesmo autor e aí ir formando uma reputação (que pode ser um índice numérico). A qualidade do autor pode ser medida pela qualidade e repercussão de seus artigos.

O uso de indicadores como “like” no Facebook e Youtube nas publicações podem ajudar a formar a reputação do autor dessas publicações. Entretanto, nada garante que as pessoas que fizeram este tipo de avaliação possuem competência para tal. Mas é a tal da sabedoria das massas.

Atualmente, muitos usam a chamada sabedoria das massas/multidões (wisdom of crowds) para chegar a soluções ou respostas a questões. A argumentação é que a média dos saberes estaria mais correta que o saber de uma pessoa (mesmo sendo um especialista). Pois quando um erra para mais, outro erra para menos e no total ou na média, a informação estaria mais correta. Isto funciona bem em alguns casos como descrito por Surowiecki no livro homônimo. Por outro lado, há também a burrice ou tolice das massas. Ver http://miningtext.blogspot.com/2013/07/sabedoria-das-massas-e-inteligencia.html

Outra forma de avaliar o autor é pelo seu currículo. Michael Shermer (“Por que as pessoas acreditam em coisas estranhas: pseudociência, superstição e outras confusões dos nossos tempos”) traz uma definição para pessoas inteligentes. São aquelas que possuem graus acadêmicos, cargos universitários (especialmente em instituições reconhecidas e de prestígio), publicações que são revistas por pares. Por outro lado, o mesmo autor adverte: embora “a expertise seja útil para separar o joio do trigo, é perigosa, pois podemos: 1) aceitar uma ideia errada só porque está sendo apoiada por alguém que respeitamos (falso positivo) ou 2) rejeitar uma ideia correta só porque é apoiada por alguém que não respeitamos (falso negativo).”

O índice h é um indicador numérico para reputação de cientistas.

Se o autor cita outros autores, como fontes de partes da informação, isto pode ser bom ou ruim. Bom porque as fontes citadas podem já ser conhecidas do leitor e isto simplifica a análise da veracidade das partes. Além disto, citar ou referenciar autores conhecidos ou com boa reputação demonstra que o autor está usando premissas verdadeiras. Por outro lado, uma coleção de partes de informação com origens bem diferentes aumenta o trabalho do leitor para validar cada parte (tendo que ir nas fontes citadas).

Análise da fonte ou veículo da publicação

John Dominic Crossan utilizou, no livro “Jesus Histórico”, uma metodologia para saber que fatos eram verdadeiros sobre Jesus. A teoria é que, se uma informação aparece em duas ou mais fontes independentes, então a informação seria verdadeira, porque seria muita coincidência que o mesmo fato fosse “criado” por duas fontes. Então ele analisou primeiro que fontes eram dependentes de que fontes (quem tinha lido ou se baseado em quem), e depois analisou os eventos descritos em fontes independentes.

Podemos usar a mesma metodologia para confirmação de informações. Se a informação aparece em mais de uma fonte e estas fontes não estão conectadas (uma não se baseia na outra), então podemos confirmar a informação. De novo, temos aí a sabedoria das massas.

O Google utiliza um método baseado na sabedoria das massas para montar o ranking de páginas nos resultados de cada busca. Filtros antispam também usam a indicação de várias pessoas para saber o que é spam. E tem funcionado bem.

Mas também é possível que cada pessoa monte a reputação de cada fonte, avaliando o histórico de publicações ou viés ideológico. Uma boa maneira de explicitar o viés seria cada veículo (por exemplo, da imprensa) fazer editoriais expondo suas posições para cada assunto.

Ou então podemos utilizar um esquema coletivo de reputação, como por exemplo para revistas científicas, o índice de impacto (baseado nas citações dos artigos publicados).

O problema da reputação da fonte é que o índice pode mudar com o tempo. Então teria que ser atualizado constantemente. Se a fonte é confiável, não dá para confiar sempre. Da mesma forma, o viés ideológico pode mudar também. Principalmente quando há patrocinadores externos ou quando diretores, editores ou donos mudam.

Jornais e sites de notícias

Em geral, veículos de comunicação mais conhecidos são tidos como mais confiáveis. Os menores são mais desprezados e as pessoas desconfiam mais destes. Em parte, isto acontece porque são os jornalistas que trabalham no veículo que acabam gerando a fama. Mas há também jornalistas independentes que são confiáveis.

Na minha opinião, não existe mídia imparcial porque as pessoas são parciais. Por mais que um autor ou jornalista tente mostrar todos os lados possíveis, há uma tendência em apresentar argumentos que lhe soam melhor (e esconder ou não dar tanta ênfase aos argumentos que parecem menos confiáveis pelos editores).

Qual o viés político ou social de um veículo de comunicação? Cada veículo deveria divulgar explicitamente seu viés ou dar orientações dele através de editoriais para assuntos específicos. Isto permitiria aos leitores entenderem que tipo de ênfase será dada. Isto não necessariamente afasta leitores, pois alguns que forem contrários à tendência do veículo vão querer lê-lo para saber o que está pensando o outro lado.

O melhor então seria cada um formar uma reputação sobre cada veículo e comparar com a reputação formado coletivamente.

Livros

Hoje em dia qualquer um pode publicar um livro impresso ou e-book com ISBN. Então, um livro com ISBN não significa um livro de qualidade. Um indicador pode ser a editora do livro, se é renomada ou experiente. Mas mesmo boas editoras podem deixar livros bons de fora e publicar coisas ruins.

Também não vejo problemas em livros publicados de forma independente. Meus livros são todos independentes mas possuem ISBN. O que irá dizer se o livro tem qualidade ou não são os números de vendas e as críticas ao livro. De novo, a reputação do autor é um indicador importante.

Artigos de congressos e periódicos especializados

Dizem que, se um artigo foi publicado num periódico ou em anais científicos, ele já é de qualidade. Mentira. Já foram feitos estudos provando que artigos ruins (mesmo alguns criados aleatoriamente por robôs) já foram aceitos para publicação. E mesmo congressos e periódicos de qualidade podem deixar bons artigos de fora ou aceitar alguns não tão bons.

O melhor é avaliar a qualidade da fonte (congresso ou periódico), qual entidade é a organizadora ou editora, quem são os membros do comitê avaliador ou editorial. Isto aumenta a probabilidade de a fonte ser de qualidade e consequentemente seus artigos também.

Para avaliar o veículo (congresso ou periódico), podemos usar indicadores como índice de impacto, que avalia as citações em artigos publicados no veículo e dá uma ideia de qualidade do veículo (se os artigos publicados ali são muito citados, o veículo faz uma boa seleção e portanto tem maior qualidade).

Também podemos avaliar os autores, por indicadores como o h-index (o Scholar do Google apresenta este indicador). Mas há problemas. Há muitas autocitações que são contadas e não deveriam. Há também grupos que se combinam de citar um os artigos do outro, inflacionando artificialmente o indicador.

Blogs e postagens

Hoje em dia é muito fácil criar um blog ou uma página na web ou em redes sociais e publicar textos. Por um lado, democratiza a informação, dá chances a entidades ou pessoas menos conhecidas ou com poucos recursos. Mas também aumenta as chances de aparecer mais bobagem. 

O número de seguidores não é um bom indicador, porque muitos destes meios conseguem seguidores através de campanhas persuasivas e não espontaneamente. Assim também, o número de citações pode ser inflado artificialmente.

A qualidade de um texto publicado livremente pode ser medida pela qualidade do autor (já discutida antes). E a qualidade do autor pode ser medida pela repercussão de seus artigos (como já dito antes). oje


Wikipédia

Como funciona a Wikipédia? Qualquer pessoa pode incluir um novo verbete ou editar (incluir, alterar, excluir) informações em verbetes já existentes. Editores humanos (geralmente, voluntários) analisam as alterações. Então, apesar de qualquer pessoa poder contribuir com informações, há revisão, e portanto há um certo controle de qualidade.

Em verbetes mais conhecidos, a revisão é maior, porque mais pessoas leem e dão sugestões. Nos temas menos conhecidos, provavelmente há menos revisões e há mais chances de erros. Portanto, a Wikipédia é boa para encontrar definições bem aceitas na comunidade em geral. Como ela não é um veículo de publicações científicas, provavelmente as informações que constam na Wikipédia foram tiradas de outras fontes. Então a Wikipédia funciona bem com um “hub”, ou seja, um índice para outras fontes de informações.

Um artigo publicado na Nature fez a comparação da Wikipédia com a Enciclopédia Britânica
Jim Giles  (“Internet encyclopedias go head to head”) na revista Nature (n.438, v.7070, dezembro de 2005, p.900–901).

A diferença entre artigos científicos e a Wikipédia é que os primeiros são revisados por pares, ou seja, pessoas do mesmo ramo ou assunto do artigo e com nível de qualificação semelhante do autor do artigo, enquanto que as revisões na Wikipédia são feitas por pessoas selecionadas pela Wikipédia.

Podemos concluir que a Wikipédia é boa para assuntos mais populares e geram informações mais genéricas ou gerais, enquanto que artigos científicos são mais específicos e aprofundados. Daí então que citar a Wikipédia para uma definição mais usual não é problema. Agora, uma questão mais técnica provavelmente só será tratada de forma superficial pela Wikipédia. Se quiser mais profundidade, procure artigos científicos.

Análise da repercussão ou rastreamento de origem

Uma das formas de avaliar uma informação é avaliando quem a compartilhou ou a repassou adiante (pessoa ou veículo de comunicação) e não a fonte ou origem da informação. Se tais intermediários tiverem a fama (construída como uma reputação) de compartilhar informações duvidosas, então é mais provável que a informação em questão também não seja confiável.

Entretanto, a repetição ou redundância da mesma informação acaba reforçando sua confiabilidade. Há uma frase atribuída a Joseph Goebbels, ministro da propaganda de Hitler: “uma mentira contada mil vezes se torna uma verdade”. Então, se recebemos a mesma informação por vários canais, mesmo ela não sendo verdade, acabamos acreditando mais nela.

Tversky e Kahnemann estudaram os vieses que influenciam a análise de dados e a tomada de decisão. Nossas percepções e avalições presentes são influenciadas por dados históricos. Mas nem sempre conseguimos recuperar todos os dados. Alguns ficam mais evidentes que outros. Além disto, costumamos usar classificações e modelos que balizam nosso pensamento, mesmo quando tais padrões não são exatamente o que temos no momento. O cérebro humano faz ajustes e utiliza uma lógica difusa e até mesmo confusa para fazer avaliações. Muitas vezes usamos o sistema rápido de decisão, conforme bem descrito por Kahneman no seu livro “Rápido e Devagar”.

Além disto, ainda há o viés da conformidade. Isto acontece porque costumamos dar maior ênfase aos argumentos que reforçam nossas crenças. Argumentos contrários são muito mais difíceis de serem aceitos.

Ecker, Lewandowky e parceiros alertam também que, mesmo a tentativa de corrigir uma informação acaba reforçando a informação original, mesmo ela sendo errada, simplesmente porque ela está sendo repetida, aumentando a familiaridade e reforçando-a.

ECKER, Ullrich; LEWANDOWSKY, Stephan; SWIRE, Briony; CHANG, Darren. Correcting false information in memory: Manipulating the strength of misinformation encoding and its retraction.
LEWANDOWSKY, Stephan; ECKER Ullrich K. H.; SEIFERT, Colleen M.; SCHWARZ, Norbert; COOK, John. Misinformation and Its Correction: Continued Influence and Successful Debiasing.

Quem avaliou a informação

Outra forma de avaliar a veracidade da informação é analisar as críticas à informação (positivas ou negativas).

Primeiro, podemos avaliar quem aprovou ou endossou a informação. Depois, quem desaprovou ou contestou. Sabendo da reputação ou viés de cada pessoa ou veículo que se manifestou (a favor ou contra), podemos ter uma ideia do viés da informação e também da probabilidade de ser verdadeira ou não.

Podemos também avaliar se a informação beneficia ou denigre algum grupo. Conforme o conceito de Justiça de Michael Sandel, a informação é justa se não beneficia ou denigre nenhum lado. Se a informação contém argumentos pró e contra cada afirmativa, se contém afirmações que ajudam os vários lados envolvidos, se contém afirmações contrárias a cada argumento positivo, se apresentam diferentes pontos de vista, então a informação é menos provável de ter sido manipulada. E poderia ser considerada imparcial.

Desafios

Não há uma fórmula matemática ou software que possa avaliar a veracidade de uma informação. A avaliação humana ainda é a decisão final. Mas podemos ter ferramentas que nos ajudem neste processo.

Primeiro, precisamos definir indicadores quantitativos ou mensuráveis. Depois, seria bom ter uma fórmula probabilística para combinar estes indicadores e resultar num número matemático que indicasse a probabilidade de a informação ser verdadeira ou não.

Seria útil também ter diferentes tipos de software para automatizar a coleta de informações, para analisar textos, imagens e vídeos, para analisar pessoas e veículos envolvidos, para rastrear históricos, para comparar informações semelhantes, para montar um histórico de fatos e unidades de informação, para então medir ou calcular o grau de veracidade (dado em probabilidade).

E mais, se pudéssemos registrar todas as informações veiculadas publicamente, poderíamos anos mais tarde avaliar se uma informação foi alterada posteriormente. Seia como o site Web Archive (web.archive.org), que tenta registrar todos os sites da web e suas modificações.


terça-feira, 6 de novembro de 2018

Informação é poder - o capital atual


“Capital” é tudo que dá vantagem de uns sobre outros.
Quando os humanos eram nômades, o capital era a força, o fogo e as armas.
Com o advento da agricultura, o capital passou a ser a terra. Que tinha terra, podia produzir, ter comida, excedentes para troca. E isto durou toda a idade média, inclusive com guerras por terras.
Depois, o capital passou a ser quem tinha dinheiro para fazer comércio ou para emprestar (os bancos).
Com a revolução industrial, o capital passou a ser a posse de máquinas (bens de produção).
Atualmente, o capital é a informação e o conhecimento.
Tudo isto é bem explicado no livro “A 3ª Onda” de Alvin Toffler (da década de 80).

A informação e o conhecimento são importantes para: gerar inovações, reduzir custos, aumentar receitas, conquistar clientes, obter vantagens competitivas no mercado. Isto é bom para empresas.

Mas engana-se quem acha que a informação é o novo capital só por isto. Informação é poder. Mas como meio de manipulação. O assunto da moda é Fake News.

Ortega y Gasset (“A rebelião das massas”) escreveu sobre o homem-massa, o “maria vai com as outras”. E como este homem-massa é utilizado como massa de manobra para rebeliões.

George Orwell (“1984”) descreveu a importância de manipular informações, mas não só sobre o presente. A grande artimanha era recontar a história de maneira a obter vantagens.

Mario Vargas Llosa (“A Civilização do espetáculo”) descreve a decadência da cultura pelo mau gosto da maioria. E como pessoas comuns acabam seguindo a massa sem se dar conta.  

Surowiecki escreveu sobre “A sabedoria das massas/multidões”. Mas há também a burrice ou tolice das massas. Nem sempre, a voz do povo é a voz de Deus.

Malcolm Gladwell (“O ponto da virada”) fala da importância dos eleitos para difundir informações. Entre eles incluem-se: os que possuem muitas conexões sociais (entre estes, os influenciadores digitais), os especialistas em assuntos e aqueles que conseguem usar de persuasão sobre outros.

Somos prosumidores de informação. Consumimos e produzimos informações. E também difundimos o que os outros produzem. O meio é a mensagem (McLuhan). Dominar os meios de comunicação é tão importante hoje em dia quanto ter dinheiro. Se bem que, um puxa o outro.