terça-feira, 8 de janeiro de 2019

Dados x Intuições


Se não tivermos dados, toda decisão será um jogo de sorte ou azar. Por isto, dados e estatísticas são muito importantes. Por exemplo, no Brasil, o técnico de vôlei Bernardinho e sua equipe têm conseguido grandes resultados para o time nacional de vôlei usando estatísticas. Eles monitoram tudo o que é feito por cada jogador do time do Brasil e também dos adversários. Registram todos os tipos de jogadas, se resultaram em fracasso ou sucesso, como estava a posição dos jogadores, e com isto extraem relatórios de que jogadores estão melhor e quais estão com pior desempenho. Então, quando um brasileiro for "sacar", eles analisam em tempo real as estatísticas e verificam para que adversário deve ser direcionado o saque e de que forma (tipo de saque). E isto é feito para outras estratégias além do saque.

Michael Lewis (2004), no livro Moneyball (que virou filme com Brad Pitt), faz uma grande discussão sobre esta dicotomia entre usar ou não estatísticas. Ele discorre sobre o caso real do Oakland Athletics, time de baseball americano, para expor seus argumentos. A questão toda se desenrola na diferença entre olheiros humanos e sistemas estatísticos para fazer previsões sobre jovens jogadores. Cada time escolhe os jogadores mais promissores no início da temporada. A grande maioria dos clubes utiliza, até hoje, os olheiros (scouts).

Dados são melhores para apoiar decisões porque evitam o “achômetro” ou “achismo”. Carl Sagan (“O mundo assombrado por demônios”) e Shermer (2011) criticam o crescente uso de pseudociências no lugar da Ciência e do método científico.
(Ver a reportagem “Einstein e Newton estavam errados: estimulada por políticos nacionalistas, 'pseudociência' avança na Índia” https://www.bbc.com/portuguese/geral-46780542)

A falta de dados e de métodos científicos pode levar a grandes erros (ver reportagem sobre jornalista contrária a vacinas que morreu de H1N1 https://noticias.bol.uol.com.br/ultimas-noticias/entretenimento/2019/01/05/apresentadora-que-fazia-campanha-contra-vacina-morre-de-gripe-suina-nos-estados-unidos.htm).

Isto não significa que intuições e sentimentos não possam se usados no processo de decisão. Segundo Sinclair e Ashkanasy (2005), intuição é um modo não sequencial de processamento de informações que combina elementos cognitivos e afetivos e resulta em conhecimento direto sem uso de raciocínio consciente. Intuição é diferente de heurísticas, que são estratégias racionais de pouco esforço (segundo Tversky e Kahnemann).

Intuição é um palpite, mas não uma adivinhação. Ela é usada numa decisão sem muita explicação de onde veio, se ela está certa ou não ou por que devemos utilizá-la. É como saber algo sem saber explicar como. O ser humano possui uma certa capacidade para tomar decisões rápidas com pouca informação. A intuição não deve ser confundida com caminho mais fácil (preguiça). Ela deve ser usada quando a racionalidade está limitada. Ela deve ser precedida por dados.

Gunther (2013) acredita que usamos dados do inconsciente, que foram colhidos e armazenados antes, mas que não temos consciência de quando os estamos usando. É como reconhecer um amigo na rua ou a voz de alguém no telefone. Não tem explicação, mas a gente faz e na maioria das vezes não erra. Gunther cita Alfred P. Sloan, ex-executivo da GM: "o ato final da decisão é intuitivo". Isto porque é uma escolha entre alternativas. Ninguém sabe qual a melhor alternativa ou se uma delas vai dar certo ou não. Se soubéssemos, não seria decisão e sim "bola de cristal".

Entretanto, o próprio Gunther (2013) recomenda não confiar na primeira impressão, e sugere que coletemos muitos dados. Kahneman também concorda: é um grande risco tomar decisões usando a área preguiçosa e irracional do cérebro.

Por exemplo, grandes negócios são fechados somente após o encontro presencial entre as partes. Os homens de negócios dizem que é importante "olhar nos olhos". Isto também serve para contratações para empregos. Gladwell (2005), no livro “Blink – a decisão num piscar de olhos”, conta diversos casos onde especialistas tomam decisões baseados em intuições e não conseguem explicar como tomaram as decisões (corretas).

A intuição inclusive já evitou uma guerra nuclear. O militar russo Petrov avaliou intuitivamente os dados que tinha e combinou com avaliações anteriores sobre falhas no sistema, concluindo que não devia apertar o botão para enviar mísseis.

Ayres (2008) compara decisões tomadas com estatística x intuitivas. A conclusão de seus estudos é que números são melhores como base para análise, mas a intuição é importante para levantar possibilidades. O ideal é tomar decisão sobre fatos e dados confirmados.

Mas a intuição ajuda a identificar hipóteses e criar alternativas, além de ser útil para avaliar quais variáveis influenciam o processo e também para entender e interpretar os resultados estatísticos. Segundo Silver (2013), meteorologistas melhoram em 25% as previsões de precipitações feitas por computador e em 10% as da temperatura. Neste caso, as informações visuais são melhores interpretadas por seres humanos do que pelo computador. É por isto que

Por outro lado, avaliadores humanos muitas vezes erram porque se preocupam mais com aparências. Então os sistemas baseados em estatísticas podem ser melhores pois não são influenciados por ruídos e variáveis que não implicam em resultados e conseguem se adaptar melhor a pequenas variações nos parâmetros. Por outro lado, humanos vão melhor em alguns casos porque usam uma abordagem híbrida, com uma quantidade maior de informações do que a oferecida apenas pelas estatísticas. E ainda acumulam informações com o passar do tempo (não são sistemas estáticos). Um bom especialista humano também consegue informações privilegiadas, que a maioria não pode obter (por exemplo, no baseball, dados sobre a situação social e familiar do jogador). Se o investidor de bolsa de valores utilizar somente as informações públicas, a que todos têm acesso, não terá nenhuma vantagem. Os investidores precisam encontrar detalhes de informações que os outros não possuem.

Uma boa ideia então é combinar dados estatísticos com intuição, e não somente usar um ou outro. Onde a intuição não é detalhista, os dados podem nos ajudar a lembrar detalhes. Onde a estatística não é completa, a observação humana pode completar uma análise. Não há nada que garanta o resultado, seja utilizando dados estatísticos ou intuições. Mas é melhor para uma decisão ter mais dados (sejam confirmados ou não) e um bom especialista humano para analisar os dados.

quarta-feira, 26 de dezembro de 2018

Como tomar decisões?


Imagine-se numa encruzilhada tendo que escolher qual caminho seguir (e não poder ficar parado).
Como você toma esta decisão?




Intuição

Se você não tiver dados sobre os caminhos possíveis, pode usar a intuição ou “voz interior”. A superstição também ajuda, porque você pelo menos não ficará parado.

Heurísticas

Heurística é uma regra R que funcionou bem para resolver um problema P. Então uma regra R2 (semelhante mas não necessariamente igual a R) poderá resolver um problema P2 (semelhante a P).
Isto significa resgatar as suas experiências anteriores, comparar problemas e soluções. Talvez seja necessário adaptar uma solução anterior (criar uma nova).
Funciona também como analogia. Por exemplo, em situações semelhantes anteriores, qual caminho você escolheu ? Como julgou ou comparou as alternativas disponíveis?

Observação e imitação

Fique observando o comportamento dos outros. Que caminhos escolhem ?
Você pode seguir a maioria (sabedoria das massas ou multidões).
Mas seria bom tentar entender por que alguns tomam um caminho e outros escolhem outro. Que variáveis associam uma pessoa a uma escolha ?

Experimentação

Você pode experimentar um dos caminhos e, se não gostar ou não der certo, voltar e tentar o outro. Isso é tentativa e erro. Há um custo (ir e voltar). E talvez você não possa voltar. Então, nem sempre se pode usar esta técnica.

Simulação

Com os dados que você coletou sobre a situação toda, construa um modelo teórico e o avalie teoricamente.
Com este modelo, simule o que aconteceria se você escolhesse cada um dos caminhos possíveis (“E se eu fosse por aqui ... o que poderia acontecer?”).
Pense de forma sistêmica, ou seja, procure entender tudo o que está envolvido. Por exemplo, o que há em cada caminho e também o que há envolta de cada caminho.

Análise estatística

Se você tiver dados históricos sobre como os caminhos já foram percorridos e os resultados obtidos, faça correlações entre variáveis e o resultado final.
Você precisará amostras significativas para não deturpar a análise.

Previsão

Se tiver histórico e um modelo, poderá tentar prever o que pode acontecer no final de cada caminho.
Avalie custos e benefícios de cada opção.
Pode usar uma matriz com multicritérios ponderados, para compara numericamente cada opção.

Combinação de técnicas

Intuição e heurísticas podem ajudar a descobrir que variáveis devem ser analisadas pela análise estatística (ou que dados coletar).
Observação pode ajudar a montar modelos e fazer simulações.
A análise estatística dá base para as previsões.
A experimentação pode ajudar a coletar dados iniciais.


segunda-feira, 17 de dezembro de 2018

Evolução dos sistemas de recomendação


Sistemas de recomendação têm por objetivo indicar as melhores opções ou alternativas mais adequadas em uma determinada situação, utilizando técnicas estatísticas, sabedoria das massas, raciocínio lógico, análise de histórico, formação de perfis, tudo isto para predição do futuro, ou seja, o que é melhor para cada pessoa.

A grande vantagem é diminuir a sobrecarga de informações. Quando a gente tem muitas opções e não tem condições de comparar todas, os sistemas de recomendação entram em ação.

A divisão a seguir em etapas foi criada por mim com base na minha experiência e nas leituras que tenho feito ao longo de minha carreira.

Recomendação 1.0

Baseada na associação de palavras.
O exemplo representativo são os resultados orgânicos e os links patrocinados nos mecanismos de busca (no Google, são as técnicas Ad Words e Ad Sense).
A ideia é apresentar uma ou poucas sugestões dependendo das palavras utilizadas pelo usuário. Assim, se alguém coloca “cadeira para escritório” numa busca no Google, o Google apresenta as páginas (URLs) que pagaram para aparecer no topo para estas palavras (links patrocinados) ou páginas que possuem melhor pontuação nos critérios para os resultados orgânicos (ver técnicas de SEO – Search Engine Optimization).
No Gmail, isto também funciona. Basta analisar os termos utilizados nos e-mails enviados ou recebidos. No Facebook, são os termos que aparecem nas postagens. No Youtube, são os termos dos títulos e resumos. Hashtags também podem ser utilizadas.
Uma variação da técnica é incorporar sinônimos e stemming (redução de palavras a radicais) para ampliar as opções e melhor entender o contexto.

Vantagens: técnica fácil de ser implementada.
Desvantagens: a lógica ou fundamento da recomendação está na associação ou nos critérios que especialistas humanos criam ou definem.

Recomendação 2.0

Baseada em estatísticas sobre dados que vêm da sabedoria das massas e da média do comportamento das pessoas.
Incluem técnicas como Top N (mais vendidos, mais lidos, mais visitados, etc.) e vendas cruzadas (“quem comprou isto, também comprou aquilo”).

Vantagens: a complexidade de implementação é média. As associações vêm de Data Mining. O cálculo da média precisa de uma amostra razoável para ser confiável. Não precisa de conhecimento prévio da pessoa que irá receber a recomendação.
Desvantagens: exibe o mesmo resultado para todos.  

Recomendação 3.0

Baseada na personalização, ou seja, coleta e analisa o perfil ou histórico das pessoas.
Estas técnicas levam em consideração o que as pessoas fizeram ou estão fazendo. Desta forma, o resultado é individual, ou seja, diferente para cada pessoa.
Por exemplo, ao fazer uma pesquisa na Internet usando o termo “Madonna”, alguns receberão resultados sobre a artista, outros sobre uma Universidade e outros sobre Nossa Senhora.
A técnica mais conhecida é a “baseada em conteúdo” (content-based). A ideia é classificar usuários de acordo com suas ações, o que refletiriam seus gostos ou interesses. Os itens (produtos, sites, livros, restaurantes, etc.) também devem ser classificados usando o mesmo esquema de classes. Depois basta cruzar classes de itens com as classes que mais aparecem no perfil de cada usuário (matching), montando um ranking por pontuação.
Os perfis podem ser dinâmicos, incluindo uma pontuação para cada classe, a qual pode aumentar ou diminuir com o tempo e com as ações.

Vantagens: cada pessoa recebe sugestões específicas sobre seu interesse, mesmo que duas pessoas usem os mesmos termos de busca.
Desvantagens: cria estereótipos; por exemplo, se alguém só escuta músicas de Jazz, só receberá recomendações desta categoria.

Recomendação 4.0

Baseada na filtragem colaborativa.
Esta técnica foi criada pelo grupo de pesquisa dos  americanos Joe Konstan e John Riedl (in memorian). Usaram o site Movielens, sobre filmes, para fazer os testes.
A ideia é comparar pessoas, seja por seus atributos ou por seu histórico de ações. As recomendações seriam feitas de forma cruzada. Assim, se a pessoa A é semelhante à pessoa B, seus gostos também devem ser semelhantes. Então os itens associados a A (por exemplo, produtos adquiridos) são recomendados a B, e vice versa.
Uma variação é incorporar também as avaliações (ratings), onde cada usuário informa se gostou ou não do item associado ao seu perfil.

Vantagens: permite gerar recomendações fora do perfil do usuário, sem que seja spam ou aleatórias.
Desvantagens: precisa de informações prévias (montar o perfil de cada usuário); não leva em conta o que cada pessoa realmente precisa ou quer.

Recomendação 5.0

Baseada na predição de intenção ou desejo.
A ideia é descobrir a intenção ou necessidade da pessoa, ou seja, tentar prever o futuro (o que ela quer ou deseja).
Pode ser feita pela análise de contexto de palavras ou da sequência de ações da pessoa. Deve utilizar modelos de predição.

Um exemplo: duas pessoas conversando por chat.

P1: Ontem eu vi um show antigo dos Beatles.
Rec1.0 vai recomendar um vídeo qualquer dos Beatles no Youtube.
Rec2.0 recomenda o vídeo dos Beatles no Youtube com mais “likes”.

P2: Legal, esses caras eram bons. Mas eu prefiro rock mais atual, tipo Coldplay.
Rec2.0 recomenda o vídeo mais visto do Coldplay no Youtube.
Rec3.0 recomenda o vídeo mais visto do Colplay no Youtube, que ainda não foi visto por P2 e P1.
Rec4.0 recomenda a P1 vídeos que P2 viu e gostou, e recomenda a P2 vídeos que P1 viu e gostou.
Rec5.0 avisa que Coldplay estará fazendo show perto da cidade deles daqui a 6 meses, e ainda indica os valores de ingressos tipo pista (que eles costumam comprar)

Vantagens: minimiza o esforço mental para usuários terem que pensar, procurar informações e tomar decisões.
Desvantagens: precisa muitas informações para fazer inferências, muitas vezes sendo invasivos demais; os modelos de predição ainda precisam ser aprimorados para não errar demais, senão perderão a confiança do usuário.


terça-feira, 13 de novembro de 2018

O que é uma informação confiável?


Introdução

Em tempos de Fake News e Big Data, nada melhor que seguir o conselho de René Descartes: não acreditar em tudo o que se recebe como informação.

Com o crescente uso de tecnologias de informação e comunicação, cada um pode criar informação ou disseminar. É a era do Prosumidor: as pessoas querem consumir mas também produzir informações. Isto está gerando o fenômeno conhecido como Big Data, caracterizado por 3 Vs: grande volume de dados, alta velocidade na geração e na transmissão de informações e muita variedade de informações (imagens, sons, textos, gráficos, planilhas, etc). Mais 2 Vs foram acrescentados recentemente ao Big Data: valor e veracidade.

Há alguns anos venho estudando formas de avaliar a qualidade de informações na Internet. Com base nestes meus estudos, apresento neste texto algumas dicas e técnicas para avaliar se uma informação é verdadeira ou não, com o objetivo de iniciar uma discussão sobre o assunto.

Dividimos o processo de análise da informação pelos seguintes quesitos:
a) analisar a informação em si, sua forma de apresentação, suas subdivisões em unidades básicas de informações, o estilo linguístico;
b) analisar o autor e a fonte da informação (de onde vem, quem disseminou, onde foi publicada);
c) analisar a repercussão, incluindo quem avaliou a informação, e o rastreamento da origem (por onde passou).

Já adianto que o texto é mais uma discussão do que uma fórmula pronta para verificar a veracidade de uma informação. A seção de comentários está aberta para críticas e complementos.

Análise da informação e suas partes

Uma das maneiras de confirmar uma informação é verificando a veracidade de suas unidades (o método conhecido como analítico, também proposto por Descartes e outros). Por exemplo, se alguém diz “que Fulano construiu um hospital enquanto era prefeito da cidade X”, temos que verificar:
a)      Fulano foi mesmo prefeito na cidade X ?
b)      Foi ele que construiu o hospital ?
c)      Foi no período em que ele era prefeito ?

Algumas verdades básicas podem ser assumidas como premissas para não se precisar provar tudo. Se formos céticos com tudo, seremos chatos e ineficientes. Se vamos calcular a área de um quadrado, sabemos que a fórmula é o tamanho do lado multiplicado por ele mesmo. Não é necessário verificar esta fórmula, pois já foi provada anteriormente.

É preciso também lembrar que quanto mais detalhes forem dados na informação, menor será a probabilidade de ser verdade. Por exemplo, se alguém disser que “haverá um terremoto na cidade X no dia 23 de novembro de 2020 às 9 horas”, os seguintes fatos devem acontecer:
a)      Terremoto na cidade X
b)      Terremoto no referido dia
c)      Terremoto às 9 horas
E tudo isto deve ocorrer junto (é uma conjunção).

Entretanto, a falta de informação ou informações incompletas aceleram a disseminação dos boatos. Allport e Postman concluíram que a intensidade (ou força) de um boato é diretamente proporcional à importância do tema e à ambiguidade de evidência ou certeza. O rumor se espalha porque serve para (a) explicar e (b) liberar tensões emocionais sentidas pelos indivíduos, pois   funcionam bem para explicar eventos ou situações (ganham força por causa disto).

ALLPORT, Gordon W.; POSTMAN, Leo J. The basic psychology of rumor. Transactions of the New York Academy of Sciences, series II, 1945, p.61-81.
ALLPORT, Gordon W.; POSTMAN, Leo. The Psychology of Rumor. Henry Holt and Company, 1947.


A validação de uma informação pode utilizar estatísticas anteriores para dar maior credibilidade. No exemplo acima, se a cidade X fica no Japão, a probabilidade de um terremoto é maior do que se a cidade ficasse no Brasil.

Para toda regra há exceções. São chamados “cisnes negros” por Taleb (“A Lógica do Cisne Negro”). Por isto, é importante verificar exageros tais como: sempre, nunca, todos, nenhum, dados muito grandes (ex. “milhões de pessoas fizeram tal coisa”).

Temos que ter cuidado também com uso da lógica. Um erro comum é este:
Vermelhos apoiam o candidato X
Fulano apoia o candidato X
Fulano é vermelho

Para maiores detalhes sobre a construção de conhecimento com uso de raciocínio lógico, ver http://miningtext.blogspot.com/2015/05/de-onde-vem-o-conhecimento-inteligencia.html

Segundo experimentos de Skinner em laboratório (citado por Michael Shermer no livro “Por que  as pessoas acreditam em coisas estranhas”), a mente humana procura relações entre eventos e com frequência as encontra, mesmo quando elas não estão presentes. Shermer complementa: “Pessoas inteligentes acreditam em coisas estranhas porque são competentes para defender crenças que elas acabaram adotando por razões não inteligentes.”

Há também o viés da confirmação, explicado por Mlodinow (“O andar do bêbado: como o acaso determina nossas vidas”): “Se os detalhes que recebemos se adequarem à imagem mental que temos de alguma coisa, então, quanto maior o número de detalhes numa situação, mais real ela parecerá.”

Uma maneira eficiente de confirmar uma informação é fazendo uma prova ou refazendo a situação. É como funciona o método científico. E isto já era usado pelos primeiros cientistas da Idade Média. Eles observavam um fenômeno, construíam uma teoria e depois faziam novos experimentos ou observações para tentar validar a teoria.

Entretanto, um aviso de Ian Stewart (“Será que Deus joga dados? A nova matemática do Caos”): “nunca se pode ter certeza de que uma teoria é absolutamente correta, ainda que ela resista a um milhão de testes experimentais; pois – quem sabe? – poderá fracassar no milionésimo primeiro.”

Portanto, um modelo ou teoria talvez só funcione em algumas situações ou condições. E pode haver uma temporalidade. Até quando o modelo vai durar? O peru acredita que a família gosta dele pois lhe dá alimento e cuida de sua saúde. Mas isto só dura até o Dia de Ação de Graças.

Thomas Kuhn (“A estrutura das revoluções científicas”) discute como as verdades científicas foram sendo alteradas ao longo do tempo e quão difícil é aceitar as novas verdades. Ver http://miningtext.blogspot.com/2017/10/quebra-de-paradigmas.html

Assim, talvez não possamos dizer que uma informação é verdadeira. O que devemos dizer é: há uma probabilidade X de que esta informação seja verdadeira. Conforme Descartes nos lembra: “quando não está em nosso poder o distinguir as opiniões mais verdadeiras, devemos seguir as mais prováveis”.

Análise do estilo linguístico

Como já dito antes, textos com muitos detalhes tornam a informação mais improvável. Mas como fica difícil verificar cada detalhe, muitas vezes o leitor acredita na informação só porque o emissor se deu ao trabalho de colocar os detalhes. Um texto criado de maneira muito fácil pode ser indício de fraude.

Então uma forma de avaliar a probabilidade de uma informação ser verdadeira ou não é analisando o texto em si. Textos muito simples, sem detalhes ou fáceis de criar são suspeitos.

Isto não significa que textos bem elaborados e com muitos detalhes sejam verdadeiros. Leia sobre a arte da retórica. Mas detalhes como “quem disse quando onde para quem” facilitam a verificação da informação e dão maior credibilidade pois, se alguns detalhes forem verdadeiros, é possível que todos os detalhes também o sejam.

Um aplicativo desenvolvido pela USP de São Carlos analisa as características de um texto para comparar com padrões de textos considerados Fake News.

Análise do autor do texto ou originário da informação

Se o autor do texto divulgando uma informação for alguém renomado, com vários artigos ou livros, com boas críticas, com prêmios, ou seja, com boa reputação, então é mais provável que a informação que ele divulgue seja verdadeira.

Mas como hoje em dia há tantos textos livres publicados em páginas de redes sociais (LinkedIn, Facebook, Twitter, etc) ou blogs por pessoas pouco conhecidas, fica difícil avaliar a reputação do autor. Então um indicador pode ser o número de seguidores. Entretanto, hoje em dia muitos blogueiros ou influenciadores digitais usam artimanhas para conseguir mais seguidores. E muitas pessoas seguem outros sem critérios.

O melhor seria verificar a qualidade e veracidade de textos anteriores já publicados pelo mesmo autor e aí ir formando uma reputação (que pode ser um índice numérico). A qualidade do autor pode ser medida pela qualidade e repercussão de seus artigos.

O uso de indicadores como “like” no Facebook e Youtube nas publicações podem ajudar a formar a reputação do autor dessas publicações. Entretanto, nada garante que as pessoas que fizeram este tipo de avaliação possuem competência para tal. Mas é a tal da sabedoria das massas.

Atualmente, muitos usam a chamada sabedoria das massas/multidões (wisdom of crowds) para chegar a soluções ou respostas a questões. A argumentação é que a média dos saberes estaria mais correta que o saber de uma pessoa (mesmo sendo um especialista). Pois quando um erra para mais, outro erra para menos e no total ou na média, a informação estaria mais correta. Isto funciona bem em alguns casos como descrito por Surowiecki no livro homônimo. Por outro lado, há também a burrice ou tolice das massas. Ver http://miningtext.blogspot.com/2013/07/sabedoria-das-massas-e-inteligencia.html

Outra forma de avaliar o autor é pelo seu currículo. Michael Shermer (“Por que as pessoas acreditam em coisas estranhas: pseudociência, superstição e outras confusões dos nossos tempos”) traz uma definição para pessoas inteligentes. São aquelas que possuem graus acadêmicos, cargos universitários (especialmente em instituições reconhecidas e de prestígio), publicações que são revistas por pares. Por outro lado, o mesmo autor adverte: embora “a expertise seja útil para separar o joio do trigo, é perigosa, pois podemos: 1) aceitar uma ideia errada só porque está sendo apoiada por alguém que respeitamos (falso positivo) ou 2) rejeitar uma ideia correta só porque é apoiada por alguém que não respeitamos (falso negativo).”

O índice h é um indicador numérico para reputação de cientistas.

Se o autor cita outros autores, como fontes de partes da informação, isto pode ser bom ou ruim. Bom porque as fontes citadas podem já ser conhecidas do leitor e isto simplifica a análise da veracidade das partes. Além disto, citar ou referenciar autores conhecidos ou com boa reputação demonstra que o autor está usando premissas verdadeiras. Por outro lado, uma coleção de partes de informação com origens bem diferentes aumenta o trabalho do leitor para validar cada parte (tendo que ir nas fontes citadas).

Análise da fonte ou veículo da publicação

John Dominic Crossan utilizou, no livro “Jesus Histórico”, uma metodologia para saber que fatos eram verdadeiros sobre Jesus. A teoria é que, se uma informação aparece em duas ou mais fontes independentes, então a informação seria verdadeira, porque seria muita coincidência que o mesmo fato fosse “criado” por duas fontes. Então ele analisou primeiro que fontes eram dependentes de que fontes (quem tinha lido ou se baseado em quem), e depois analisou os eventos descritos em fontes independentes.

Podemos usar a mesma metodologia para confirmação de informações. Se a informação aparece em mais de uma fonte e estas fontes não estão conectadas (uma não se baseia na outra), então podemos confirmar a informação. De novo, temos aí a sabedoria das massas.

O Google utiliza um método baseado na sabedoria das massas para montar o ranking de páginas nos resultados de cada busca. Filtros antispam também usam a indicação de várias pessoas para saber o que é spam. E tem funcionado bem.

Mas também é possível que cada pessoa monte a reputação de cada fonte, avaliando o histórico de publicações ou viés ideológico. Uma boa maneira de explicitar o viés seria cada veículo (por exemplo, da imprensa) fazer editoriais expondo suas posições para cada assunto.

Ou então podemos utilizar um esquema coletivo de reputação, como por exemplo para revistas científicas, o índice de impacto (baseado nas citações dos artigos publicados).

O problema da reputação da fonte é que o índice pode mudar com o tempo. Então teria que ser atualizado constantemente. Se a fonte é confiável, não dá para confiar sempre. Da mesma forma, o viés ideológico pode mudar também. Principalmente quando há patrocinadores externos ou quando diretores, editores ou donos mudam.

Jornais e sites de notícias

Em geral, veículos de comunicação mais conhecidos são tidos como mais confiáveis. Os menores são mais desprezados e as pessoas desconfiam mais destes. Em parte, isto acontece porque são os jornalistas que trabalham no veículo que acabam gerando a fama. Mas há também jornalistas independentes que são confiáveis.

Na minha opinião, não existe mídia imparcial porque as pessoas são parciais. Por mais que um autor ou jornalista tente mostrar todos os lados possíveis, há uma tendência em apresentar argumentos que lhe soam melhor (e esconder ou não dar tanta ênfase aos argumentos que parecem menos confiáveis pelos editores).

Qual o viés político ou social de um veículo de comunicação? Cada veículo deveria divulgar explicitamente seu viés ou dar orientações dele através de editoriais para assuntos específicos. Isto permitiria aos leitores entenderem que tipo de ênfase será dada. Isto não necessariamente afasta leitores, pois alguns que forem contrários à tendência do veículo vão querer lê-lo para saber o que está pensando o outro lado.

O melhor então seria cada um formar uma reputação sobre cada veículo e comparar com a reputação formado coletivamente.

Livros

Hoje em dia qualquer um pode publicar um livro impresso ou e-book com ISBN. Então, um livro com ISBN não significa um livro de qualidade. Um indicador pode ser a editora do livro, se é renomada ou experiente. Mas mesmo boas editoras podem deixar livros bons de fora e publicar coisas ruins.

Também não vejo problemas em livros publicados de forma independente. Meus livros são todos independentes mas possuem ISBN. O que irá dizer se o livro tem qualidade ou não são os números de vendas e as críticas ao livro. De novo, a reputação do autor é um indicador importante.

Artigos de congressos e periódicos especializados

Dizem que, se um artigo foi publicado num periódico ou em anais científicos, ele já é de qualidade. Mentira. Já foram feitos estudos provando que artigos ruins (mesmo alguns criados aleatoriamente por robôs) já foram aceitos para publicação. E mesmo congressos e periódicos de qualidade podem deixar bons artigos de fora ou aceitar alguns não tão bons.

O melhor é avaliar a qualidade da fonte (congresso ou periódico), qual entidade é a organizadora ou editora, quem são os membros do comitê avaliador ou editorial. Isto aumenta a probabilidade de a fonte ser de qualidade e consequentemente seus artigos também.

Para avaliar o veículo (congresso ou periódico), podemos usar indicadores como índice de impacto, que avalia as citações em artigos publicados no veículo e dá uma ideia de qualidade do veículo (se os artigos publicados ali são muito citados, o veículo faz uma boa seleção e portanto tem maior qualidade).

Também podemos avaliar os autores, por indicadores como o h-index (o Scholar do Google apresenta este indicador). Mas há problemas. Há muitas autocitações que são contadas e não deveriam. Há também grupos que se combinam de citar um os artigos do outro, inflacionando artificialmente o indicador.

Blogs e postagens

Hoje em dia é muito fácil criar um blog ou uma página na web ou em redes sociais e publicar textos. Por um lado, democratiza a informação, dá chances a entidades ou pessoas menos conhecidas ou com poucos recursos. Mas também aumenta as chances de aparecer mais bobagem. 

O número de seguidores não é um bom indicador, porque muitos destes meios conseguem seguidores através de campanhas persuasivas e não espontaneamente. Assim também, o número de citações pode ser inflado artificialmente.

A qualidade de um texto publicado livremente pode ser medida pela qualidade do autor (já discutida antes). E a qualidade do autor pode ser medida pela repercussão de seus artigos (como já dito antes). oje


Wikipédia

Como funciona a Wikipédia? Qualquer pessoa pode incluir um novo verbete ou editar (incluir, alterar, excluir) informações em verbetes já existentes. Editores humanos (geralmente, voluntários) analisam as alterações. Então, apesar de qualquer pessoa poder contribuir com informações, há revisão, e portanto há um certo controle de qualidade.

Em verbetes mais conhecidos, a revisão é maior, porque mais pessoas leem e dão sugestões. Nos temas menos conhecidos, provavelmente há menos revisões e há mais chances de erros. Portanto, a Wikipédia é boa para encontrar definições bem aceitas na comunidade em geral. Como ela não é um veículo de publicações científicas, provavelmente as informações que constam na Wikipédia foram tiradas de outras fontes. Então a Wikipédia funciona bem com um “hub”, ou seja, um índice para outras fontes de informações.

Um artigo publicado na Nature fez a comparação da Wikipédia com a Enciclopédia Britânica
Jim Giles  (“Internet encyclopedias go head to head”) na revista Nature (n.438, v.7070, dezembro de 2005, p.900–901).

A diferença entre artigos científicos e a Wikipédia é que os primeiros são revisados por pares, ou seja, pessoas do mesmo ramo ou assunto do artigo e com nível de qualificação semelhante do autor do artigo, enquanto que as revisões na Wikipédia são feitas por pessoas selecionadas pela Wikipédia.

Podemos concluir que a Wikipédia é boa para assuntos mais populares e geram informações mais genéricas ou gerais, enquanto que artigos científicos são mais específicos e aprofundados. Daí então que citar a Wikipédia para uma definição mais usual não é problema. Agora, uma questão mais técnica provavelmente só será tratada de forma superficial pela Wikipédia. Se quiser mais profundidade, procure artigos científicos.

Análise da repercussão ou rastreamento de origem

Uma das formas de avaliar uma informação é avaliando quem a compartilhou ou a repassou adiante (pessoa ou veículo de comunicação) e não a fonte ou origem da informação. Se tais intermediários tiverem a fama (construída como uma reputação) de compartilhar informações duvidosas, então é mais provável que a informação em questão também não seja confiável.

Entretanto, a repetição ou redundância da mesma informação acaba reforçando sua confiabilidade. Há uma frase atribuída a Joseph Goebbels, ministro da propaganda de Hitler: “uma mentira contada mil vezes se torna uma verdade”. Então, se recebemos a mesma informação por vários canais, mesmo ela não sendo verdade, acabamos acreditando mais nela.

Tversky e Kahnemann estudaram os vieses que influenciam a análise de dados e a tomada de decisão. Nossas percepções e avalições presentes são influenciadas por dados históricos. Mas nem sempre conseguimos recuperar todos os dados. Alguns ficam mais evidentes que outros. Além disto, costumamos usar classificações e modelos que balizam nosso pensamento, mesmo quando tais padrões não são exatamente o que temos no momento. O cérebro humano faz ajustes e utiliza uma lógica difusa e até mesmo confusa para fazer avaliações. Muitas vezes usamos o sistema rápido de decisão, conforme bem descrito por Kahneman no seu livro “Rápido e Devagar”.

Além disto, ainda há o viés da conformidade. Isto acontece porque costumamos dar maior ênfase aos argumentos que reforçam nossas crenças. Argumentos contrários são muito mais difíceis de serem aceitos.

Ecker, Lewandowky e parceiros alertam também que, mesmo a tentativa de corrigir uma informação acaba reforçando a informação original, mesmo ela sendo errada, simplesmente porque ela está sendo repetida, aumentando a familiaridade e reforçando-a.

ECKER, Ullrich; LEWANDOWSKY, Stephan; SWIRE, Briony; CHANG, Darren. Correcting false information in memory: Manipulating the strength of misinformation encoding and its retraction.
LEWANDOWSKY, Stephan; ECKER Ullrich K. H.; SEIFERT, Colleen M.; SCHWARZ, Norbert; COOK, John. Misinformation and Its Correction: Continued Influence and Successful Debiasing.

Quem avaliou a informação

Outra forma de avaliar a veracidade da informação é analisar as críticas à informação (positivas ou negativas).

Primeiro, podemos avaliar quem aprovou ou endossou a informação. Depois, quem desaprovou ou contestou. Sabendo da reputação ou viés de cada pessoa ou veículo que se manifestou (a favor ou contra), podemos ter uma ideia do viés da informação e também da probabilidade de ser verdadeira ou não.

Podemos também avaliar se a informação beneficia ou denigre algum grupo. Conforme o conceito de Justiça de Michael Sandel, a informação é justa se não beneficia ou denigre nenhum lado. Se a informação contém argumentos pró e contra cada afirmativa, se contém afirmações que ajudam os vários lados envolvidos, se contém afirmações contrárias a cada argumento positivo, se apresentam diferentes pontos de vista, então a informação é menos provável de ter sido manipulada. E poderia ser considerada imparcial.

Desafios

Não há uma fórmula matemática ou software que possa avaliar a veracidade de uma informação. A avaliação humana ainda é a decisão final. Mas podemos ter ferramentas que nos ajudem neste processo.

Primeiro, precisamos definir indicadores quantitativos ou mensuráveis. Depois, seria bom ter uma fórmula probabilística para combinar estes indicadores e resultar num número matemático que indicasse a probabilidade de a informação ser verdadeira ou não.

Seria útil também ter diferentes tipos de software para automatizar a coleta de informações, para analisar textos, imagens e vídeos, para analisar pessoas e veículos envolvidos, para rastrear históricos, para comparar informações semelhantes, para montar um histórico de fatos e unidades de informação, para então medir ou calcular o grau de veracidade (dado em probabilidade).

E mais, se pudéssemos registrar todas as informações veiculadas publicamente, poderíamos anos mais tarde avaliar se uma informação foi alterada posteriormente. Seia como o site Web Archive (web.archive.org), que tenta registrar todos os sites da web e suas modificações.


terça-feira, 6 de novembro de 2018

Informação é poder - o capital atual


“Capital” é tudo que dá vantagem de uns sobre outros.
Quando os humanos eram nômades, o capital era a força, o fogo e as armas.
Com o advento da agricultura, o capital passou a ser a terra. Que tinha terra, podia produzir, ter comida, excedentes para troca. E isto durou toda a idade média, inclusive com guerras por terras.
Depois, o capital passou a ser quem tinha dinheiro para fazer comércio ou para emprestar (os bancos).
Com a revolução industrial, o capital passou a ser a posse de máquinas (bens de produção).
Atualmente, o capital é a informação e o conhecimento.
Tudo isto é bem explicado no livro “A 3ª Onda” de Alvin Toffler (da década de 80).

A informação e o conhecimento são importantes para: gerar inovações, reduzir custos, aumentar receitas, conquistar clientes, obter vantagens competitivas no mercado. Isto é bom para empresas.

Mas engana-se quem acha que a informação é o novo capital só por isto. Informação é poder. Mas como meio de manipulação. O assunto da moda é Fake News.

Ortega y Gasset (“A rebelião das massas”) escreveu sobre o homem-massa, o “maria vai com as outras”. E como este homem-massa é utilizado como massa de manobra para rebeliões.

George Orwell (“1984”) descreveu a importância de manipular informações, mas não só sobre o presente. A grande artimanha era recontar a história de maneira a obter vantagens.

Mario Vargas Llosa (“A Civilização do espetáculo”) descreve a decadência da cultura pelo mau gosto da maioria. E como pessoas comuns acabam seguindo a massa sem se dar conta.  

Surowiecki escreveu sobre “A sabedoria das massas/multidões”. Mas há também a burrice ou tolice das massas. Nem sempre, a voz do povo é a voz de Deus.

Malcolm Gladwell (“O ponto da virada”) fala da importância dos eleitos para difundir informações. Entre eles incluem-se: os que possuem muitas conexões sociais (entre estes, os influenciadores digitais), os especialistas em assuntos e aqueles que conseguem usar de persuasão sobre outros.

Somos prosumidores de informação. Consumimos e produzimos informações. E também difundimos o que os outros produzem. O meio é a mensagem (McLuhan). Dominar os meios de comunicação é tão importante hoje em dia quanto ter dinheiro. Se bem que, um puxa o outro.

quarta-feira, 15 de agosto de 2018

Sobre previsões do futuro e análise preditiva


O ser humano desde a pré História está preocupado com o futuro: será que este fruto vai me matar ? e aquele animal grande ali, vai ser meu amigo ou predador ? quando virá o inverno ? Isto é parte da nossa necessidade de sobrevivência e está associado ao nosso cérebro moderno (mais especificamente com o neocórtex). Desenvolvemos métodos primitivos como calendários e cultos religiosos para prever e tentar controlar o futuro.

Atualmente as empresas querem saber se um produto vai ser aceito no mercado, se clientes vão comprar um produto, se uma ação vai mesmo reduzir custos, se uma técnica realmente vai motivar funcionários e o que os concorrentes vão fazer.

Técnicas de Inteligência Artificial e Data Mining estão ajudando pessoas e empresas a fazer previsões. Não se trata de “bola de cristal”, mas sim utilizar dados e um certo tipo de lógica baseada em métodos.

Já vi alguns autores fazendo a distinção entre os termos:
- prever: é antecipar eventos futuros, ou seja, tentar descobrir o que vai acontecer (ex. vai chover amanhã?);
- predizer: é antecipar valores para variáveis, ou seja, estimar um valor preciso para um atributo (ex. quantos milímetros vai chover amanhã?).
Aqui vamos usar como sinônimos: prever, predizer, estimar, antecipar.

Em geral, o método consiste em utilizar um modelo preditivo, que pode ser:
- uma fórmula matemática que relacione variáveis: a partir de parâmetros de entrada (valores para alguns atributos), a função gera valores para outras variáveis (normalmente, uma só); exemplo: previsão climática para estimar temperaturas mínima e máxima);
- um método de análise sequencial: o objetivo é estimar como continuam certas sequências ao longo do tempo; pode ser uma sequência de eventos discretos (ex. páginas por onde um usuário vai passar num site ou produtos que alguém irá comprar ao longo do tempo) ou de valores contínuos geralmente numéricos, (ex. valores de ações, preços de produtos, quantidade de vendas, altura de uma pessoa).

Um dos métodos para encontrar um modelo preditivo é analisar dados históricos e identificar padrões. Exemplo: todo fim de tarde que eu presenciei com céu vermelho antecipou um novo dia ensolarado.
Para isto funcionar, as condições devem ser constantes. O modelo só vai predizer o futuro com precisão se as condições futuras forem as mesmas de quando o modelo foi criado (mesmas condições dos dados históricos). Estimativas climáticas estão fadadas a errar mais a cada ano porque estamos alterando as condições do planeta.
Além disto, sempre é possível acontecer um evento tipo “cisne negro” (algo inesperado, que foge do padrão): uma nova empresa, produto ou tecnologia; uma guerra.
O exemplo mais elucidativo é este: o peru cria um modelo preditivo que diz que a família gosta dele, porque ele foi bem alimentado e bem cuidado durante o ano todo. Mas isto só dura até o Dia da Ação de Graças.

Modelos preditivos podem falhar por causa do “efeito borboleta”. Uma pequena variação num valor numérico (digamos, na vigésima casa decimal) pode alterar muito o resultado final da função. Ou mesmo um evento que aparentemente parece insignificativo pode influenciar muito o sistema. Um assassinato deslocado do contexto dominante da Europa fez eclodir a 1ª Guerra Mundial. Não que o evento tenha gerado diretamente o tal período. Ele desencadeou outros eventos, que desencadearam outros e assim sucessivamente.
Esta é uma das características dos sistemas complexos. É aquela velha história: a gente vai fazendo uma pilha de arroz colocando um grão de cada vez. A pilha vai crescendo e ficando alta. De repente, ao colocar mais um grãozinho, a pilha desmorona.

A razão para isto ter acontecido pelo seguinte:
- o peso suportado pelos grãos que estavam sustentando os de cima passou o limiar de sustentação. É como a gota d´água que faz o copo transbordar ou aquele dia em que a coluna começa a doer depois que passamos vários dias carregando peso;
- o peso do último grão pode fazer balançar 2 outros grãos abaixo dele. Mas estes estão bem suportados e não balançam; então a pilha não cai. Mas se estes 2 balançarem, irão também balançar os que estão abaixo. Então imagine a sequência de Fibonacci: 1 grão afeta 2, estes afetam 3, estes em conjunto afetam 5, que afetam 8, depois 13, e assim por diante 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597, 2584. Ou então como dizem: se dobrarmos 1% a cada passo, em 7 passos teremos 100% (1, 2, 4, 8, 16, 32, 64, 128).

Portanto, quem deseja fazer previsões deve ficar também atento aos chamados “sinais fracos” e às relações de causa-efeito. Entretanto, depois que tudo aconteceu, fica fácil explicar a relação e a ordem dos acontecimentos. Prever antecipadamente esta relação é muito difícil.

Outra forma de gerar modelos de predição é criando-os a partir da sabedoria das massas.

Sistemas de simulação podem ajudar a prever resultados para grandes quantidades de elementos, para entendimento de sistemas complexos. Por exemplo, simular a saída de pessoas de um estádio. Podemos criar indivíduos com o seguinte comportamento básico: caminhe devagar em direção à saída sem passar nem tocar ninguém. E podemos ver o que acontece se uma certa parcela dos indivíduos mudarem seu comportamento (ex. caminhar mais rápido que os que estão à volta). Isto permite avaliar o comportamento coletivo pelos comportamentos individuais e pelas diferentes proporções (ex. se 10% das pessoas que receberam nossa propaganda comprarem o produto dentro de 1 mês, e passados 2 meses estes divulgarem para 2 outros amigos, e 5% destes comprarem dentro de 6 meses, o que vai acontecer no final de 1 ano?).
O problema é estimar os comportamentos individuais e saber que decisão cada um vai tomar. E o % de pessoas em cada situação.

Existem também as previsões que se auto cancelam ou se auto realizam (ver post abaixo).

Os modelos de predição, assim como os planos estratégicos, devem ser o que Taleb chama de “antifrágeis”. Já que é difícil encontrar um modelo fixo e preciso, a ideia é ser flexível para acomodar variações no modelo e mesmo assim continuar a previsão. É preciso identificar rápido as mudanças e sinais fracos, as mudanças de relações e afetação. O objetivo não deve ser tentar encaixar o mundo no modelo, mas sim adaptar o modelo ao ambiente. Isto serve para empresas também (táxis devem ser como Uber, os jornais impressos não devem lutar contra a Internet mas se adaptar, bancos devem aceitar Fintechs e Blockchain).

Alguns dizem: “não se pode prever o futuro”. Mas aí vamos desistir ?
Previsões mesmo que com erro já podem ser úteis. E saber gerenciar as incertezas. Acomodá-las nos modelos usando probabilidades.  

Todo mundo quer saber ser um produto vai vender, se um casamento vai dar certo, mas poucos se atrevem a querer saber quando vão morrer. Este é o paradoxo da previsão do futuro pelo ser humano.

Leituras Recomendadas (por ordem de importância):

TETLOCK, Philip E.; GARDNER, Dan. Superprevisões: A arte e a ciência de antecipar o futuro. Objetiva, 2016.

WATTS, Duncan J. Tudo é óbvio: quando você sabe a resposta. Rio de Janeiro: Paz e Terra, 2015.

TALEB, Nassim Nicholas. A Lógica do Cisne Negro. Best Business, 2008.

SILVER, Nate. O sinal e o ruído: por que tantas previsões falham e outras não. Rio de Janeiro: Intrínseca, 2013.

TALEB, Nassim Nicholas. Antifrágil - Coisas Que Se Beneficiam Com o Caos. Best Business, 2014.

MLODINOW, Leonard. O Andar do Bêbado - como o acaso determina nossas vidas. Zahar, 2009.

KAHNEMAN, Daniel. Rápido e Devagar - Duas Formas de Pensar. Objetiva, 2012.

quarta-feira, 4 de julho de 2018

A (falta de) estratégia mata a cultura de cansaço no final do dia


Normalmente se diz que “a cultura come a estratégia no café da manhã”. Isto significa que as empresas e pessoas fazem planos de como algo deve ser feito, mas aí outras pessoas acabam frustrando estes planos porque não fazem as coisas, ou porque não fazem direito, ou porque não querem fazer, ou porque pensam que devia ser feito de forma diferente. E aí a estratégia ou tática ou plano acaba logo no início.

Pois bem, o contrário também pode acontecer. Imagine uma empresa onde há pessoas motivadas, proativas e competentes que querem fazer melhorias e inovações. Mas a empresa não ajuda. Ou seja, a empresa não possui processos, infraestrutura, planos, metas ou objetivos estabelecidos para que a melhoria ou inovação aconteça. As pessoas motivadas tentam convencer outros; fazem planos, orçamentos, pareceres, diagnósticos e passam para seus superiores. Estes, por inúmeras razões possíveis, não “compram a ideia”. E as informações não seguem adiante. A mudança não acontece.

A pessoa motivada faz isto uma vez, duas vezes, mais vezes. Mas chega uma hora que ela desiste. Ela acaba entendendo que a estrutura da empresa não ajuda a levar adiante ideias de melhorias e inovações.

A conclusão é que este talento proativo acaba saindo da empresa ou acaba “achatado”, entrando na engrenagem ou fazendo parte do fluxo e desistindo de sugerir mudanças. Ou seja, a cultura de inovação e melhorias morre depois de um tempo, depois de tentativas frustradas, porque a empresa não possui estratégias para levar as ideias adiante.