A correlação é uma técnica estatística que avalia a
similaridade entre 2 vetores de números, 2 gráficos ou 2 séries. O coeficiente
de Pearson é um dos métodos mais utilizados. Quanto mais próximos os números na
ordem, maior o grau de correlação entre os vetores.
Se os vetores ou séries ou gráficos representam variáveis ou
eventos, então podemos dizer que há uma correlação entre eles.
Para uma empresa é importante avaliar a correlação entre
suas ações e os resultados. Por exemplo, uma empresa descobriu que um aumento
de 5 pontos na atitude comportamental dos empregados implicava em 1,3 ponto de
incremento na satisfação dos clientes, e isto fazia aumentar em 0,5% o
faturamento da empresa.
Tal descoberta permite à empresa avaliar onde investir e o
quanto. Neste exemplo, se ela quiser aumentar 1% das vendas talvez tenha que
aumentar 10 pontos na atitude dos colaboradores.
O perigo da análise de correção é supor causas erradas para
eventos. Por exemplo, anos atrás os americanos achavam que o sorvete era
causador da pólio, porque os gráficos eram muito semelhantes; as vendas de
sorvete e os casos de pólio cresciam no verão.
As duas variáveis tinham uma correlação estatística, mas uma
não era causa ou efeito de outra. Descobrir correlação é fácil; há métodos
matemáticos para isto, inclusive nas planilhas eletrônicas. Há três dificuldades
além disto:
1.
Investigar as possíveis causas (eventos ou
variáveis que podem estar relacionadas);
2.
Coletar dados para a posterior análise estatística;
3.
Descobrir a relação causa-efeito, ou seja, quem
impacta em quem.
Por exemplo, uma empresa não sabia mais como lidar com
quebras em suas máquinas. Já havia investigado tudo: fornecedores, tempo de
uso, qualidade dos operadores, qualidade das peças que substituíam outras,
temperatura durante o uso, as variações de temperatura (uso X descanso) e até
mesmo a temperatura ambiente. E nada de encontrar um padrão. Aí alguém
suspeitou que a trepidação das máquinas era diferente. Colocaram sensores para
medir o quanto cada máquina trepidava. Descobriram que as medidas eram
diferentes mas não havia um padrão. Não encontram um motivo para haver
diferenças nas trepidações, analisando as variáveis já descritas antes. Aí,
outro alguém suspeitou que a diferença nas trepidações poderia estar no tipo de
piso usado na empresa. Nada. Eram todos iguais. Aí outro alguém, analisando
onde ficavam as máquinas que mais davam problemas, descobriu que o andar onde
estava é que fazia a diferença. Máquinas em andares mais altos tinham histórico
maior de falhas e quebras.
Outro erro clássico. Uma empresa de refrigerantes buscava
uma fórmula matemática para poder prever vendas. É importante prever vendas
neste caso para não produzir a mais que a demanda (e ficar com produtos
encalhados, perdendo validade ou mal armazenados) e também não se deve produzir
a menos, senão os clientes irão comprar do concorrente. Então analisaram as
vendas de anos anteriores e chegaram a uma fórmula (representada pelo gráfico
abaixo), a qual relacionava a quantidade vendida em função do dia do ano,
através de valores médios.
É claro que esta função não "funcionava". A venda
não é só influenciada pelo dia do ano. Depende se o dia cai durante a semana ou
num fim de semana ou feriado. Depende da temperatura no local. Depende de
outros tantos fatores (se o concorrente fez alguma promoção, se tem um evento
grande na cidade, etc.).
Investigar causas é como investigar um crime. Sherlock
Holmes tinha seu método. Alguns diziam que era dedutivo, mas eu não concordo: o
método dele era abdutivo.
Segundo Charles Sanders Peirce (1975): “a abdução é o processo para formar hipóteses explicativas. A dedução
prova algo que deve ser, a indução mostra algo que atualmente é operatório, já
a abdução faz uma mera sugestão de algo que pode ser. Para apreender ou compreender os fenômenos,
só a abdução pode funcionar como método. O raciocínio abdutivo são as hipóteses
que formulamos antes da confirmação (ou negação) do caso”.
A Dedução funciona assim:
Tendo a regra A ==> B (A implica em B), se A é verdadeiro,
então deduzimos B.
A Indução por sua vez é assim:
Tendo várias instâncias de A e B, induzimos a regra A ==>
B (se A, então B)
Já a Abdução é assim:
Tendo a regra A ==> B (se A, então B), Se B é um fato
comprovado, podemos abduzir (como hipótese) que A é verdadeiro e sua causa.
Mas somente testes posteriores podem comprovar.
Correlação assíncrona
Podemos ver na figura abaixo que os gráficos em cor preta e
vermelha são muito parecidos. Provavelmente, se usarmos a técnica de correlação
iremos verificar um alto grau entre estas duas variáveis.
Agora veja a figura abaixo. Há correlação entre estes 2
gráficos ? Talvez sim, se posicionarmos eles de forma diferente, fazendo
coincidir os picos. Outra possibilidade é que pode haver correlação de
causa-efeito. O efeito não é imediato. Steven D. Levitt (Freakonomics) sugere haver uma relação entre a
redução de crimes verificada no Natal de 1989 nos EUA e a legalização do aborto
naquele país 20 anos antes.
Para chegar a uma conclusão destas (causa-efeito) é preciso:
a) avaliar a correlação, mesmo que em épocas diferentes,
b) avaliar as possíveis causas segundo o bom-senso e o
conhecimento especialista, e
c) retirar as causas improváveis.
O método de Sherlock Holmes funcionava assim. Deixo um
desafio: o sanduíche Big Mac é o que mais vende na rede McDonald´s. E também o
que fica pronto mais rápido (ou já está pronto, pela expectativa de vendas).
Agora pergunto: ele fica pronto primeiro porque vende mais ou vende mais porque
fica pronto primeiro ?
Se o McDonald´s quisesse vender mais o McFish, bastaria
deixar ele pronto primeiro ? Por quantos dias deveriam fazer isto até que os
clientes entendessem que este fica pronto antes que os outros ?
A velha história do ovo e da galinha.
Um comentário:
Oi Stanley.
O livro do Nate Silver (NYT) tem vários exemplos de interpretação correta e incorreta de correlação entre variáveis. Vale a pena ler.
Postar um comentário