sexta-feira, 5 de julho de 2013

Correlação entre variáveis e eventos

A correlação é uma técnica estatística que avalia a similaridade entre 2 vetores de números, 2 gráficos ou 2 séries. O coeficiente de Pearson é um dos métodos mais utilizados. Quanto mais próximos os números na ordem, maior o grau de correlação entre os vetores.

Se os vetores ou séries ou gráficos representam variáveis ou eventos, então podemos dizer que há uma correlação entre eles.

Para uma empresa é importante avaliar a correlação entre suas ações e os resultados. Por exemplo, uma empresa descobriu que um aumento de 5 pontos na atitude comportamental dos empregados implicava em 1,3 ponto de incremento na satisfação dos clientes, e isto fazia aumentar em 0,5% o faturamento da empresa.

Tal descoberta permite à empresa avaliar onde investir e o quanto. Neste exemplo, se ela quiser aumentar 1% das vendas talvez tenha que aumentar 10 pontos na atitude dos colaboradores.

O perigo da análise de correção é supor causas erradas para eventos. Por exemplo, anos atrás os americanos achavam que o sorvete era causador da pólio, porque os gráficos eram muito semelhantes; as vendas de sorvete e os casos de pólio cresciam no verão.

As duas variáveis tinham uma correlação estatística, mas uma não era causa ou efeito de outra. Descobrir correlação é fácil; há métodos matemáticos para isto, inclusive nas planilhas eletrônicas. Há três dificuldades além disto:

1.      Investigar as possíveis causas (eventos ou variáveis que podem estar relacionadas);
2.      Coletar dados para a posterior análise estatística;
3.      Descobrir a relação causa-efeito, ou seja, quem impacta em quem.

Por exemplo, uma empresa não sabia mais como lidar com quebras em suas máquinas. Já havia investigado tudo: fornecedores, tempo de uso, qualidade dos operadores, qualidade das peças que substituíam outras, temperatura durante o uso, as variações de temperatura (uso X descanso) e até mesmo a temperatura ambiente. E nada de encontrar um padrão. Aí alguém suspeitou que a trepidação das máquinas era diferente. Colocaram sensores para medir o quanto cada máquina trepidava. Descobriram que as medidas eram diferentes mas não havia um padrão. Não encontram um motivo para haver diferenças nas trepidações, analisando as variáveis já descritas antes. Aí, outro alguém suspeitou que a diferença nas trepidações poderia estar no tipo de piso usado na empresa. Nada. Eram todos iguais. Aí outro alguém, analisando onde ficavam as máquinas que mais davam problemas, descobriu que o andar onde estava é que fazia a diferença. Máquinas em andares mais altos tinham histórico maior de falhas e quebras.

Outro erro clássico. Uma empresa de refrigerantes buscava uma fórmula matemática para poder prever vendas. É importante prever vendas neste caso para não produzir a mais que a demanda (e ficar com produtos encalhados, perdendo validade ou mal armazenados) e também não se deve produzir a menos, senão os clientes irão comprar do concorrente. Então analisaram as vendas de anos anteriores e chegaram a uma fórmula (representada pelo gráfico abaixo), a qual relacionava a quantidade vendida em função do dia do ano, através de valores médios.





É claro que esta função não "funcionava". A venda não é só influenciada pelo dia do ano. Depende se o dia cai durante a semana ou num fim de semana ou feriado. Depende da temperatura no local. Depende de outros tantos fatores (se o concorrente fez alguma promoção, se tem um evento grande na cidade, etc.).

Investigar causas é como investigar um crime. Sherlock Holmes tinha seu método. Alguns diziam que era dedutivo, mas eu não concordo: o método dele era abdutivo.

Segundo Charles Sanders Peirce (1975): “a abdução é o processo para formar hipóteses explicativas. A dedução prova algo que deve ser, a indução mostra algo que atualmente é operatório, já a abdução faz uma mera sugestão de algo que pode ser.  Para apreender ou compreender os fenômenos, só a abdução pode funcionar como método. O raciocínio abdutivo são as hipóteses que formulamos antes da confirmação (ou negação) do caso”. 

A Dedução funciona assim:
Tendo a regra A ==> B (A implica em B), se A é verdadeiro, então deduzimos B.

A Indução por sua vez é assim:
Tendo várias instâncias de A e B, induzimos a regra A ==> B (se A, então B)

Já a Abdução é assim:
Tendo a regra A ==> B (se A, então B), Se B é um fato comprovado, podemos abduzir (como hipótese) que A é verdadeiro e sua causa.

Mas somente testes posteriores podem comprovar.

Correlação assíncrona


Podemos ver na figura abaixo que os gráficos em cor preta e vermelha são muito parecidos. Provavelmente, se usarmos a técnica de correlação iremos verificar um alto grau entre estas duas variáveis.



Agora veja a figura abaixo. Há correlação entre estes 2 gráficos ? Talvez sim, se posicionarmos eles de forma diferente, fazendo coincidir os picos. Outra possibilidade é que pode haver correlação de causa-efeito. O efeito não é imediato. Steven D. Levitt  (Freakonomics) sugere haver uma relação entre a redução de crimes verificada no Natal de 1989 nos EUA e a legalização do aborto naquele país 20 anos antes.






Para chegar a uma conclusão destas (causa-efeito) é preciso:
a) avaliar a correlação, mesmo que em épocas diferentes,
b) avaliar as possíveis causas segundo o bom-senso e o conhecimento especialista, e
c) retirar as causas improváveis.

O método de Sherlock Holmes funcionava assim. Deixo um desafio: o sanduíche Big Mac é o que mais vende na rede McDonald´s. E também o que fica pronto mais rápido (ou já está pronto, pela expectativa de vendas). Agora pergunto: ele fica pronto primeiro porque vende mais ou vende mais porque fica pronto primeiro ?

Se o McDonald´s quisesse vender mais o McFish, bastaria deixar ele pronto primeiro ? Por quantos dias deveriam fazer isto até que os clientes entendessem que este fica pronto antes que os outros ?


A velha história do ovo e da galinha. 

Um comentário:

Miguel Fornari disse...

Oi Stanley.

O livro do Nate Silver (NYT) tem vários exemplos de interpretação correta e incorreta de correlação entre variáveis. Vale a pena ler.