terça-feira, 21 de abril de 2020

Como fazer previsões


Este texto é para iniciantes que querem entender como é que se faz previsões.
Atenção: esta é uma forma de fazer previsões (leia até o fim). 

1o passo é ter registros históricos


Vamos pegar como exemplo os casos confirmados de Covid-19.
Esses registros serão representados num gráfico/plano bidimensional, ou seja, com duas variáveis: X (eixo horizontal) e Y (eixo vertical).

No nosso exemplo, o eixo X terá os dias em sequência, e o eixo Y terá o número de casos.
Como depois vamos usar uma função matemática aplicada sobre os valores de X, o melhor é não usar a própria data mas sim a ordem do dia (por exemplo, o número 1 é o primeiro dia dos registros). Na figura a seguir, são os números em vermelho.





2o passo é encontrar uma função matemática que passe pelos pontos

Por todos os pontos ou o mais próximo deles



Isso pode ser representado por uma função como
y = f(x)

Essa f(x) provavelmente será um número que multiplicado por cada valor de X nos dará os correspondentes valores de Y.

O Excel e outras planilhas possuem funcionalidades para extrair este tipo de função.
Veja a regressão linear no Excel usando a função Proj.Lin


3o passo é usar esta função para calcular valores futuros


Ou seja, um valor que não temos ou não sabemos ainda.
Esse valor é o Y que  será calculado a partir do valor de X  usando a tal função y=f(x) identificada antes. Deve ser um ponto em cima da reta que foi traçada.
Essa função também pode ser chamada de modelo, por isso a expressão de modelo de predição.





1o Cuidado: registros históricos são confiáveis?

Estamos nos baseando em dados passados para identificar a função matemática. Se estes dados estiverem errados, a função identificada será condizente com os dados (estará certa sob este ponto de vista) mas não será condizente com a realidade.
No caso da Covid-19, já se sabe que os casos registrados são bem menores que os casos reais. Primeiro, porque nem todas as pessoas com a doença fizeram testes. Segundo, porque nem todos com a doença registraram seus casos. Terceiro, porque há pessoas com a doença que não apresentaram sintomas, ou seja, nem sabem que estão com a doença.


2o Cuidado: quantos pontos usar? mais recentes ou todos?

A figura a seguir mostra duas funções que foram extraídas a partir dos dados registrados.
A reta vermelha usou mais dados, ou seja, um período maior.
Enquanto que a reta azul foi extraída usando dados mais recentes.
Note que no dia X futuro (linha verde), os valores de Y são diferentes nas duas retas.
Como o comportamento do sistema pode mudar, o mais correto é usar dados mais recentes. Por isso, a previsão do tempo acerta para dias mais próximos e erra mais para dias mais distantes.
Entretanto, se usarmos poucos dados, fica mais difícil encontrar a função (veja o próximo cuidado).




3o Cuidado: qual função, se há mais de uma possível?

Ao extrair uma função que passe o mais próximo dos pontos registrados, é possível que tenhamos como resultado mais de uma função possível (com o mesmo grau, ou seja, mesma distância para todos os pontos).
E notem que no dia futuro X, os valores de Y são diferentes nas duas funções (vermelha e azul).




4o Cuidado: é linear?

Aqui eu mostrei um exemplo extraindo uma reta (função linear) dos pontos registrados. E se não for possível extrair uma reta porque os pontos estão muito distantes? (como na figura a seguir).

Neste caso, ainda temos que procurar uma função mas usando outros métodos.
Talvez a nossa função seja algo como
y = B . (x2 + C)




Talvez a função seja tão complexa que seja necessário dividi-la em partes (diferentes funções).







5o Cuidado: mudança com o tempo

Cuide que uma função exponencial começa muito parecida com uma função linear.
Em certo momento, ocorre  o que Malcolm Gladwell chama de Ponto da Virada. É quando a função passa de linear para exponencial (explosão de casos).



6o Cuidado: simples x complexo (mais de uma variável influencia)

Nem sempre a função Y depende só de uma variável (X, por exemplo).
A venda de refrigerantes não depende só da temperatura. Há outros fatores que podem influenciar (promoções, dia da semana, eventos na cidade, etc.)
Aí é que o modelo de predição fica mais complexo e talvez tenhamos uma função tipo:
y = X.Z + W(K + L.M2)

onde as letras são variáveis ou fatores que influenciam Y.


7o Cuidado: % de erro

Ao fazer previsões, é preciso saber se quanto o modelo está errando ou acertando, ou seja, calcular a margem de erro ou a taxa de precisão/acurácia.
Então, continue registrando os casos reais e compare com suas previsões. Qual foi o percentual de erro. Faça uma média e verifique se essa média ou esse erro diminuiu ou aumenta.
Talvez seja necessário calibrar a função ou usar dados mais recentes.


8o Cuidado: efeito Borboleta

Em sistemas complexos, que usam muitas variáveis, uma pequena diferença no valor de uma das variáveis pode gerar um resultado bem diferente no final.
Veja a figura a seguir. Vamos admitir que o modelo é a função azul e está correta.
Uma variação (ex.  0,0001 de diferença) numa variável pode gerar valores corretos no início mas depois gerar erros muito maiores (função vermelha).



9o Cuidado: cisnes negros - mediocristão x extremistão

Se um sistema está se comportamento de maneira previsível por muito tempo, não significa que será sempre assim.
O peru analisa o ano inteiro e acredita que a família gosta dele, pois tratam bem, dão comida, cuidam da segurança e saúde dele. Mas tudo isso muda no dia de Natal.

Segundo Taleb, existem 2 tipos de sistemas que se contrapõem: Mediocristão e Extremistão.

1) Mediocristão
É um sistema que tem comportamento médio, com poucos picos ou vales (e não muito distantes do ponto médio).
Exemplo: Venda de pães
Nenhuma ação de marketing conseguirá fazer as vendas de pães subirem numa curva exponencial. E também nenhum evento conseguirá diminuir drasticamente a venda de pães (se uma região deixar de produzir ou algumas padarias forem fechadas, por exemplo, a curva cai mas não drasticamente como num Efeito Sêneca).

2) Extremistão
Um sistema onde um único evento pode desorganizar tudo.
Exemplos: autores que tinham publicado alguns livros sem muito sucesso e depois um livro fez suas vendas estourarem: Dan Brown e JK Rowling.

A Economia é um sistema tipo Extremistão.
Sistemas assim são difíceis de serem previstos. Pequenos eventos podem fazer grandes estragos (bolha imobiliária nos EUA, um vírus que vira pandemia).


10o Cuidado: esta é uma maneira de fazer previsões

Ela usa modelos de regressão e precisa que as variáveis sejam valores numéricos.

Para  ver outro tipo de previsão, mas sobre eventos, acesse o link abaixo.
https://miningtext.blogspot.com/2019/10/categorizacao-de-eventos-para-analise.html?m=0


Nenhum comentário: