Este texto é para iniciantes que querem entender como é que
se faz previsões.
Atenção: esta é uma forma de fazer previsões (leia até o fim).
Atenção: esta é uma forma de fazer previsões (leia até o fim).
1o passo é ter registros históricos
Vamos pegar como exemplo os casos confirmados de Covid-19.
Esses registros serão representados num gráfico/plano
bidimensional, ou seja, com duas variáveis: X (eixo horizontal) e Y (eixo
vertical).
No nosso exemplo, o eixo X terá os dias em sequência, e o
eixo Y terá o número de casos.
Como depois vamos usar uma função matemática aplicada sobre
os valores de X, o melhor é não usar a própria data mas sim a ordem do dia (por
exemplo, o número 1 é o primeiro dia dos registros). Na figura a seguir, são os
números em vermelho.
2o passo é encontrar uma função matemática que passe pelos pontos
Por todos os pontos ou o mais próximo deles
Isso pode ser representado por uma função como
y = f(x)
Essa f(x) provavelmente será um número que multiplicado por
cada valor de X nos dará os correspondentes valores de Y.
O Excel e outras planilhas possuem funcionalidades para extrair este tipo de função.
Veja a regressão linear no Excel usando a função Proj.Lin
3o passo é usar esta função para calcular valores futuros
Ou seja, um valor que não temos ou não sabemos ainda.
Esse valor é o Y que
será calculado a partir do valor de X
usando a tal função y=f(x) identificada antes. Deve ser um ponto em cima
da reta que foi traçada.
Essa função também pode ser chamada de modelo, por isso a expressão
de modelo de predição.
1o Cuidado: registros históricos são confiáveis?
Estamos nos baseando em dados passados para identificar a função
matemática. Se estes dados estiverem errados, a função identificada será
condizente com os dados (estará certa sob este ponto de vista) mas não será
condizente com a realidade.
No caso da Covid-19, já se sabe que os casos registrados são
bem menores que os casos reais. Primeiro, porque nem todas as pessoas com a
doença fizeram testes. Segundo, porque nem todos com a doença registraram seus
casos. Terceiro, porque há pessoas com a doença que não apresentaram sintomas,
ou seja, nem sabem que estão com a doença.
2o Cuidado: quantos pontos usar? mais recentes ou todos?
A figura a seguir mostra duas funções que foram extraídas a
partir dos dados registrados.
A reta vermelha usou mais dados, ou seja, um período maior.
Enquanto que a reta azul foi extraída usando dados mais
recentes.
Note que no dia X futuro (linha verde), os valores de Y são
diferentes nas duas retas.
Como o comportamento do sistema pode mudar, o mais correto é
usar dados mais recentes. Por isso, a previsão do tempo acerta para dias mais
próximos e erra mais para dias mais distantes.
Entretanto, se usarmos poucos dados, fica mais difícil
encontrar a função (veja o próximo cuidado).
3o Cuidado: qual função, se há mais de uma possível?
Ao extrair uma função que passe o mais próximo dos pontos
registrados, é possível que tenhamos como resultado mais de uma função possível
(com o mesmo grau, ou seja, mesma distância para todos os pontos).
E notem que no dia futuro X, os valores de Y são diferentes
nas duas funções (vermelha e azul).
4o Cuidado: é linear?
Aqui eu mostrei um exemplo extraindo uma reta (função
linear) dos pontos registrados. E se não for possível extrair uma reta porque
os pontos estão muito distantes? (como na figura a seguir).
Neste caso, ainda temos que procurar uma função mas usando
outros métodos.
Talvez a nossa função seja algo como
y = B . (x2 + C)
Talvez a função seja tão complexa que seja necessário
dividi-la em partes (diferentes funções).
5o Cuidado: mudança com o tempo
Cuide que uma função exponencial começa muito parecida com
uma função linear.
Em certo momento, ocorre
o que Malcolm Gladwell chama de Ponto da Virada. É quando a função passa
de linear para exponencial (explosão de casos).
6o Cuidado: simples x complexo (mais de uma variável influencia)
Nem sempre a função Y depende só de uma variável (X, por
exemplo).
A venda de refrigerantes não depende só da temperatura. Há
outros fatores que podem influenciar (promoções, dia da semana, eventos na
cidade, etc.)
Aí é que o modelo de predição fica mais complexo e talvez
tenhamos uma função tipo:
y = X.Z + W(K + L.M2)
onde as letras são variáveis ou fatores que influenciam Y.
7o Cuidado: % de erro
Ao fazer previsões, é preciso saber se quanto o modelo está
errando ou acertando, ou seja, calcular a margem de erro ou a taxa de precisão/acurácia.
Então, continue registrando os casos reais e compare com
suas previsões. Qual foi o percentual de erro. Faça uma média e verifique se
essa média ou esse erro diminuiu ou aumenta.
Talvez seja necessário calibrar a função ou usar dados mais
recentes.
8o Cuidado: efeito Borboleta
Em sistemas complexos, que usam muitas variáveis, uma
pequena diferença no valor de uma das variáveis pode gerar um resultado bem
diferente no final.
Veja a figura a seguir. Vamos admitir que o modelo é a
função azul e está correta.
Uma variação (ex.
0,0001 de diferença) numa variável pode gerar valores corretos no início
mas depois gerar erros muito maiores (função vermelha).
9o Cuidado: cisnes negros - mediocristão x extremistão
Se um sistema está se comportamento de maneira previsível
por muito tempo, não significa que será sempre assim.
O peru analisa o ano inteiro e acredita que a família gosta
dele, pois tratam bem, dão comida, cuidam da segurança e saúde dele. Mas tudo
isso muda no dia de Natal.
Segundo Taleb, existem 2 tipos de sistemas que se
contrapõem: Mediocristão e Extremistão.
1) Mediocristão
É um sistema que tem comportamento médio, com poucos picos
ou vales (e não muito distantes do ponto médio).
Exemplo: Venda de pães
Nenhuma ação de marketing conseguirá fazer as vendas de pães
subirem numa curva exponencial. E também nenhum evento conseguirá diminuir
drasticamente a venda de pães (se uma região deixar de produzir ou algumas
padarias forem fechadas, por exemplo, a curva cai mas não drasticamente como
num Efeito Sêneca).
2) Extremistão
Um sistema onde um único evento pode desorganizar tudo.
Exemplos: autores que tinham publicado alguns livros sem
muito sucesso e depois um livro fez suas vendas estourarem: Dan Brown e JK Rowling.
A Economia é um sistema tipo Extremistão.
Sistemas assim são difíceis de serem previstos. Pequenos
eventos podem fazer grandes estragos (bolha imobiliária nos EUA, um vírus que
vira pandemia).
10o Cuidado: esta é uma maneira de fazer previsões
Ela usa modelos de regressão e precisa que as variáveis sejam valores numéricos.
Para ver outro tipo de previsão, mas sobre eventos, acesse o link abaixo.
https://miningtext.blogspot.com/2019/10/categorizacao-de-eventos-para-analise.html?m=0
Para ver outro tipo de previsão, mas sobre eventos, acesse o link abaixo.
https://miningtext.blogspot.com/2019/10/categorizacao-de-eventos-para-analise.html?m=0