terça-feira, 21 de abril de 2020

Como fazer previsões


Este texto é para iniciantes que querem entender como é que se faz previsões.
Atenção: esta é uma forma de fazer previsões (leia até o fim). 

1o passo é ter registros históricos


Vamos pegar como exemplo os casos confirmados de Covid-19.
Esses registros serão representados num gráfico/plano bidimensional, ou seja, com duas variáveis: X (eixo horizontal) e Y (eixo vertical).

No nosso exemplo, o eixo X terá os dias em sequência, e o eixo Y terá o número de casos.
Como depois vamos usar uma função matemática aplicada sobre os valores de X, o melhor é não usar a própria data mas sim a ordem do dia (por exemplo, o número 1 é o primeiro dia dos registros). Na figura a seguir, são os números em vermelho.





2o passo é encontrar uma função matemática que passe pelos pontos

Por todos os pontos ou o mais próximo deles



Isso pode ser representado por uma função como
y = f(x)

Essa f(x) provavelmente será um número que multiplicado por cada valor de X nos dará os correspondentes valores de Y.

O Excel e outras planilhas possuem funcionalidades para extrair este tipo de função.
Veja a regressão linear no Excel usando a função Proj.Lin


3o passo é usar esta função para calcular valores futuros


Ou seja, um valor que não temos ou não sabemos ainda.
Esse valor é o Y que  será calculado a partir do valor de X  usando a tal função y=f(x) identificada antes. Deve ser um ponto em cima da reta que foi traçada.
Essa função também pode ser chamada de modelo, por isso a expressão de modelo de predição.





1o Cuidado: registros históricos são confiáveis?

Estamos nos baseando em dados passados para identificar a função matemática. Se estes dados estiverem errados, a função identificada será condizente com os dados (estará certa sob este ponto de vista) mas não será condizente com a realidade.
No caso da Covid-19, já se sabe que os casos registrados são bem menores que os casos reais. Primeiro, porque nem todas as pessoas com a doença fizeram testes. Segundo, porque nem todos com a doença registraram seus casos. Terceiro, porque há pessoas com a doença que não apresentaram sintomas, ou seja, nem sabem que estão com a doença.


2o Cuidado: quantos pontos usar? mais recentes ou todos?

A figura a seguir mostra duas funções que foram extraídas a partir dos dados registrados.
A reta vermelha usou mais dados, ou seja, um período maior.
Enquanto que a reta azul foi extraída usando dados mais recentes.
Note que no dia X futuro (linha verde), os valores de Y são diferentes nas duas retas.
Como o comportamento do sistema pode mudar, o mais correto é usar dados mais recentes. Por isso, a previsão do tempo acerta para dias mais próximos e erra mais para dias mais distantes.
Entretanto, se usarmos poucos dados, fica mais difícil encontrar a função (veja o próximo cuidado).




3o Cuidado: qual função, se há mais de uma possível?

Ao extrair uma função que passe o mais próximo dos pontos registrados, é possível que tenhamos como resultado mais de uma função possível (com o mesmo grau, ou seja, mesma distância para todos os pontos).
E notem que no dia futuro X, os valores de Y são diferentes nas duas funções (vermelha e azul).




4o Cuidado: é linear?

Aqui eu mostrei um exemplo extraindo uma reta (função linear) dos pontos registrados. E se não for possível extrair uma reta porque os pontos estão muito distantes? (como na figura a seguir).

Neste caso, ainda temos que procurar uma função mas usando outros métodos.
Talvez a nossa função seja algo como
y = B . (x2 + C)




Talvez a função seja tão complexa que seja necessário dividi-la em partes (diferentes funções).







5o Cuidado: mudança com o tempo

Cuide que uma função exponencial começa muito parecida com uma função linear.
Em certo momento, ocorre  o que Malcolm Gladwell chama de Ponto da Virada. É quando a função passa de linear para exponencial (explosão de casos).



6o Cuidado: simples x complexo (mais de uma variável influencia)

Nem sempre a função Y depende só de uma variável (X, por exemplo).
A venda de refrigerantes não depende só da temperatura. Há outros fatores que podem influenciar (promoções, dia da semana, eventos na cidade, etc.)
Aí é que o modelo de predição fica mais complexo e talvez tenhamos uma função tipo:
y = X.Z + W(K + L.M2)

onde as letras são variáveis ou fatores que influenciam Y.


7o Cuidado: % de erro

Ao fazer previsões, é preciso saber se quanto o modelo está errando ou acertando, ou seja, calcular a margem de erro ou a taxa de precisão/acurácia.
Então, continue registrando os casos reais e compare com suas previsões. Qual foi o percentual de erro. Faça uma média e verifique se essa média ou esse erro diminuiu ou aumenta.
Talvez seja necessário calibrar a função ou usar dados mais recentes.


8o Cuidado: efeito Borboleta

Em sistemas complexos, que usam muitas variáveis, uma pequena diferença no valor de uma das variáveis pode gerar um resultado bem diferente no final.
Veja a figura a seguir. Vamos admitir que o modelo é a função azul e está correta.
Uma variação (ex.  0,0001 de diferença) numa variável pode gerar valores corretos no início mas depois gerar erros muito maiores (função vermelha).



9o Cuidado: cisnes negros - mediocristão x extremistão

Se um sistema está se comportamento de maneira previsível por muito tempo, não significa que será sempre assim.
O peru analisa o ano inteiro e acredita que a família gosta dele, pois tratam bem, dão comida, cuidam da segurança e saúde dele. Mas tudo isso muda no dia de Natal.

Segundo Taleb, existem 2 tipos de sistemas que se contrapõem: Mediocristão e Extremistão.

1) Mediocristão
É um sistema que tem comportamento médio, com poucos picos ou vales (e não muito distantes do ponto médio).
Exemplo: Venda de pães
Nenhuma ação de marketing conseguirá fazer as vendas de pães subirem numa curva exponencial. E também nenhum evento conseguirá diminuir drasticamente a venda de pães (se uma região deixar de produzir ou algumas padarias forem fechadas, por exemplo, a curva cai mas não drasticamente como num Efeito Sêneca).

2) Extremistão
Um sistema onde um único evento pode desorganizar tudo.
Exemplos: autores que tinham publicado alguns livros sem muito sucesso e depois um livro fez suas vendas estourarem: Dan Brown e JK Rowling.

A Economia é um sistema tipo Extremistão.
Sistemas assim são difíceis de serem previstos. Pequenos eventos podem fazer grandes estragos (bolha imobiliária nos EUA, um vírus que vira pandemia).


10o Cuidado: esta é uma maneira de fazer previsões

Ela usa modelos de regressão e precisa que as variáveis sejam valores numéricos.

Para  ver outro tipo de previsão, mas sobre eventos, acesse o link abaixo.
https://miningtext.blogspot.com/2019/10/categorizacao-de-eventos-para-analise.html?m=0


quinta-feira, 16 de abril de 2020

Seleção de Amostras para Análise


1.1       O que é uma amostra e para quê


Uma amostra é um subconjunto de um conjunto (universo de casos).
Ela é útil para analisar dados quando não temos condições de ter todo o conjunto para análise por um desses motivos:
a) não sabemos quem faz parte do Universo
ex. infectados por uma doença, clientes em potencial

b) não temos condições de coletar dados de todos elementos do Universo por limitações de custo ou tempo
ex. avaliar a qualidade de cada peça feita numa indústria, fazer pesquisa com todos as pessoas que já compraram na nossa loja


1.2       Tamanho da amostra


Como determinar o número ideal de elementos numa amostra ? Se olharmos para as pesquisas para presidente do Brasil, a amostra normalmente é composta por aproximadamente 2 mil pessoas. Isto quer dizer que cada pessoa representa em torno de 50 mil outras.
O cálculo estatístico do tamanho da amostra depende do erro amostral (a diferença entre o valor estimado pela pesquisa e o verdadeiro valor e isto pode ser um valor estabelecido como meta); do nível de confiança (a probabilidade de que o erro amostral efetivo seja menor do que o erro amostral admitido pela pesquisa); da população (número de elementos existentes no universo da pesquisa, valor que pode não ser conhecido); entre outros (percentuais máximo e mínimo). Há algumas calculadoras online para fazer tais cálculos.

Tversky e Kahneman (1971) discutem os problemas com amostras muito pequenas. Por exemplo, se você jogar uma moeda não viciada três vezes e der duas vezes cara e uma vez coroa, você estará inclinado a acreditar que a probabilidade é 66,66% contra 33,33%. Mas se jogar mil vezes a mesma moeda, certamente haverá uma proporção próxima de 50/50. Pior seria se nas três primeiras jogadas, desse somente um lado. Como sabemos que, no caso da moeda, a probabilidade é 50/50, isto pode gerar a chamada "falácia do jogador": acreditar que o jogo vai mudar para reverter uma tendência e voltar ao padrão estatístico. Por exemplo, jogando 5 vezes a mesma moeda e dando sempre o mesmo lado (digamos, cara), vamos acreditar que na 6a vez irá dar o outro lado (coroa). E na 7a também vamos estar inclinados que dará coroa para equilibrar o jogo e voltar à proporção 50/50. Entretanto, a proporção só acontece com amostrar maiores. Então, as próximas jogadas só minimizam os desvios e não os corrigem logo em seguida.

Um presidiário lançou 10 mil vezes uma moeda e anotou os resultados. A figura a seguir representa isso. O eixo horizontal X mostra o tempo (quantidade de lançamentos) e o eixo vertical Y mostra o número de vezes de um dos lados da moeda. Conclusão: com o passar do tempo (mais lançamentos), o resultado converge para 50% para cada lado.




1.3       Tipos de amostras


Existem 4 tipos de técnicas de seleção de amostras. Discutiremos elas através de um exemplo: uma loja querendo analisar a satisfação de seus clientes. Também discutiremos duas situações possíveis: a loja já ter um cadastro de clientes e o caso de a loja não conhecer seus clientes (porque entram e saem da loja sem mesmo a loja saber se são homens ou mulheres).

·         Amostras aleatórias
Neste caso, são selecionados aleatoriamente elementos do universo (conjunto todo). Por exemplo, a loja determina o tamanho da amostra (valor N) e a seleção é feita sorteando os N primeiros clientes da base de dados (do cadastro).
Entretanto, para que a técnica seja utilizada adequadamente, a aleatoriedade deve ser total. No caso de clientes saindo da loja, não se pode selecionar clientes apenas num dia. Deve-se levar em conta as variedades (dia da semana, dia do mês, mês, turno, etc).
Esta técnica só deve ser usada quando não se pode utilizar uma técnica melhor.

·         Amostras por conveniência
Neste caso, a seleção é feita pelo que for mais fácil. Por exemplo, a loja seleciona os N primeiros clientes que saírem da loja num determinado dia ou liga para N clientes cadastrados que tiverem telefone e só utiliza dados dos N primeiros que atenderem o telefone.
É a pior técnica pois o critério de escolha é definido por pessoas, o que pode levar a tendências (selecionar somente elementos de um tipo).
Esta técnica só deve ser usada quando não se pode utilizar uma técnica melhor.

·         Amostras por julgamento
As amostras por julgamento são formadas por elementos que satisfaçam regras previamente determinadas. Por exemplo, analisar somente a satisfação de clientes mulheres que compraram mais de um produto até uma semana após o Dia das Mães.
Neste caso, o critério de seleção está bem definido e é justificado (por exemplo, só querer analisar certos tipos de elementos do conjunto todo). E portanto os resultados da análise serão condizentes somente com as regras definidas (não valem para o universo todo).

·         Amostras estratificadas
Esta é a forma correta de gerar amostras. Para tanto, precisa-se identificar que variáveis podem interferir na análise. Por exemplo, no caso da loja, atributos como sexo, idade, classe sócio-econômica, bairro e cidade, valor gasto e forma de pagamento podem fazer diferença para entender os tipos de clientes. E talvez altura, peso e escolaridade não sejam diferenciais para campanhas de marketing ou para entender comportamentos de compra.
Depois de identificadas as variáveis, precisa-se saber a proporção de elementos no universo todo para cada variável. Por exemplo, digamos que há 50% de mulheres e 50% de homens entre todos os clientes da loja, e que 25% são da classe A, 50% da classe B e 25% da classe C, e assim por diante nas demais variáveis.
Então, a amostra será definida com a mesma proporção que a divisão no universo. Ou seja, a amostra deve conter 50% de mulheres, 50% de homens, 25% de pessoas da classe A, 50% de pessoas da classe B, 25% da classe C e assim por diante.
Como na figura a seguir.







1.4       Cuidado na coleta de amostras: normal x exceções

Se quisermos saber como é o funcionamento de uma Biblioteca, temos que ter o seguinte cuidado: se formos observar num dia normal, não estaremos coletando as exceções. E o pior caso é ir num dia que é exceção acreditando que aquilo é o normal.


1.5       Cuidado na coleta de amostras: diversidade

Imagine que queiramos saber a qualidade da água de uma piscina que está fechada há vários dias. Se formos fazer a coleta num único dia, seria adequado coletar amostras da água em pontos diferentes (da parte mais funda X mais rasa, superfície X fundo) se puder haver diferença entre pontos.

Assim, se quisermos avaliar se uma praia (enseada) está própria para banho, se houver diferença entre parte esquerda, centro e direita, temos que coletar amostras nas 3 partes. Temos que verificar se há algum tipo de dejeto em alguma parte, se alguma parte é mais frequentada que as outras, se há vegetação próxima, etc.


1.6       Cuidado na coleta: como saber o que está influenciando

Imagine que uma empresa quer avaliar a qualidade de peças feitas na sua fábrica. Se as peças forem feitas em máquinas diferentes, temos que ter elementos na amostra representando cada máquina.

Se for apenas uma máquina com muitos operadores, a amostra precisa de elementos produzidos por operadores diferentes.

Se a temperatura puder interferir no resultado, temos que coletar amostras em dias ou momentos com temperaturas diferentes.

E se for somente um operador, numa única máquina, num cidade sempre com o mesmo clima? Talvez ele possa produzir melhor ou pior dependendo do dia. Será que os dias que ele sai brigado com a esposa fazem diferença? E os dias em que ele come fruta no café da manhã é diferente dos dias em que ele só come pão?