quinta-feira, 16 de abril de 2020

Seleção de Amostras para Análise


1.1       O que é uma amostra e para quê


Uma amostra é um subconjunto de um conjunto (universo de casos).
Ela é útil para analisar dados quando não temos condições de ter todo o conjunto para análise por um desses motivos:
a) não sabemos quem faz parte do Universo
ex. infectados por uma doença, clientes em potencial

b) não temos condições de coletar dados de todos elementos do Universo por limitações de custo ou tempo
ex. avaliar a qualidade de cada peça feita numa indústria, fazer pesquisa com todos as pessoas que já compraram na nossa loja


1.2       Tamanho da amostra


Como determinar o número ideal de elementos numa amostra ? Se olharmos para as pesquisas para presidente do Brasil, a amostra normalmente é composta por aproximadamente 2 mil pessoas. Isto quer dizer que cada pessoa representa em torno de 50 mil outras.
O cálculo estatístico do tamanho da amostra depende do erro amostral (a diferença entre o valor estimado pela pesquisa e o verdadeiro valor e isto pode ser um valor estabelecido como meta); do nível de confiança (a probabilidade de que o erro amostral efetivo seja menor do que o erro amostral admitido pela pesquisa); da população (número de elementos existentes no universo da pesquisa, valor que pode não ser conhecido); entre outros (percentuais máximo e mínimo). Há algumas calculadoras online para fazer tais cálculos.

Tversky e Kahneman (1971) discutem os problemas com amostras muito pequenas. Por exemplo, se você jogar uma moeda não viciada três vezes e der duas vezes cara e uma vez coroa, você estará inclinado a acreditar que a probabilidade é 66,66% contra 33,33%. Mas se jogar mil vezes a mesma moeda, certamente haverá uma proporção próxima de 50/50. Pior seria se nas três primeiras jogadas, desse somente um lado. Como sabemos que, no caso da moeda, a probabilidade é 50/50, isto pode gerar a chamada "falácia do jogador": acreditar que o jogo vai mudar para reverter uma tendência e voltar ao padrão estatístico. Por exemplo, jogando 5 vezes a mesma moeda e dando sempre o mesmo lado (digamos, cara), vamos acreditar que na 6a vez irá dar o outro lado (coroa). E na 7a também vamos estar inclinados que dará coroa para equilibrar o jogo e voltar à proporção 50/50. Entretanto, a proporção só acontece com amostrar maiores. Então, as próximas jogadas só minimizam os desvios e não os corrigem logo em seguida.

Um presidiário lançou 10 mil vezes uma moeda e anotou os resultados. A figura a seguir representa isso. O eixo horizontal X mostra o tempo (quantidade de lançamentos) e o eixo vertical Y mostra o número de vezes de um dos lados da moeda. Conclusão: com o passar do tempo (mais lançamentos), o resultado converge para 50% para cada lado.




1.3       Tipos de amostras


Existem 4 tipos de técnicas de seleção de amostras. Discutiremos elas através de um exemplo: uma loja querendo analisar a satisfação de seus clientes. Também discutiremos duas situações possíveis: a loja já ter um cadastro de clientes e o caso de a loja não conhecer seus clientes (porque entram e saem da loja sem mesmo a loja saber se são homens ou mulheres).

·         Amostras aleatórias
Neste caso, são selecionados aleatoriamente elementos do universo (conjunto todo). Por exemplo, a loja determina o tamanho da amostra (valor N) e a seleção é feita sorteando os N primeiros clientes da base de dados (do cadastro).
Entretanto, para que a técnica seja utilizada adequadamente, a aleatoriedade deve ser total. No caso de clientes saindo da loja, não se pode selecionar clientes apenas num dia. Deve-se levar em conta as variedades (dia da semana, dia do mês, mês, turno, etc).
Esta técnica só deve ser usada quando não se pode utilizar uma técnica melhor.

·         Amostras por conveniência
Neste caso, a seleção é feita pelo que for mais fácil. Por exemplo, a loja seleciona os N primeiros clientes que saírem da loja num determinado dia ou liga para N clientes cadastrados que tiverem telefone e só utiliza dados dos N primeiros que atenderem o telefone.
É a pior técnica pois o critério de escolha é definido por pessoas, o que pode levar a tendências (selecionar somente elementos de um tipo).
Esta técnica só deve ser usada quando não se pode utilizar uma técnica melhor.

·         Amostras por julgamento
As amostras por julgamento são formadas por elementos que satisfaçam regras previamente determinadas. Por exemplo, analisar somente a satisfação de clientes mulheres que compraram mais de um produto até uma semana após o Dia das Mães.
Neste caso, o critério de seleção está bem definido e é justificado (por exemplo, só querer analisar certos tipos de elementos do conjunto todo). E portanto os resultados da análise serão condizentes somente com as regras definidas (não valem para o universo todo).

·         Amostras estratificadas
Esta é a forma correta de gerar amostras. Para tanto, precisa-se identificar que variáveis podem interferir na análise. Por exemplo, no caso da loja, atributos como sexo, idade, classe sócio-econômica, bairro e cidade, valor gasto e forma de pagamento podem fazer diferença para entender os tipos de clientes. E talvez altura, peso e escolaridade não sejam diferenciais para campanhas de marketing ou para entender comportamentos de compra.
Depois de identificadas as variáveis, precisa-se saber a proporção de elementos no universo todo para cada variável. Por exemplo, digamos que há 50% de mulheres e 50% de homens entre todos os clientes da loja, e que 25% são da classe A, 50% da classe B e 25% da classe C, e assim por diante nas demais variáveis.
Então, a amostra será definida com a mesma proporção que a divisão no universo. Ou seja, a amostra deve conter 50% de mulheres, 50% de homens, 25% de pessoas da classe A, 50% de pessoas da classe B, 25% da classe C e assim por diante.
Como na figura a seguir.







1.4       Cuidado na coleta de amostras: normal x exceções

Se quisermos saber como é o funcionamento de uma Biblioteca, temos que ter o seguinte cuidado: se formos observar num dia normal, não estaremos coletando as exceções. E o pior caso é ir num dia que é exceção acreditando que aquilo é o normal.


1.5       Cuidado na coleta de amostras: diversidade

Imagine que queiramos saber a qualidade da água de uma piscina que está fechada há vários dias. Se formos fazer a coleta num único dia, seria adequado coletar amostras da água em pontos diferentes (da parte mais funda X mais rasa, superfície X fundo) se puder haver diferença entre pontos.

Assim, se quisermos avaliar se uma praia (enseada) está própria para banho, se houver diferença entre parte esquerda, centro e direita, temos que coletar amostras nas 3 partes. Temos que verificar se há algum tipo de dejeto em alguma parte, se alguma parte é mais frequentada que as outras, se há vegetação próxima, etc.


1.6       Cuidado na coleta: como saber o que está influenciando

Imagine que uma empresa quer avaliar a qualidade de peças feitas na sua fábrica. Se as peças forem feitas em máquinas diferentes, temos que ter elementos na amostra representando cada máquina.

Se for apenas uma máquina com muitos operadores, a amostra precisa de elementos produzidos por operadores diferentes.

Se a temperatura puder interferir no resultado, temos que coletar amostras em dias ou momentos com temperaturas diferentes.

E se for somente um operador, numa única máquina, num cidade sempre com o mesmo clima? Talvez ele possa produzir melhor ou pior dependendo do dia. Será que os dias que ele sai brigado com a esposa fazem diferença? E os dias em que ele come fruta no café da manhã é diferente dos dias em que ele só come pão?



Nenhum comentário: