Esta proposta não é um método,
mas sim uma técnica para ajudar pessoas e organizações a verificarem a
veracidade de um conhecimento descoberto por processo de Análise, Mineração ou
Business Intelligence.
A ideia é usar a técnica 5W2H =
What, Who, When, Where. Why, How, How much (O que, Quem, Quando, Onde, Por que,
Como, Quanto).
Vamos usar um exemplo para
entender a técnica: o famoso caso que descobriu que “Quem compra fraldas, também
compra cerveja”.
Obs: a lenda diz que a associação
só acontecia na 6ª-feira, mas vamos simplificar.
O que (What)
O 1º W é saber o que foi
descoberto, se é o perfil de uma classe de elementos (ex. perfil de clientes)
ou uma associação/implicação/regra (fraldas x cervejas) ou uma distribuição ou
média (ex. 40% dos clientes são mulheres, clientes gastam 40 reais em média) ou
outro tipo.
No exemplo, o que se refere a “quem
compra fraldas, também compra cerveja”.
Neste caso, vale ressaltar que a
implicação tem um sentido, das fraldas para cerveja. Então, quem está
interessado somente na cerveja talvez não compre fraldas.
Quem (Who)
Este W trata de quem descobriu.
Foi um humano ou um sistema automático de Data Mining por exemplo.
Se foi um humano, qual seu cargo
ou posição, para que possamos avaliar o conhecimento prévio que ele possui e
seus hábitos.
No nosso exemplo, a regra de associação
entre fraldas e cervejas foi descoberta por um algoritmo automatizado.
Quando (When)
O conhecimento foi descoberto sobre
dados relativos a que período de tempo? Muito provavelmente o conhecimento só é
verdade durante o período dos dados.
Por exemplo, se a associação entre
fraldas e cerveja está presente nas vendas de um mês específico, talvez não apareça
em outros meses. E também deve-se avaliar se a associação continuará ocorrendo
no futuro.
Outra avaliação é quanto à
granularidade de tempo. O conhecimento descoberto acontece todo ano? Todos os meses?
Todos os dias ou somente num dia específico da semana? E acontece em algum
turno específico (ex. só de manhã) ou numa hora específica?
Também é preciso avaliar o
momento da coleta. Os dados podem ter sido registrados durante o ano de 2016,
mas a análise só foi feita em 2018. Este “gap” de tempo pode invalidar o conhecimento
(talvez não seja mais válido ou verdadeiro).
Este W também inclui avaliar como
os dados foram coletados (explicitamente, implicitamente ou por inferência).
Cada modo possui a sua incerteza.
Onde (Where)
Este W se refere ao local físico
ou geográfico onde o conhecimento é válido.
No caso das fraldas e cerveja,
talvez a associação só seja válida numa loja específica ou para um país ou
estado.
Por que (Why)
Este W procura entender por que
acontece assim. Este é o método Aristotélico, que procura uma explicação lógica
(se não tiver uma explicação lógica, então não é verdade).
No caso das fraldas e cerveja,
especialistas chegaram a conclusão que a associação ocorria porque homens iam
no supermercado comprar a cerveja e já se dispunham a comprar as fraldas dos
bebês.
O entendimento do porquê pode
ajudar a planejar ações de recomendação e marketing.
Como (How)
Com que dados e com que
técnicas/algoritmos/ferramentas o conhecimento foi descoberto?
Isto significa avaliar a amostra utilizada,
o que pode enviesar os resultados.
Este H também trata de entender o
desenrolar do processo até o resultado final. Por exemplo, no caso de fraldas e
cervejas, pode-se descobrir também que o cliente primeiro vai até o setor de
cervejas e depois então procura as fraldas.
Quanto (How Much)
Quanto de verdade há neste
conhecimento ? Isto pode ser medido pela confiança ou probabilidade (condicional)
do conhecimento descoberto.
No exemplo, talvez somente 40%
dos que compram fraldas comprem cerveja. Se for 100%, teremos um caso muito
especial de venda cruzada.
Outro indicador a ser avaliado é
o suporte, que significa o número de casos onde o padrão acontece. Isto dá uma
medida de “interestingness” (o quanto o padrão é interessante).
Por exemplo, podemos ter uma
probabilidade ou confiança de 100%, ou seja, todo mundo que compra fralda
também compra cerveja.
Mas se isto só ocorreu uma vez
(um único cliente), o conhecimento não é muito interessante.
Um outro exemplo
O que = 80% dos clientes são
mulheres de classe A, casadas, com filhos e curso superior
Quem = software de Data Mining
Quando = clientes que estavam
ativos entre janeiro e junho de 2018
Onde = numa empresa de TV paga no
estado do RS (todas as cidades onde a empresa está presente)
Por que = as mulheres cuidam dos
serviços da casa e por isto se cadastram na empresa pela família
Como = os valores dos planos são
caros, atraindo famílias de classe alta. Famílias sem filhos ou pessoas solteiras
não veem atrativo nos pacotes oferecidos
Quanto = 80% de probabilidade
O Interessante pode
estar nas Comparações entre subgrupos
Utilize cada parte do 5W2H para
separar os dados em subgrupos e fazer comparações.
O que
Compare os padrões de
comportamento entre este perfil (mulheres de classe A, casadas, com filhos e
curso superior) e os clientes que estão fora deste perfil.
Quem
Utilize diferentes técnicas ou
ferramentas e veja se os resultados são iguais.
Quando
Faça novas análises para saber se
o padrão está mudando com o tempo ou com as ações da empresa. Por exemplo, se o
% aumenta ou diminui a cada mês. E também o que acontece após cada ação de
marketing (ajuda ou atrapalha? Aumenta a fatia deste perfil ou diversifica?).
Onde
Compare o % para cada cidade ou
microrregião ou bairro.
Por que
Compare as explicações em cada
subgrupo (ex. mulheres x homens; cidades entre si).
Como
Compare o processo para cada
subgrupo (ex. mulheres x homens; cidades entre si).
Quanto
Monitore o %, se aumenta ou
diminui com o tempo e entre segmentos diferentes.
Se queres saber mais sobre Business Intelligence (processo,
etapas, técnicas, cuidados, amostragens, etc.), leia o livro
BI na era do big data para cientistas de dados: indo além de
cubos e dashboards na busca pelos porquês, explicações e padrões