quarta-feira, 27 de fevereiro de 2019

Como verificar veracidade de um conhecimento descoberto por Analytics


Esta proposta não é um método, mas sim uma técnica para ajudar pessoas e organizações a verificarem a veracidade de um conhecimento descoberto por processo de Análise, Mineração ou Business Intelligence.

A ideia é usar a técnica 5W2H = What, Who, When, Where. Why, How, How much (O que, Quem, Quando, Onde, Por que, Como, Quanto).

Vamos usar um exemplo para entender a técnica: o famoso caso que descobriu que “Quem compra fraldas, também compra cerveja”.
Obs: a lenda diz que a associação só acontecia na 6ª-feira, mas vamos simplificar.

O que (What)

O 1º W é saber o que foi descoberto, se é o perfil de uma classe de elementos (ex. perfil de clientes) ou uma associação/implicação/regra (fraldas x cervejas) ou uma distribuição ou média (ex. 40% dos clientes são mulheres, clientes gastam 40 reais em média) ou outro tipo.
No exemplo, o que se refere a “quem compra fraldas, também compra cerveja”.
Neste caso, vale ressaltar que a implicação tem um sentido, das fraldas para cerveja. Então, quem está interessado somente na cerveja talvez não compre fraldas.

Quem (Who)

Este W trata de quem descobriu. Foi um humano ou um sistema automático de Data Mining por exemplo.
Se foi um humano, qual seu cargo ou posição, para que possamos avaliar o conhecimento prévio que ele possui e seus hábitos.
No nosso exemplo, a regra de associação entre fraldas e cervejas foi descoberta por um algoritmo automatizado.

Quando (When)

O conhecimento foi descoberto sobre dados relativos a que período de tempo? Muito provavelmente o conhecimento só é verdade durante o período dos dados.
Por exemplo, se a associação entre fraldas e cerveja está presente nas vendas de um mês específico, talvez não apareça em outros meses. E também deve-se avaliar se a associação continuará ocorrendo no futuro.
Outra avaliação é quanto à granularidade de tempo. O conhecimento descoberto acontece todo ano? Todos os meses? Todos os dias ou somente num dia específico da semana? E acontece em algum turno específico (ex. só de manhã) ou numa hora específica?
Também é preciso avaliar o momento da coleta. Os dados podem ter sido registrados durante o ano de 2016, mas a análise só foi feita em 2018. Este “gap” de tempo pode invalidar o conhecimento (talvez não seja mais válido ou verdadeiro).
Este W também inclui avaliar como os dados foram coletados (explicitamente, implicitamente ou por inferência). Cada modo possui a sua incerteza.

Onde (Where)

Este W se refere ao local físico ou geográfico onde o conhecimento é válido.
No caso das fraldas e cerveja, talvez a associação só seja válida numa loja específica ou para um país ou estado.

Por que (Why)

Este W procura entender por que acontece assim. Este é o método Aristotélico, que procura uma explicação lógica (se não tiver uma explicação lógica, então não é verdade).
No caso das fraldas e cerveja, especialistas chegaram a conclusão que a associação ocorria porque homens iam no supermercado comprar a cerveja e já se dispunham a comprar as fraldas dos bebês.
O entendimento do porquê pode ajudar a planejar ações de recomendação e marketing.

Como (How)

Com que dados e com que técnicas/algoritmos/ferramentas o conhecimento foi descoberto?
Isto significa avaliar a amostra utilizada, o que pode enviesar os resultados.
Este H também trata de entender o desenrolar do processo até o resultado final. Por exemplo, no caso de fraldas e cervejas, pode-se descobrir também que o cliente primeiro vai até o setor de cervejas e depois então procura as fraldas.

Quanto (How Much)

Quanto de verdade há neste conhecimento ? Isto pode ser medido pela confiança ou probabilidade (condicional) do conhecimento descoberto.
No exemplo, talvez somente 40% dos que compram fraldas comprem cerveja. Se for 100%, teremos um caso muito especial de venda cruzada.
Outro indicador a ser avaliado é o suporte, que significa o número de casos onde o padrão acontece. Isto dá uma medida de “interestingness” (o quanto o padrão é interessante).
Por exemplo, podemos ter uma probabilidade ou confiança de 100%, ou seja, todo mundo que compra fralda também compra cerveja.
Mas se isto só ocorreu uma vez (um único cliente), o conhecimento não é muito interessante.


Um outro exemplo


O que = 80% dos clientes são mulheres de classe A, casadas, com filhos e curso superior

Quem = software de Data Mining

Quando = clientes que estavam ativos entre janeiro e junho de 2018

Onde = numa empresa de TV paga no estado do RS (todas as cidades onde a empresa está presente)

Por que = as mulheres cuidam dos serviços da casa e por isto se cadastram na empresa pela família

Como = os valores dos planos são caros, atraindo famílias de classe alta. Famílias sem filhos ou pessoas solteiras não veem atrativo nos pacotes oferecidos

Quanto = 80% de probabilidade


O Interessante pode estar nas Comparações entre subgrupos


Utilize cada parte do 5W2H para separar os dados em subgrupos e fazer comparações.

O que
Compare os padrões de comportamento entre este perfil (mulheres de classe A, casadas, com filhos e curso superior) e os clientes que estão fora deste perfil.

Quem
Utilize diferentes técnicas ou ferramentas e veja se os resultados são iguais.

Quando
Faça novas análises para saber se o padrão está mudando com o tempo ou com as ações da empresa. Por exemplo, se o % aumenta ou diminui a cada mês. E também o que acontece após cada ação de marketing (ajuda ou atrapalha? Aumenta a fatia deste perfil ou diversifica?).

Onde
Compare o % para cada cidade ou microrregião ou bairro.

Por que
Compare as explicações em cada subgrupo (ex. mulheres x homens; cidades entre si).

Como
Compare o processo para cada subgrupo (ex. mulheres x homens; cidades entre si).

Quanto
Monitore o %, se aumenta ou diminui com o tempo e entre segmentos diferentes.



Se queres saber mais sobre Business Intelligence (processo, etapas, técnicas, cuidados, amostragens, etc.), leia o livro
BI na era do big data para cientistas de dados: indo além de cubos e dashboards na busca pelos porquês, explicações e padrões



terça-feira, 5 de fevereiro de 2019

Os 5Vs do Big Data e suas implicações

LIVRO GRÁTIS

Volume, Velocidade, Variedade, Veracidade e Valor: 
Como os 5 Vs do Big Data estão impactando as Organizações e a Sociedade

Baixar aqui

Resumo:

A sociedade, as organizações e as pessoas estão cada vez mais gerando, armazenando e usando mais dados. O grande volume de dados é a primeira característica do fenômeno pós-moderno conhecido como Big Data. A quantidade de dados melhora a tomada de decisão mas exige cuidados como análises corretas e foco para evitar prejuízos com a chamada sobrecarga. Este livro discute o impacto do crescimento exponencial, as diferentes formas e tecnologias para coleta de dados, as dificuldades para lidar com tamanho volume e ferramentas que podem nos ajudar a encontrar utilidade nos dados.
A segunda característica do Big Data é a grande velocidade com que dados são trocados entre pessoas, organizações e países, através de tecnologias da informação e comunicação. A velocidade ajuda a tornar as decisões mais rápidas, mas também faz com que eventos de um lado do mundo impactem o outro lado em minutos. Além de discutir o impacto desta velocidade na sociedade, este livro discute também as formas de disseminação da informação e os fatores que influenciam a velocidade de transmissão.
A terceira característica original do Big Data é a variedade dos dados. Hoje podemos coletar e armazenar dados em formatos estruturados ou não estruturados, como textos, imagens e sons. O livro apresenta os diferentes formatos de dados (incluindo grafos, mapas, redes, etc.) e ferramentas para lidar com eles. O livro também discute os benefícios de se ter dados tão variados e as dificuldades que advém desta diversidade.
A quarta característica do Big Data a ser analisada é a veracidade dos dados. Quando podemos confiar numa informação ? O que é uma fonte confiável ? Como confirmar uma informação, como saber se algo é verdade ? São questões discutidas neste livro, além dos males que fake News e informações não confiáveis estão causando na sociedade.
A quinta característica do Big Data é o valor dos dados. De nada adianta ter dados se eles não puderem ser transformados primeiro em informação, depois em conhecimento e por fim servirem para resolver problemas (inteligência e sabedoria). Este livro discute o que é uma informação de valor e como medir tal valor. Também são discutidos impactos que dados valorizados podem causar em relações entre empresas, pessoas e sociedades.
Por fim, o livro aborda a questão da complexidade de dados e como isto está gerando sistemas e organizações mais complexas, mais difíceis de serem entendidas e gerenciadas. 
Na introdução, apresentamos os benefícios do Big Data e discutimos o uso de dados com estatísticas em contraposição a intuições.