terça-feira, 1 de outubro de 2019

Categorização de eventos para análise de sequências temporais


A técnica de análise de sequências temporais analisa estatisticamente sequências de eventos com o objetivo de encontrar sequências que se repetem. Cada sequência será representada por uma linha de tempo com eventos que já ocorreram.

A análise pode ser feita dentro de uma mesma linha de tempo ou entre linhas de tempo. Então costuma-se considerar que cada linha de tempo (uma sequência de eventos) é um caso individual.

As linhas de tempo (sequências de eventos) podem corresponder a (exemplos):
·         Eventos de saúde de uma pessoa durante sua vida;
·         Ações de vendedores no relacionamento com um cliente;
·         Ações de vendedores independente de clientes;
·         Decisões tomadas por gestores;
·         Eventos relacionados a clientes (compras, reclamações, etc.);
·         Produtos adquiridos por um cliente;
·         Eventos que ocorreram numa empresa (ex. acidentes);
·         Eventos que ocorreram numa região geográfica (ex. terremotos, chuvas, visitas de governantes).

Na imagem a seguir, pode-se ver um exemplo com alguns padrões encontrados:
a) das 3 vezes que o evento “triângulo azul” ocorreu, o evento “triângulo amarelo” ocorreu depois (não temos o intervalo de tempo)
b) o evento “triângulo amarelo” foi seguido pelo evento “círculo vermelho” duas vezes
c) o evento “triângulo azul” foi sucedido pelo evento “círculo azul” mas bem depois, com alguns eventos entre eles.




Sempre que houver um campo “data” no banco de dados, será possível registrar sequências de eventos. E também será possível analisar com esta técnica (não necessariamente iremos descobrir padrões).

Este tipo de análise permite predizer acontecimentos. Por exemplo, na imagem em questão, há uma probabilidade de que ocorra um evento tipo “círculo vermelho” na linha de tempo de Ana no ano de 2006.

Maltz e Klosak-Mullany (200) utilizaram esta técnica de sequência de tempo para encontrar padrões estatísticos no comportamento de jovens delinquentes nos EUA e antever eventos ruins em suas vidas, para intervir antes que aconteçam.
MALTZ, Michael D.; KLOSAK-MULLANY, Jacqueline. Visualizing Lives: New Pathways for Analyzing Life Course Trajectories. Journal of Quantitative Criminology, v.16, n.2, June 2000, p.255-281.


A análise de sequências temporais pode ser feita de várias formas. Eis algumas:
a)      Um evento sucede outro, não importando se há outros eventos no meio; a reclamação de um cliente no site é sempre seguida por um registro no site ReclameAqui;
b)      Um evento sucede outro logo em seguida (sem outro evento no meio); ex. ministrar o remédio X ao paciente faz a pressão baixar imediatamente;
c)      Um evento sucede outro dentro de um intervalo de tempo X; ex.: quem compra um home theater volta dentro de 3 meses para comprar uma TV de LED.


O objetivo desta postagem é sugerir uma forma de categorizar eventos ao invés de usar eventos individuais ou muito específicos.

Imagine que haja uma sequência com tais eventos:
a)      O ministro da Fazenda (federal) esteve presente na cidade;
b)      Choveu torrencialmente no momento da partida dele;
c)      As vendas do produto W cresceram no dia seguinte à partida.

Talvez seja muito difícil que esta mesma sequência de eventos se repita. Mas talvez outros ministros visitem a cidade.

Então talvez consigamos encontrar um padrão nos nossos registros históricos que seja assim:
Toda vez que um ministro do governo federal visita a cidade
E
Que chove durante sua estada
Então as vendas de produtos do tipo KLM aumentam durante os dias seguintes.


Outros exemplos:

a) Vendas
Categorias de eventos:
- tipos de produtos adquiridos: por setor, tamanho, faixa de preço;
- ações de clientes: consulta de preços, consulta de forma de pagamento, cadastro, reclamações;

b) Atendimentos médicos
Categorias de eventos:
- tipos de pacientes atendidos: ex. faixa etária, sexo
- tipos de sinais e sintomas
- tipos de prescrições médicas
- tipos de especialidades médicas que atenderam
- tipos de exames feitos

c) Atendimentos em uma oficina mecânica
Categorias de eventos:
- tipos de carros: tamanho, cor, modelo, ano
- tipos de serviços prestados
- tipos de problemas, defeitos ou reclamações

d) Eventos gerais significativos
Categorias de eventos:
- catástrofes naturais
- eventos naturais acima/abaixo do normal: neve, chuva, temperatura, seca, umidade
- reuniões ou visitas de líderes políticos ou religiosos
- manifestações ou festas populares (eventuais ou fixas no calendário)

e) Eventos econômicos
- aumento/redução de taxa de juros
- publicação de previsões de índices (inflação ou PIB)
- subida/descida de moedas (dólar, euro)
- falência de uma grande empresa
- anúncios importantes do governo
- votações de projetos importantes

terça-feira, 24 de setembro de 2019

11 razões por que eu só compro e-books (livros eletrônicos)

Eu uso aplicativos como Kindle, Moon Reader ou Mobi Reader, para ler livros eletrônicos (formatos pdf, mobi, etc.).
Estes aplicativos funcionam em qualquer tipo de celular ou tablet e também têm versões para PC (desktop).

Aqui vão as razões por que só compro livros eletrônicos (e-books):

1) são mais baratos que livros em papel e não precisam pagar frete. Tu compra e já recebe no dispositivo móvel, na mesma hora.

2) tenho quase todos os meus livros no dispositivo (celular) ou na nuvem. Não preciso transportar livros físicos.
Se quero reler um livro, ele já está comigo.

3) a leitura é mais fácil, porque não preciso segurar um livro físico que é mais pesado. E passar páginas também é mais fácil. Dá para segurar o celular com uma mão e passar páginas sem usar a outra.

4) pode-se aumentar o tamanho da letra. Além disso, dá para alternar entre fundo e cor de letra (branco x preto). Letra branca no fundo preto é melhor para ambientes com pouca luz.

CUIDADO: em geral, os arquivos pdf aparecem como imagens. Então, ao aumentar o tamanho da letra, na verdade ele aumenta a imagem. E aí a linha fica maior que a largura da tela. Para ler é ruim porque precisa deslocar o texto para os lados. Mas no aplicativo Moon Reader, tem uma opção para extrair o texto da imagem. Assim, é possível colocar o tamanho de letra que quiser, e ele ajusta a linha para caber na largura da tela.

5) dá para ler no escuro e sem incomodar o parceiro ou parceira. Basta configurar a luminosidade. Assim, posso ler em qualquer lugar. Para ler livros físicos, preciso de um lugar com boa luminosidade.

6) quando eu paro de ler e volto em outra hora, ele volta para a mesma página onde parei.
Se tu estiver usando dispositivos diferentes, ele sincroniza. Ou seja, posso reiniciar a leitura em outro dispositivo que ele "lembra" a página onde parei.

7) eu gosto de fazer resumos. Há opções para fazer COPIAR+COLAR. Copio os trechos que quero e colo num documento texto.
Assim, tenho resumos de todos os livros que leio.

8) há opções para marcar partes do texto com cores (como as canetinhas coloridas em livros de papel). Dá para marcar também páginas. Eu não uso estes recursos porque uso o recurso anterior.

9) pode-se fazer buscas por palavras no texto. Ele traz os trechos onde a palavra aparece.

10) em alguns aplicativos, depois que tu tá lendo há muito tempo, ele bloqueia a tela para tu descansar os olhos.

11) pode-se ver o índice a qualquer momento. E é possível ir para qualquer capítulo ou seção que esteja no índice bastando clicar no título.

Obs: na verdade, eu ainda compro livros físicos. São aqueles que ainda não tem edição em formato eletrônico. Geralmente, são livros mais antigos. Neste caso, procuro olhar os livros usados no site Estante Virtual, que reúne os maiores sebos do Brasil. Ali eles indicam inclusive o estado do exemplar, se tem anotações, se está amarelado, rasgado, etc.

sexta-feira, 6 de setembro de 2019

Livro "Disseminação de Conhecimento"

Disseminação de Conhecimento: como a informação se espalha e por que as pessoas compartilham conhecimento, memes, fofocas e boatos.


Este livro é o terceiro de uma série ou trilogia sobre conhecimento, começando com estes dois:

LOH, Stanley. De onde vem o Conhecimento: depois do diálogo entre Sócrates e Teeteto. Porto Alegre, 2018.

LOH, Stanley. Memória organizacional: como coletar, armazenar e recuperar conhecimentos explícitos e tácitos. Porto Alegre, 2018.

Resumo:

Este livro procura estudar como conhecimentos e informações se espalham, procurando auxiliar os que pretendem melhorar suas técnicas de comunicação, levando informação de mais qualidade, alcançando mais pessoas e as pessoas certas, aumentando a velocidade da disseminação e utilizando os recursos apropriados.
Na parte II, veremos como se deu a evolução da disseminação de conhecimento e informações durante a evolução do próprio gênero Homo, incluindo o surgimento da linguagem, da escrita e do alfabeto.
Na parte III, apresentamos os aspectos e fatores envolvidos na disseminação, tentando explicar como a informação se espalha. Esta seção discute como o tipo de rede física ou social pode interferir, como certos tipos de pessoas impulsionam a disseminação numa rede, a força do hábito e da imitação, a influência do grupo sobre indivíduos, a confiança e a reputação, a atenção e as limitações da memória humana, etc. A seção também defende com argumentos que o meio interfere na disseminação, ou seja, compara formatos como texto, imagens e sons, e debate a comunicação verbal e a não verbal, dando ênfase aos meios digitais.
Na parte IV, o livro debate o que motiva as pessoas a compartilharem informações, sejam boas ou ruins, sejam verdades ou boatos. Esta seção traz estudos científicos sobre técnicas de motivação de pessoas para o trabalho e discute fatores como incentivos financeiros, fama e exibicionismo, cooperação e virtude, altruísmo e reciprocidade, prazer e felicidade.
Na parte V, é discutida uma lista de barreiras à disseminação de conhecimento e informações.
A parte VI trata dos sistemas de recomendação, que são ferramentas e técnicas baseadas em software e sistemas de Inteligência Artificial, responsáveis por filtrar e encaminhar informações para pessoas, sem mesmo que estas precisem solicitar ou dizer do que precisam.
A parte VII traz discussões sobre técnicas e ferramentas para análise da disseminação. O uso de representações gráficas como grafos e diagramas podem ajudar a entender o processo de disseminação e até mesmo auxiliar em cálculos de velocidade e alcance.

terça-feira, 14 de maio de 2019

Livro sobre a verdade e veracidade de dados


A verdade está nos dados ou não? Discussões sobre o que é verdadeiro na era do Big Data, das fake news e da pós-verdade




A ideia deste livro não é filosofar sobre a verdade. Queremos saber como chegar à verdade, de preferência com base em dados ou fatos. Em alguns casos, a verdade é única. Por exemplo, “a Terra é redonda”. Mas a verdade pode mudar ao longo do tempo, quando conseguimos novas informações (as quebras de paradigmas bem discutidas por Thomas Kuhn). Duas pessoas podem discordar sobre uma temperatura (está quente ou frio?). Também é verdade que pessoas enxergam fisicamente de forma diferente. As percepções sensoriais podem nos enganar. E a memória pode nos trair.

Entretanto, em alguns casos, não podemos admitir diferentes verdades. Temos que respeitar as opiniões contrárias mas buscar a verdade única. No julgamento de um réu por assassinato, a verdade tem que ser uma só de duas opções. No tocante também a tratamentos médicos e vacinas, ninguém que ser paciente de um médico que não sabe qual medicamento indicar. A meia verdade ou as verdades relativas podem matar tanto quanto a falta de conhecimento.

É preciso buscar a verdade, ainda que não a tenhamos no momento. Precisamos de métodos científicos, técnicas para coleta de dados, observações, experimentos, simulações, precisamos de instrumentos e de modelos teóricos. Precisamos validar modelos, confirmar teorias e refutar hipóteses falsas. Se não houver certeza, que então trabalhemos com estatística e probabilidade.

Precisamos dados, fatos e evidências. Temos muitos dados (Big Data) à disposição e temos ferramenta para análise. Precisamos sincronizar dados, ferramentas e mentes para entender o que os dados nos dizem. Discutiremos como coletar dados com as novas tecnologias de Internet das Coisas e Inteligência Artificial. Mas também discutiremos que a análise dos dados também pode levar a interpretações equivocadas ou dúbias.

A quem se destina este livro:
·         Jornalistas que queiram procurar e escrever sobre fatos e verdades;
·         Cientistas que estão procurando verdades em seus experimentos e observações;
·         Analistas e cientistas de dados que queiram extrair a verdade de seus dados;
·         Leitores e cidadãos críticos que queiram entender como as verdades são desviadas e que então desejem saber como chegar até as verdades lendo textos de fontes confiáveis;
·         Pessoas que queiram entender as limitações humanas para armazenar e transmitir informações, o que gera confusões de fatos e opiniões;
·         Profissionais que queiram saber como transmitir mais precisamente fatos e informações;
·         Pessoas que desejam entender como separar fatos de interpretações;
·         Pesquisadores que precisam entender que a coleta de informações por humanos é falha e possui limitações (e como isto acontece);
·         Profissionais que trabalham com observação de fatos e que procuram fazer registros mais fiéis de dados;
·         Sociólogos e filósofos que estão tentando entender o comportamento humano na era da Pós-Verdade;
·         Profissionais de tecnologia de informação, software, computação e sistemas automatizados que queiram entender os equívocos possíveis na coleta, armazenamento e transmissão de dados digitais;
·         Profissionais que precisam avaliar a credibilidade de fontes de informações;
·         Profissionais de saúde preocupados em saber as melhores práticas e medicamentos para cada diagnóstico.


Livro na Amazon

terça-feira, 7 de maio de 2019

Slides da palestra no GUBI/SUCESU

Aqui estão os slides da minha palestra no dia 07/05/2019 no Grupo de Usuários de BI, da SUCESU/RS.

https://www.intext.com.br/palestra_sucesu.pdf

Título: ESTRATÉGIAS PARA ANÁLISE INTELECTUAL DE DADOS

Resumo:
A palestra discute a importância de se coletar dados corretos para análise, os cuidados na preparação de amostras para análise e as dificuldades na interpretação dos resultados. Também abordará técnicas intelectuais e novas formas para coleta e análise de dados, envolvendo novas tecnologias de Big Data, mapas conceituais, storytelling, associações visuais e incorporação de sinais fracos. Por fim, serão discutidas formas de avaliar a validade dos conhecimentos descobertos por processos de Analytics e Data Mining.


sexta-feira, 26 de abril de 2019

Como detratar ou elogiar algo a partir do mesmo dado


Imagine que um administrador de um hospital municipal, que atende somente SUS, apresente o gráfico a seguir, com o indicador de número de cirurgias agendadas por ano (ano x número de cirurgias de todos os tipos e para todos tipos de pacientes).



Para Elogiar

a) Houve um grande aumento de 13,9% de um ano para outro.
b) A inclinação do gráfico pode ser jogada para cima (neste gráfico, está próximo de 30 graus).
c) Esse é um aumento maior em relação a aumentos em anos anteriores (entre 2016 e 2017, houve baixa; entre 2015 e 2016, o aumento foi de 10%)
d) O aumento ocorreu porque “nós fizemos isso e aquilo”.
e) 12% das cirurgias foram feitas em pessoas carentes e minorias étnicas.
f) Ainda houve redução no tempo de uso das salas cirúrgicas, o que permite abrir espaço para mais cirurgias.
g) O número de cirurgias plásticas aumentou 23%.

Para Detratar

a) Houve um pequeno aumento de 13,9% de um ano para outro.
b) A inclinação do gráfico pode ser jogada para baixo (neste gráfico, está próximo de 30 graus).
c) Esse é um aumento menor em relação a aumentos em anos anteriores (por exemplo, entre 2014 e 2015 o aumento foi de 15%).
d) O aumento foi pequeno porque não foram feitos investimentos adequados.
e) Somente 12% das cirurgias foram feitas em pessoas carentes e minorias étnicas (a maioria das cirurgias foi feita em pessoas que têm poder aquisitivo para pagar por uma cirurgia).
f) Houve aumento no número de cirurgias mas o custo por cirurgia aumentou.
g) Apesar do aumento de 13,9% nas cirurgias, a fila por cirurgias aumentou 3,5%. E no mesmo período, o número de atendimentos aumentou 30% e a população da cidade aumentou 15%.

O correto a fazer, para saber a verdade

a) Evitar adjetivos (subjetividade); comparar com evoluções anteriores (todas), se aumento ou redução 
b) Gráfico de barras permite melhor comparação de proporcionalidades
c) Quais os dados de anos anteriores
d) O que causou o aumento? Pode ter sido menor ou maior devido a fatores externos (quais?).
e) Mostrar o % por subgrupos ou setores, usando critérios de divisão como sexo, faixa etária, classe social, tipo de cirurgia, etc. E mostrar se houve aumento ou redução em cada setor.
f) e g) Comparar com outros indicadores, por exemplo:
Custo por cirurgia, uso de materiais e recursos,
Quantas cirurgias foram realmente feitas (algumas foram canceladas)
Quantas tiveram ou terão que ser refeitas por erro médico
Quantas se referem a cirurgias reparadoras por erro médico em cirurgias anteriores
Avaliar o contexto (evolução na população, evolução de investimentos e gastos, evolução de outros tipos de atendimentos)


sexta-feira, 5 de abril de 2019

5W2H para entender problemas e necessidades de informação


A técnica dos 5W e 2H é muito útil para várias coisas. Eu já falei em um post anterior sobre seu uso para verificar a validade/verdade de conhecimentos descobertos em análises de dados.

Aqui destaco sua aplicação para entender um problema (útil para Analistas de TI) e para entender uma necessidade de informação (útil para Analistas de BI).

No 1º caso, a técnica ajuda no processo de análise de requisitos, para que soluções possam ser buscadas depois.
No 2º caso, a técnica ajuda aos analistas e cientistas de dados a prepararem os dados para análise.

Entendendo um problema:


What: qual o problema?
Who: quem está tendo este problema? Quem mais participa do problema? Quem está relatando, encontrando ou verificando o problema?
Where: onde (local físico ou virtual) o problema está ocorrendo? Onde o problema está sendo verificado?
When: quando o problema ocorre? É esporádico ou regular? Qual sua frequência? Quando o problema é notado?
Why: Por que é um problema (quais seus impactos negativos)?
How: como o problema ocorre? Que etapas anteriores acontecem? por que o problema acontece? Quais suas causas (mesmo que aparentes, não confirmadas)?
How much: quão grande é o impacto deste problema (pode ser especificado numa escala numérica de 1 a 10 por exemplo)?

Exemplo:
What: há muitas reclamações de clientes em relação ao atendimento via telefone (SAC)
Who: os clientes relatam; atendentes do SAC estão envolvidos, bem como seus supervisores
Where: está acontecendo no SAC (via telefone); as reclamações são recebidas via e-mail (lidos pelos supervisores do SAC)
When: as reclamações chegam durante todos os dias, em vários horários
Why: há uma suspeita que este tipo de reclamação esteja gerando perda de clientes
How: análises superficiais das reclamações recebidas indicam demora no atendimento e falta de soluções; as reclamações se originam após atendimentos via telefone
How much: são em média 20 reclamações por dia.


Entendendo uma necessidade de informação:


What: qual é a necessidade de informação ?
Who: (origem è entrega) Quem pode ter esta informação (ou partes de informações que possam levar à informação desejada)? quem está precisando desta informação?
Where: (origem è entrega) onde (local físico ou virtual) a informação pode ser encontrada (ou partes de informações que possam levar à informação desejada) ? onde a informação deve ser entregue?
When: (origem è entrega) quando a informação deve ser coletada ou analisada ? É esporádico ou regular? Qual sua frequência? Quando a informação deve ser entregue?
Why: Por que a informação é necessária ? que problema ajuda a resolver?  
How: como a informação pode ser encontrada ou descoberta? Que etapas anteriores são necessárias ?
How much: quão grande é esta necessidade (pode ser especificado numa escala numérica de 1 a 10 por exemplo)? Qual o volume esperado de dados de entrada e de dados resultantes desta busca? Quantas vezes esta busca será feita?

Exemplo:
What: precisamos saber do que exatamente os clientes estão reclamando em relação ao atendimento no SAC (via telefone)
Who: os clientes geram as reclamações (via textos em emails), onde então devem estar as informações para este tipo de análise; quem precisa dos resultados da análise são os supervisores de atendimento
Where: a informação está nos emails; o resultado da análise deverá chegar até o setor de atendimento, mas especificamente nos supervisores
When: seria importante ter a informação ao final de cada semana
Why: a informação irá melhorar o atendimento e consequentemente aumentar a retenção de clientes
How: a análise poderá ser feita por tipo de cliente, por tipo de atendimento, por atendente e por períodos de tempo; o resultado será na forma de alguns gráficos; será necessário utilizar técnicas de text mining
How much: são em média 20 reclamações por dia (e-mails).


sexta-feira, 22 de março de 2019

Como Mitologia e Storytelling podem ajudar na análise de dados


Já sabemos que a intuição pode ser útil na tomada de decisões.

Intuição é um modo não sequencial de processamento de informações que combina elementos cognitivos e afetivos e resulta em conhecimento direto sem uso de raciocínio consciente.

A intuição nos leva à imaginação e às histórias inventadas.

Storytelling é o termo utilizado hoje em dia para representar a técnica de transmissão de conhecimento através de histórias. Se você quer que as pessoas lembrem de algo e acredite na mensagem, é melhor dar a informação no formato de uma história. Quanto mais detalhes (quanto mais rica a narrativa), mais facilmente a história será tomada como verdadeira.

Os Incas não usavam registros escritos ou desenhos para transmitir suas memórias. Mas nem por isto suas histórias se perderam, porque usavam muito bem a transmissão oral. Para fortalecer a memória de quem ouvia, o conhecimento era transmitido através de histórias. Para Zacks e Swallow (2007, 2010), o ser humano organiza a atividade mental em hierarquias de eventos, colocando fronteiras para dividir e entender as partes. Isto ajuda a memorizar e aprender, a entender o contexto e as sequências e lidar com interrupções. Por isto, o registo de memórias através de histórias facilita a recuperação.

Mas storytelling não é só contar histórias. Inventar histórias nos ajuda a entender coisas complexas. É assim que funcionam os mitos.

Quando temos apenas parte dos dados, procuramos uma explicação lógica e coerente para associar os dados que temos e preencher as lacunas.

Podemos então usar a imaginação para ligar fatos, preenchendo as lacunas com possíveis dados. A intuição e a imaginação nos ajudam a fazer suposições sobre dados que não estão presentes. Fica mais fácil para depois procurar evidências para confirmar os dados que foram supostos. Esta é a combinação perfeita para dados e intuições.

Este tipo de estratégia exige também que façamos as perguntas certas. Por exemplo, se um vendedor não está com bom desempenho, podemos perguntar “por que os clientes não querem comprar” ou “o que o vendedor está fazendo de errado”.

Um exemplo.
Analise o mapa mental abaixo, com dados que já foram coletados e confirmados.



Uma pergunta que nossa imaginação ou intuição nos impele a fazer é: os concorrentes também estão tendo reclamações sobre preços?

Isto pode ser verificado coletando dados na Internet (blogs, fóruns, redes sociais, etc.).

Depois, a dúvida é: estamos perdendo clientes devido a estas reclamações?

Sendo assim, o nosso mapa mental fica como a seguir.

Aí a imaginação pode inventar histórias que nos ajudem a completar ou compreender este quadro.
Por exemplo:
a) estamos perdendo clientes para os concorrentes, porque nossos preços estão acima dos praticados pelos concorrentes.
b) não estamos perdendo clientes mas isto pode acontecer, porque estamos com preços acima da média e há muitas reclamações.
c) os clientes estão reclamando dos nossos preços, mas não querem deixar nossos serviços, porque são melhores do que do concorrente.
d) os clientes acham que pagam demais pelos serviços recebidos.

Todas estas histórias acima nos dão caminhos para procurar por novas informações.
Por exemplo:
a) vamos perguntar aos clientes que estão nos deixando se isto é verdade?
b) usar Data Mining para predizer chance de clientes nos deixarem, com base em mudanças históricas de preços.
c) qual a opinião dos clientes na comparação entre nossos serviços e dos concorrentes?
d) fazer pesquisa para saber qual o preço adequado para cada pacote de serviço possível (sondar a possibilidade de pacotes novos ainda não comercializados).



quarta-feira, 27 de fevereiro de 2019

Como verificar veracidade de um conhecimento descoberto por Analytics


Esta proposta não é um método, mas sim uma técnica para ajudar pessoas e organizações a verificarem a veracidade de um conhecimento descoberto por processo de Análise, Mineração ou Business Intelligence.

A ideia é usar a técnica 5W2H = What, Who, When, Where. Why, How, How much (O que, Quem, Quando, Onde, Por que, Como, Quanto).

Vamos usar um exemplo para entender a técnica: o famoso caso que descobriu que “Quem compra fraldas, também compra cerveja”.
Obs: a lenda diz que a associação só acontecia na 6ª-feira, mas vamos simplificar.

O que (What)

O 1º W é saber o que foi descoberto, se é o perfil de uma classe de elementos (ex. perfil de clientes) ou uma associação/implicação/regra (fraldas x cervejas) ou uma distribuição ou média (ex. 40% dos clientes são mulheres, clientes gastam 40 reais em média) ou outro tipo.
No exemplo, o que se refere a “quem compra fraldas, também compra cerveja”.
Neste caso, vale ressaltar que a implicação tem um sentido, das fraldas para cerveja. Então, quem está interessado somente na cerveja talvez não compre fraldas.

Quem (Who)

Este W trata de quem descobriu. Foi um humano ou um sistema automático de Data Mining por exemplo.
Se foi um humano, qual seu cargo ou posição, para que possamos avaliar o conhecimento prévio que ele possui e seus hábitos.
No nosso exemplo, a regra de associação entre fraldas e cervejas foi descoberta por um algoritmo automatizado.

Quando (When)

O conhecimento foi descoberto sobre dados relativos a que período de tempo? Muito provavelmente o conhecimento só é verdade durante o período dos dados.
Por exemplo, se a associação entre fraldas e cerveja está presente nas vendas de um mês específico, talvez não apareça em outros meses. E também deve-se avaliar se a associação continuará ocorrendo no futuro.
Outra avaliação é quanto à granularidade de tempo. O conhecimento descoberto acontece todo ano? Todos os meses? Todos os dias ou somente num dia específico da semana? E acontece em algum turno específico (ex. só de manhã) ou numa hora específica?
Também é preciso avaliar o momento da coleta. Os dados podem ter sido registrados durante o ano de 2016, mas a análise só foi feita em 2018. Este “gap” de tempo pode invalidar o conhecimento (talvez não seja mais válido ou verdadeiro).
Este W também inclui avaliar como os dados foram coletados (explicitamente, implicitamente ou por inferência). Cada modo possui a sua incerteza.

Onde (Where)

Este W se refere ao local físico ou geográfico onde o conhecimento é válido.
No caso das fraldas e cerveja, talvez a associação só seja válida numa loja específica ou para um país ou estado.

Por que (Why)

Este W procura entender por que acontece assim. Este é o método Aristotélico, que procura uma explicação lógica (se não tiver uma explicação lógica, então não é verdade).
No caso das fraldas e cerveja, especialistas chegaram a conclusão que a associação ocorria porque homens iam no supermercado comprar a cerveja e já se dispunham a comprar as fraldas dos bebês.
O entendimento do porquê pode ajudar a planejar ações de recomendação e marketing.

Como (How)

Com que dados e com que técnicas/algoritmos/ferramentas o conhecimento foi descoberto?
Isto significa avaliar a amostra utilizada, o que pode enviesar os resultados.
Este H também trata de entender o desenrolar do processo até o resultado final. Por exemplo, no caso de fraldas e cervejas, pode-se descobrir também que o cliente primeiro vai até o setor de cervejas e depois então procura as fraldas.

Quanto (How Much)

Quanto de verdade há neste conhecimento ? Isto pode ser medido pela confiança ou probabilidade (condicional) do conhecimento descoberto.
No exemplo, talvez somente 40% dos que compram fraldas comprem cerveja. Se for 100%, teremos um caso muito especial de venda cruzada.
Outro indicador a ser avaliado é o suporte, que significa o número de casos onde o padrão acontece. Isto dá uma medida de “interestingness” (o quanto o padrão é interessante).
Por exemplo, podemos ter uma probabilidade ou confiança de 100%, ou seja, todo mundo que compra fralda também compra cerveja.
Mas se isto só ocorreu uma vez (um único cliente), o conhecimento não é muito interessante.


Um outro exemplo


O que = 80% dos clientes são mulheres de classe A, casadas, com filhos e curso superior

Quem = software de Data Mining

Quando = clientes que estavam ativos entre janeiro e junho de 2018

Onde = numa empresa de TV paga no estado do RS (todas as cidades onde a empresa está presente)

Por que = as mulheres cuidam dos serviços da casa e por isto se cadastram na empresa pela família

Como = os valores dos planos são caros, atraindo famílias de classe alta. Famílias sem filhos ou pessoas solteiras não veem atrativo nos pacotes oferecidos

Quanto = 80% de probabilidade


O Interessante pode estar nas Comparações entre subgrupos


Utilize cada parte do 5W2H para separar os dados em subgrupos e fazer comparações.

O que
Compare os padrões de comportamento entre este perfil (mulheres de classe A, casadas, com filhos e curso superior) e os clientes que estão fora deste perfil.

Quem
Utilize diferentes técnicas ou ferramentas e veja se os resultados são iguais.

Quando
Faça novas análises para saber se o padrão está mudando com o tempo ou com as ações da empresa. Por exemplo, se o % aumenta ou diminui a cada mês. E também o que acontece após cada ação de marketing (ajuda ou atrapalha? Aumenta a fatia deste perfil ou diversifica?).

Onde
Compare o % para cada cidade ou microrregião ou bairro.

Por que
Compare as explicações em cada subgrupo (ex. mulheres x homens; cidades entre si).

Como
Compare o processo para cada subgrupo (ex. mulheres x homens; cidades entre si).

Quanto
Monitore o %, se aumenta ou diminui com o tempo e entre segmentos diferentes.



Se queres saber mais sobre Business Intelligence (processo, etapas, técnicas, cuidados, amostragens, etc.), leia o livro
BI na era do big data para cientistas de dados: indo além de cubos e dashboards na busca pelos porquês, explicações e padrões



terça-feira, 5 de fevereiro de 2019

Os 5Vs do Big Data e suas implicações

LIVRO GRÁTIS

Volume, Velocidade, Variedade, Veracidade e Valor: 
Como os 5 Vs do Big Data estão impactando as Organizações e a Sociedade

Baixar aqui

Resumo:

A sociedade, as organizações e as pessoas estão cada vez mais gerando, armazenando e usando mais dados. O grande volume de dados é a primeira característica do fenômeno pós-moderno conhecido como Big Data. A quantidade de dados melhora a tomada de decisão mas exige cuidados como análises corretas e foco para evitar prejuízos com a chamada sobrecarga. Este livro discute o impacto do crescimento exponencial, as diferentes formas e tecnologias para coleta de dados, as dificuldades para lidar com tamanho volume e ferramentas que podem nos ajudar a encontrar utilidade nos dados.
A segunda característica do Big Data é a grande velocidade com que dados são trocados entre pessoas, organizações e países, através de tecnologias da informação e comunicação. A velocidade ajuda a tornar as decisões mais rápidas, mas também faz com que eventos de um lado do mundo impactem o outro lado em minutos. Além de discutir o impacto desta velocidade na sociedade, este livro discute também as formas de disseminação da informação e os fatores que influenciam a velocidade de transmissão.
A terceira característica original do Big Data é a variedade dos dados. Hoje podemos coletar e armazenar dados em formatos estruturados ou não estruturados, como textos, imagens e sons. O livro apresenta os diferentes formatos de dados (incluindo grafos, mapas, redes, etc.) e ferramentas para lidar com eles. O livro também discute os benefícios de se ter dados tão variados e as dificuldades que advém desta diversidade.
A quarta característica do Big Data a ser analisada é a veracidade dos dados. Quando podemos confiar numa informação ? O que é uma fonte confiável ? Como confirmar uma informação, como saber se algo é verdade ? São questões discutidas neste livro, além dos males que fake News e informações não confiáveis estão causando na sociedade.
A quinta característica do Big Data é o valor dos dados. De nada adianta ter dados se eles não puderem ser transformados primeiro em informação, depois em conhecimento e por fim servirem para resolver problemas (inteligência e sabedoria). Este livro discute o que é uma informação de valor e como medir tal valor. Também são discutidos impactos que dados valorizados podem causar em relações entre empresas, pessoas e sociedades.
Por fim, o livro aborda a questão da complexidade de dados e como isto está gerando sistemas e organizações mais complexas, mais difíceis de serem entendidas e gerenciadas. 
Na introdução, apresentamos os benefícios do Big Data e discutimos o uso de dados com estatísticas em contraposição a intuições.



terça-feira, 8 de janeiro de 2019

Dados x Intuições


Se não tivermos dados, toda decisão será um jogo de sorte ou azar. Por isto, dados e estatísticas são muito importantes. Por exemplo, no Brasil, o técnico de vôlei Bernardinho e sua equipe têm conseguido grandes resultados para o time nacional de vôlei usando estatísticas. Eles monitoram tudo o que é feito por cada jogador do time do Brasil e também dos adversários. Registram todos os tipos de jogadas, se resultaram em fracasso ou sucesso, como estava a posição dos jogadores, e com isto extraem relatórios de que jogadores estão melhor e quais estão com pior desempenho. Então, quando um brasileiro for "sacar", eles analisam em tempo real as estatísticas e verificam para que adversário deve ser direcionado o saque e de que forma (tipo de saque). E isto é feito para outras estratégias além do saque.

Michael Lewis (2004), no livro Moneyball (que virou filme com Brad Pitt), faz uma grande discussão sobre esta dicotomia entre usar ou não estatísticas. Ele discorre sobre o caso real do Oakland Athletics, time de baseball americano, para expor seus argumentos. A questão toda se desenrola na diferença entre olheiros humanos e sistemas estatísticos para fazer previsões sobre jovens jogadores. Cada time escolhe os jogadores mais promissores no início da temporada. A grande maioria dos clubes utiliza, até hoje, os olheiros (scouts).

Dados são melhores para apoiar decisões porque evitam o “achômetro” ou “achismo”. Carl Sagan (“O mundo assombrado por demônios”) e Shermer (2011) criticam o crescente uso de pseudociências no lugar da Ciência e do método científico.
(Ver a reportagem “Einstein e Newton estavam errados: estimulada por políticos nacionalistas, 'pseudociência' avança na Índia” https://www.bbc.com/portuguese/geral-46780542)

A falta de dados e de métodos científicos pode levar a grandes erros (ver reportagem sobre jornalista contrária a vacinas que morreu de H1N1 https://noticias.bol.uol.com.br/ultimas-noticias/entretenimento/2019/01/05/apresentadora-que-fazia-campanha-contra-vacina-morre-de-gripe-suina-nos-estados-unidos.htm).

Isto não significa que intuições e sentimentos não possam se usados no processo de decisão. Segundo Sinclair e Ashkanasy (2005), intuição é um modo não sequencial de processamento de informações que combina elementos cognitivos e afetivos e resulta em conhecimento direto sem uso de raciocínio consciente. Intuição é diferente de heurísticas, que são estratégias racionais de pouco esforço (segundo Tversky e Kahnemann).

Intuição é um palpite, mas não uma adivinhação. Ela é usada numa decisão sem muita explicação de onde veio, se ela está certa ou não ou por que devemos utilizá-la. É como saber algo sem saber explicar como. O ser humano possui uma certa capacidade para tomar decisões rápidas com pouca informação. A intuição não deve ser confundida com caminho mais fácil (preguiça). Ela deve ser usada quando a racionalidade está limitada. Ela deve ser precedida por dados.

Gunther (2013) acredita que usamos dados do inconsciente, que foram colhidos e armazenados antes, mas que não temos consciência de quando os estamos usando. É como reconhecer um amigo na rua ou a voz de alguém no telefone. Não tem explicação, mas a gente faz e na maioria das vezes não erra. Gunther cita Alfred P. Sloan, ex-executivo da GM: "o ato final da decisão é intuitivo". Isto porque é uma escolha entre alternativas. Ninguém sabe qual a melhor alternativa ou se uma delas vai dar certo ou não. Se soubéssemos, não seria decisão e sim "bola de cristal".

Entretanto, o próprio Gunther (2013) recomenda não confiar na primeira impressão, e sugere que coletemos muitos dados. Kahneman também concorda: é um grande risco tomar decisões usando a área preguiçosa e irracional do cérebro.

Por exemplo, grandes negócios são fechados somente após o encontro presencial entre as partes. Os homens de negócios dizem que é importante "olhar nos olhos". Isto também serve para contratações para empregos. Gladwell (2005), no livro “Blink – a decisão num piscar de olhos”, conta diversos casos onde especialistas tomam decisões baseados em intuições e não conseguem explicar como tomaram as decisões (corretas).

A intuição inclusive já evitou uma guerra nuclear. O militar russo Petrov avaliou intuitivamente os dados que tinha e combinou com avaliações anteriores sobre falhas no sistema, concluindo que não devia apertar o botão para enviar mísseis.

Ayres (2008) compara decisões tomadas com estatística x intuitivas. A conclusão de seus estudos é que números são melhores como base para análise, mas a intuição é importante para levantar possibilidades. O ideal é tomar decisão sobre fatos e dados confirmados.

Mas a intuição ajuda a identificar hipóteses e criar alternativas, além de ser útil para avaliar quais variáveis influenciam o processo e também para entender e interpretar os resultados estatísticos. Segundo Silver (2013), meteorologistas melhoram em 25% as previsões de precipitações feitas por computador e em 10% as da temperatura. Neste caso, as informações visuais são melhores interpretadas por seres humanos do que pelo computador. É por isto que

Por outro lado, avaliadores humanos muitas vezes erram porque se preocupam mais com aparências. Então os sistemas baseados em estatísticas podem ser melhores pois não são influenciados por ruídos e variáveis que não implicam em resultados e conseguem se adaptar melhor a pequenas variações nos parâmetros. Por outro lado, humanos vão melhor em alguns casos porque usam uma abordagem híbrida, com uma quantidade maior de informações do que a oferecida apenas pelas estatísticas. E ainda acumulam informações com o passar do tempo (não são sistemas estáticos). Um bom especialista humano também consegue informações privilegiadas, que a maioria não pode obter (por exemplo, no baseball, dados sobre a situação social e familiar do jogador). Se o investidor de bolsa de valores utilizar somente as informações públicas, a que todos têm acesso, não terá nenhuma vantagem. Os investidores precisam encontrar detalhes de informações que os outros não possuem.

Uma boa ideia então é combinar dados estatísticos com intuição, e não somente usar um ou outro. Onde a intuição não é detalhista, os dados podem nos ajudar a lembrar detalhes. Onde a estatística não é completa, a observação humana pode completar uma análise. Não há nada que garanta o resultado, seja utilizando dados estatísticos ou intuições. Mas é melhor para uma decisão ter mais dados (sejam confirmados ou não) e um bom especialista humano para analisar os dados.