terça-feira, 14 de maio de 2019

Livro sobre a verdade e veracidade de dados


A verdade está nos dados ou não? Discussões sobre o que é verdadeiro na era do Big Data, das fake news e da pós-verdade




A ideia deste livro não é filosofar sobre a verdade. Queremos saber como chegar à verdade, de preferência com base em dados ou fatos. Em alguns casos, a verdade é única. Por exemplo, “a Terra é redonda”. Mas a verdade pode mudar ao longo do tempo, quando conseguimos novas informações (as quebras de paradigmas bem discutidas por Thomas Kuhn). Duas pessoas podem discordar sobre uma temperatura (está quente ou frio?). Também é verdade que pessoas enxergam fisicamente de forma diferente. As percepções sensoriais podem nos enganar. E a memória pode nos trair.

Entretanto, em alguns casos, não podemos admitir diferentes verdades. Temos que respeitar as opiniões contrárias mas buscar a verdade única. No julgamento de um réu por assassinato, a verdade tem que ser uma só de duas opções. No tocante também a tratamentos médicos e vacinas, ninguém que ser paciente de um médico que não sabe qual medicamento indicar. A meia verdade ou as verdades relativas podem matar tanto quanto a falta de conhecimento.

É preciso buscar a verdade, ainda que não a tenhamos no momento. Precisamos de métodos científicos, técnicas para coleta de dados, observações, experimentos, simulações, precisamos de instrumentos e de modelos teóricos. Precisamos validar modelos, confirmar teorias e refutar hipóteses falsas. Se não houver certeza, que então trabalhemos com estatística e probabilidade.

Precisamos dados, fatos e evidências. Temos muitos dados (Big Data) à disposição e temos ferramenta para análise. Precisamos sincronizar dados, ferramentas e mentes para entender o que os dados nos dizem. Discutiremos como coletar dados com as novas tecnologias de Internet das Coisas e Inteligência Artificial. Mas também discutiremos que a análise dos dados também pode levar a interpretações equivocadas ou dúbias.

A quem se destina este livro:
·         Jornalistas que queiram procurar e escrever sobre fatos e verdades;
·         Cientistas que estão procurando verdades em seus experimentos e observações;
·         Analistas e cientistas de dados que queiram extrair a verdade de seus dados;
·         Leitores e cidadãos críticos que queiram entender como as verdades são desviadas e que então desejem saber como chegar até as verdades lendo textos de fontes confiáveis;
·         Pessoas que queiram entender as limitações humanas para armazenar e transmitir informações, o que gera confusões de fatos e opiniões;
·         Profissionais que queiram saber como transmitir mais precisamente fatos e informações;
·         Pessoas que desejam entender como separar fatos de interpretações;
·         Pesquisadores que precisam entender que a coleta de informações por humanos é falha e possui limitações (e como isto acontece);
·         Profissionais que trabalham com observação de fatos e que procuram fazer registros mais fiéis de dados;
·         Sociólogos e filósofos que estão tentando entender o comportamento humano na era da Pós-Verdade;
·         Profissionais de tecnologia de informação, software, computação e sistemas automatizados que queiram entender os equívocos possíveis na coleta, armazenamento e transmissão de dados digitais;
·         Profissionais que precisam avaliar a credibilidade de fontes de informações;
·         Profissionais de saúde preocupados em saber as melhores práticas e medicamentos para cada diagnóstico.


Livro na Amazon

terça-feira, 7 de maio de 2019

Slides da palestra no GUBI/SUCESU

Aqui estão os slides da minha palestra no dia 07/05/2019 no Grupo de Usuários de BI, da SUCESU/RS.

https://www.intext.com.br/palestra_sucesu.pdf

Título: ESTRATÉGIAS PARA ANÁLISE INTELECTUAL DE DADOS

Resumo:
A palestra discute a importância de se coletar dados corretos para análise, os cuidados na preparação de amostras para análise e as dificuldades na interpretação dos resultados. Também abordará técnicas intelectuais e novas formas para coleta e análise de dados, envolvendo novas tecnologias de Big Data, mapas conceituais, storytelling, associações visuais e incorporação de sinais fracos. Por fim, serão discutidas formas de avaliar a validade dos conhecimentos descobertos por processos de Analytics e Data Mining.


sexta-feira, 26 de abril de 2019

Como detratar ou elogiar algo a partir do mesmo dado


Imagine que um administrador de um hospital municipal, que atende somente SUS, apresente o gráfico a seguir, com o indicador de número de cirurgias agendadas por ano (ano x número de cirurgias de todos os tipos e para todos tipos de pacientes).



Para Elogiar

a) Houve um grande aumento de 13,9% de um ano para outro.
b) A inclinação do gráfico pode ser jogada para cima (neste gráfico, está próximo de 30 graus).
c) Esse é um aumento maior em relação a aumentos em anos anteriores (entre 2016 e 2017, houve baixa; entre 2015 e 2016, o aumento foi de 10%)
d) O aumento ocorreu porque “nós fizemos isso e aquilo”.
e) 12% das cirurgias foram feitas em pessoas carentes e minorias étnicas.
f) Ainda houve redução no tempo de uso das salas cirúrgicas, o que permite abrir espaço para mais cirurgias.
g) O número de cirurgias plásticas aumentou 23%.

Para Detratar

a) Houve um pequeno aumento de 13,9% de um ano para outro.
b) A inclinação do gráfico pode ser jogada para baixo (neste gráfico, está próximo de 30 graus).
c) Esse é um aumento menor em relação a aumentos em anos anteriores (por exemplo, entre 2014 e 2015 o aumento foi de 15%).
d) O aumento foi pequeno porque não foram feitos investimentos adequados.
e) Somente 12% das cirurgias foram feitas em pessoas carentes e minorias étnicas (a maioria das cirurgias foi feita em pessoas que têm poder aquisitivo para pagar por uma cirurgia).
f) Houve aumento no número de cirurgias mas o custo por cirurgia aumentou.
g) Apesar do aumento de 13,9% nas cirurgias, a fila por cirurgias aumentou 3,5%. E no mesmo período, o número de atendimentos aumentou 30% e a população da cidade aumentou 15%.

O correto a fazer, para saber a verdade

a) Evitar adjetivos (subjetividade); comparar com evoluções anteriores (todas), se aumento ou redução 
b) Gráfico de barras permite melhor comparação de proporcionalidades
c) Quais os dados de anos anteriores
d) O que causou o aumento? Pode ter sido menor ou maior devido a fatores externos (quais?).
e) Mostrar o % por subgrupos ou setores, usando critérios de divisão como sexo, faixa etária, classe social, tipo de cirurgia, etc. E mostrar se houve aumento ou redução em cada setor.
f) e g) Comparar com outros indicadores, por exemplo:
Custo por cirurgia, uso de materiais e recursos,
Quantas cirurgias foram realmente feitas (algumas foram canceladas)
Quantas tiveram ou terão que ser refeitas por erro médico
Quantas se referem a cirurgias reparadoras por erro médico em cirurgias anteriores
Avaliar o contexto (evolução na população, evolução de investimentos e gastos, evolução de outros tipos de atendimentos)


sexta-feira, 5 de abril de 2019

5W2H para entender problemas e necessidades de informação


A técnica dos 5W e 2H é muito útil para várias coisas. Eu já falei em um post anterior sobre seu uso para verificar a validade/verdade de conhecimentos descobertos em análises de dados.

Aqui destaco sua aplicação para entender um problema (útil para Analistas de TI) e para entender uma necessidade de informação (útil para Analistas de BI).

No 1º caso, a técnica ajuda no processo de análise de requisitos, para que soluções possam ser buscadas depois.
No 2º caso, a técnica ajuda aos analistas e cientistas de dados a prepararem os dados para análise.

Entendendo um problema:


What: qual o problema?
Who: quem está tendo este problema? Quem mais participa do problema? Quem está relatando, encontrando ou verificando o problema?
Where: onde (local físico ou virtual) o problema está ocorrendo? Onde o problema está sendo verificado?
When: quando o problema ocorre? É esporádico ou regular? Qual sua frequência? Quando o problema é notado?
Why: Por que é um problema (quais seus impactos negativos)?
How: como o problema ocorre? Que etapas anteriores acontecem? por que o problema acontece? Quais suas causas (mesmo que aparentes, não confirmadas)?
How much: quão grande é o impacto deste problema (pode ser especificado numa escala numérica de 1 a 10 por exemplo)?

Exemplo:
What: há muitas reclamações de clientes em relação ao atendimento via telefone (SAC)
Who: os clientes relatam; atendentes do SAC estão envolvidos, bem como seus supervisores
Where: está acontecendo no SAC (via telefone); as reclamações são recebidas via e-mail (lidos pelos supervisores do SAC)
When: as reclamações chegam durante todos os dias, em vários horários
Why: há uma suspeita que este tipo de reclamação esteja gerando perda de clientes
How: análises superficiais das reclamações recebidas indicam demora no atendimento e falta de soluções; as reclamações se originam após atendimentos via telefone
How much: são em média 20 reclamações por dia.


Entendendo uma necessidade de informação:


What: qual é a necessidade de informação ?
Who: (origem è entrega) Quem pode ter esta informação (ou partes de informações que possam levar à informação desejada)? quem está precisando desta informação?
Where: (origem è entrega) onde (local físico ou virtual) a informação pode ser encontrada (ou partes de informações que possam levar à informação desejada) ? onde a informação deve ser entregue?
When: (origem è entrega) quando a informação deve ser coletada ou analisada ? É esporádico ou regular? Qual sua frequência? Quando a informação deve ser entregue?
Why: Por que a informação é necessária ? que problema ajuda a resolver?  
How: como a informação pode ser encontrada ou descoberta? Que etapas anteriores são necessárias ?
How much: quão grande é esta necessidade (pode ser especificado numa escala numérica de 1 a 10 por exemplo)? Qual o volume esperado de dados de entrada e de dados resultantes desta busca? Quantas vezes esta busca será feita?

Exemplo:
What: precisamos saber do que exatamente os clientes estão reclamando em relação ao atendimento no SAC (via telefone)
Who: os clientes geram as reclamações (via textos em emails), onde então devem estar as informações para este tipo de análise; quem precisa dos resultados da análise são os supervisores de atendimento
Where: a informação está nos emails; o resultado da análise deverá chegar até o setor de atendimento, mas especificamente nos supervisores
When: seria importante ter a informação ao final de cada semana
Why: a informação irá melhorar o atendimento e consequentemente aumentar a retenção de clientes
How: a análise poderá ser feita por tipo de cliente, por tipo de atendimento, por atendente e por períodos de tempo; o resultado será na forma de alguns gráficos; será necessário utilizar técnicas de text mining
How much: são em média 20 reclamações por dia (e-mails).


sexta-feira, 22 de março de 2019

Como Mitologia e Storytelling podem ajudar na análise de dados


Já sabemos que a intuição pode ser útil na tomada de decisões.

Intuição é um modo não sequencial de processamento de informações que combina elementos cognitivos e afetivos e resulta em conhecimento direto sem uso de raciocínio consciente.

A intuição nos leva à imaginação e às histórias inventadas.

Storytelling é o termo utilizado hoje em dia para representar a técnica de transmissão de conhecimento através de histórias. Se você quer que as pessoas lembrem de algo e acredite na mensagem, é melhor dar a informação no formato de uma história. Quanto mais detalhes (quanto mais rica a narrativa), mais facilmente a história será tomada como verdadeira.

Os Incas não usavam registros escritos ou desenhos para transmitir suas memórias. Mas nem por isto suas histórias se perderam, porque usavam muito bem a transmissão oral. Para fortalecer a memória de quem ouvia, o conhecimento era transmitido através de histórias. Para Zacks e Swallow (2007, 2010), o ser humano organiza a atividade mental em hierarquias de eventos, colocando fronteiras para dividir e entender as partes. Isto ajuda a memorizar e aprender, a entender o contexto e as sequências e lidar com interrupções. Por isto, o registo de memórias através de histórias facilita a recuperação.

Mas storytelling não é só contar histórias. Inventar histórias nos ajuda a entender coisas complexas. É assim que funcionam os mitos.

Quando temos apenas parte dos dados, procuramos uma explicação lógica e coerente para associar os dados que temos e preencher as lacunas.

Podemos então usar a imaginação para ligar fatos, preenchendo as lacunas com possíveis dados. A intuição e a imaginação nos ajudam a fazer suposições sobre dados que não estão presentes. Fica mais fácil para depois procurar evidências para confirmar os dados que foram supostos. Esta é a combinação perfeita para dados e intuições.

Este tipo de estratégia exige também que façamos as perguntas certas. Por exemplo, se um vendedor não está com bom desempenho, podemos perguntar “por que os clientes não querem comprar” ou “o que o vendedor está fazendo de errado”.

Um exemplo.
Analise o mapa mental abaixo, com dados que já foram coletados e confirmados.



Uma pergunta que nossa imaginação ou intuição nos impele a fazer é: os concorrentes também estão tendo reclamações sobre preços?

Isto pode ser verificado coletando dados na Internet (blogs, fóruns, redes sociais, etc.).

Depois, a dúvida é: estamos perdendo clientes devido a estas reclamações?

Sendo assim, o nosso mapa mental fica como a seguir.

Aí a imaginação pode inventar histórias que nos ajudem a completar ou compreender este quadro.
Por exemplo:
a) estamos perdendo clientes para os concorrentes, porque nossos preços estão acima dos praticados pelos concorrentes.
b) não estamos perdendo clientes mas isto pode acontecer, porque estamos com preços acima da média e há muitas reclamações.
c) os clientes estão reclamando dos nossos preços, mas não querem deixar nossos serviços, porque são melhores do que do concorrente.
d) os clientes acham que pagam demais pelos serviços recebidos.

Todas estas histórias acima nos dão caminhos para procurar por novas informações.
Por exemplo:
a) vamos perguntar aos clientes que estão nos deixando se isto é verdade?
b) usar Data Mining para predizer chance de clientes nos deixarem, com base em mudanças históricas de preços.
c) qual a opinião dos clientes na comparação entre nossos serviços e dos concorrentes?
d) fazer pesquisa para saber qual o preço adequado para cada pacote de serviço possível (sondar a possibilidade de pacotes novos ainda não comercializados).



quarta-feira, 27 de fevereiro de 2019

Como verificar veracidade de um conhecimento descoberto por Analytics


Esta proposta não é um método, mas sim uma técnica para ajudar pessoas e organizações a verificarem a veracidade de um conhecimento descoberto por processo de Análise, Mineração ou Business Intelligence.

A ideia é usar a técnica 5W2H = What, Who, When, Where. Why, How, How much (O que, Quem, Quando, Onde, Por que, Como, Quanto).

Vamos usar um exemplo para entender a técnica: o famoso caso que descobriu que “Quem compra fraldas, também compra cerveja”.
Obs: a lenda diz que a associação só acontecia na 6ª-feira, mas vamos simplificar.

O que (What)

O 1º W é saber o que foi descoberto, se é o perfil de uma classe de elementos (ex. perfil de clientes) ou uma associação/implicação/regra (fraldas x cervejas) ou uma distribuição ou média (ex. 40% dos clientes são mulheres, clientes gastam 40 reais em média) ou outro tipo.
No exemplo, o que se refere a “quem compra fraldas, também compra cerveja”.
Neste caso, vale ressaltar que a implicação tem um sentido, das fraldas para cerveja. Então, quem está interessado somente na cerveja talvez não compre fraldas.

Quem (Who)

Este W trata de quem descobriu. Foi um humano ou um sistema automático de Data Mining por exemplo.
Se foi um humano, qual seu cargo ou posição, para que possamos avaliar o conhecimento prévio que ele possui e seus hábitos.
No nosso exemplo, a regra de associação entre fraldas e cervejas foi descoberta por um algoritmo automatizado.

Quando (When)

O conhecimento foi descoberto sobre dados relativos a que período de tempo? Muito provavelmente o conhecimento só é verdade durante o período dos dados.
Por exemplo, se a associação entre fraldas e cerveja está presente nas vendas de um mês específico, talvez não apareça em outros meses. E também deve-se avaliar se a associação continuará ocorrendo no futuro.
Outra avaliação é quanto à granularidade de tempo. O conhecimento descoberto acontece todo ano? Todos os meses? Todos os dias ou somente num dia específico da semana? E acontece em algum turno específico (ex. só de manhã) ou numa hora específica?
Também é preciso avaliar o momento da coleta. Os dados podem ter sido registrados durante o ano de 2016, mas a análise só foi feita em 2018. Este “gap” de tempo pode invalidar o conhecimento (talvez não seja mais válido ou verdadeiro).
Este W também inclui avaliar como os dados foram coletados (explicitamente, implicitamente ou por inferência). Cada modo possui a sua incerteza.

Onde (Where)

Este W se refere ao local físico ou geográfico onde o conhecimento é válido.
No caso das fraldas e cerveja, talvez a associação só seja válida numa loja específica ou para um país ou estado.

Por que (Why)

Este W procura entender por que acontece assim. Este é o método Aristotélico, que procura uma explicação lógica (se não tiver uma explicação lógica, então não é verdade).
No caso das fraldas e cerveja, especialistas chegaram a conclusão que a associação ocorria porque homens iam no supermercado comprar a cerveja e já se dispunham a comprar as fraldas dos bebês.
O entendimento do porquê pode ajudar a planejar ações de recomendação e marketing.

Como (How)

Com que dados e com que técnicas/algoritmos/ferramentas o conhecimento foi descoberto?
Isto significa avaliar a amostra utilizada, o que pode enviesar os resultados.
Este H também trata de entender o desenrolar do processo até o resultado final. Por exemplo, no caso de fraldas e cervejas, pode-se descobrir também que o cliente primeiro vai até o setor de cervejas e depois então procura as fraldas.

Quanto (How Much)

Quanto de verdade há neste conhecimento ? Isto pode ser medido pela confiança ou probabilidade (condicional) do conhecimento descoberto.
No exemplo, talvez somente 40% dos que compram fraldas comprem cerveja. Se for 100%, teremos um caso muito especial de venda cruzada.
Outro indicador a ser avaliado é o suporte, que significa o número de casos onde o padrão acontece. Isto dá uma medida de “interestingness” (o quanto o padrão é interessante).
Por exemplo, podemos ter uma probabilidade ou confiança de 100%, ou seja, todo mundo que compra fralda também compra cerveja.
Mas se isto só ocorreu uma vez (um único cliente), o conhecimento não é muito interessante.


Um outro exemplo


O que = 80% dos clientes são mulheres de classe A, casadas, com filhos e curso superior

Quem = software de Data Mining

Quando = clientes que estavam ativos entre janeiro e junho de 2018

Onde = numa empresa de TV paga no estado do RS (todas as cidades onde a empresa está presente)

Por que = as mulheres cuidam dos serviços da casa e por isto se cadastram na empresa pela família

Como = os valores dos planos são caros, atraindo famílias de classe alta. Famílias sem filhos ou pessoas solteiras não veem atrativo nos pacotes oferecidos

Quanto = 80% de probabilidade


O Interessante pode estar nas Comparações entre subgrupos


Utilize cada parte do 5W2H para separar os dados em subgrupos e fazer comparações.

O que
Compare os padrões de comportamento entre este perfil (mulheres de classe A, casadas, com filhos e curso superior) e os clientes que estão fora deste perfil.

Quem
Utilize diferentes técnicas ou ferramentas e veja se os resultados são iguais.

Quando
Faça novas análises para saber se o padrão está mudando com o tempo ou com as ações da empresa. Por exemplo, se o % aumenta ou diminui a cada mês. E também o que acontece após cada ação de marketing (ajuda ou atrapalha? Aumenta a fatia deste perfil ou diversifica?).

Onde
Compare o % para cada cidade ou microrregião ou bairro.

Por que
Compare as explicações em cada subgrupo (ex. mulheres x homens; cidades entre si).

Como
Compare o processo para cada subgrupo (ex. mulheres x homens; cidades entre si).

Quanto
Monitore o %, se aumenta ou diminui com o tempo e entre segmentos diferentes.



Se queres saber mais sobre Business Intelligence (processo, etapas, técnicas, cuidados, amostragens, etc.), leia o livro
BI na era do big data para cientistas de dados: indo além de cubos e dashboards na busca pelos porquês, explicações e padrões



terça-feira, 5 de fevereiro de 2019

Os 5Vs do Big Data e suas implicações

LIVRO GRÁTIS

Volume, Velocidade, Variedade, Veracidade e Valor: 
Como os 5 Vs do Big Data estão impactando as Organizações e a Sociedade

Baixar aqui

Resumo:

A sociedade, as organizações e as pessoas estão cada vez mais gerando, armazenando e usando mais dados. O grande volume de dados é a primeira característica do fenômeno pós-moderno conhecido como Big Data. A quantidade de dados melhora a tomada de decisão mas exige cuidados como análises corretas e foco para evitar prejuízos com a chamada sobrecarga. Este livro discute o impacto do crescimento exponencial, as diferentes formas e tecnologias para coleta de dados, as dificuldades para lidar com tamanho volume e ferramentas que podem nos ajudar a encontrar utilidade nos dados.
A segunda característica do Big Data é a grande velocidade com que dados são trocados entre pessoas, organizações e países, através de tecnologias da informação e comunicação. A velocidade ajuda a tornar as decisões mais rápidas, mas também faz com que eventos de um lado do mundo impactem o outro lado em minutos. Além de discutir o impacto desta velocidade na sociedade, este livro discute também as formas de disseminação da informação e os fatores que influenciam a velocidade de transmissão.
A terceira característica original do Big Data é a variedade dos dados. Hoje podemos coletar e armazenar dados em formatos estruturados ou não estruturados, como textos, imagens e sons. O livro apresenta os diferentes formatos de dados (incluindo grafos, mapas, redes, etc.) e ferramentas para lidar com eles. O livro também discute os benefícios de se ter dados tão variados e as dificuldades que advém desta diversidade.
A quarta característica do Big Data a ser analisada é a veracidade dos dados. Quando podemos confiar numa informação ? O que é uma fonte confiável ? Como confirmar uma informação, como saber se algo é verdade ? São questões discutidas neste livro, além dos males que fake News e informações não confiáveis estão causando na sociedade.
A quinta característica do Big Data é o valor dos dados. De nada adianta ter dados se eles não puderem ser transformados primeiro em informação, depois em conhecimento e por fim servirem para resolver problemas (inteligência e sabedoria). Este livro discute o que é uma informação de valor e como medir tal valor. Também são discutidos impactos que dados valorizados podem causar em relações entre empresas, pessoas e sociedades.
Por fim, o livro aborda a questão da complexidade de dados e como isto está gerando sistemas e organizações mais complexas, mais difíceis de serem entendidas e gerenciadas. 
Na introdução, apresentamos os benefícios do Big Data e discutimos o uso de dados com estatísticas em contraposição a intuições.