terça-feira, 1 de outubro de 2019

Categorização de eventos para análise de sequências temporais


A técnica de análise de sequências temporais analisa estatisticamente sequências de eventos com o objetivo de encontrar sequências que se repetem. Cada sequência será representada por uma linha de tempo com eventos que já ocorreram.

A análise pode ser feita dentro de uma mesma linha de tempo ou entre linhas de tempo. Então costuma-se considerar que cada linha de tempo (uma sequência de eventos) é um caso individual.

As linhas de tempo (sequências de eventos) podem corresponder a (exemplos):
·         Eventos de saúde de uma pessoa durante sua vida;
·         Ações de vendedores no relacionamento com um cliente;
·         Ações de vendedores independente de clientes;
·         Decisões tomadas por gestores;
·         Eventos relacionados a clientes (compras, reclamações, etc.);
·         Produtos adquiridos por um cliente;
·         Eventos que ocorreram numa empresa (ex. acidentes);
·         Eventos que ocorreram numa região geográfica (ex. terremotos, chuvas, visitas de governantes).

Na imagem a seguir, pode-se ver um exemplo com alguns padrões encontrados:
a) das 3 vezes que o evento “triângulo azul” ocorreu, o evento “triângulo amarelo” ocorreu depois (não temos o intervalo de tempo)
b) o evento “triângulo amarelo” foi seguido pelo evento “círculo vermelho” duas vezes
c) o evento “triângulo azul” foi sucedido pelo evento “círculo azul” mas bem depois, com alguns eventos entre eles.




Sempre que houver um campo “data” no banco de dados, será possível registrar sequências de eventos. E também será possível analisar com esta técnica (não necessariamente iremos descobrir padrões).

Este tipo de análise permite predizer acontecimentos. Por exemplo, na imagem em questão, há uma probabilidade de que ocorra um evento tipo “círculo vermelho” na linha de tempo de Ana no ano de 2006.

Maltz e Klosak-Mullany (200) utilizaram esta técnica de sequência de tempo para encontrar padrões estatísticos no comportamento de jovens delinquentes nos EUA e antever eventos ruins em suas vidas, para intervir antes que aconteçam.
MALTZ, Michael D.; KLOSAK-MULLANY, Jacqueline. Visualizing Lives: New Pathways for Analyzing Life Course Trajectories. Journal of Quantitative Criminology, v.16, n.2, June 2000, p.255-281.


A análise de sequências temporais pode ser feita de várias formas. Eis algumas:
a)      Um evento sucede outro, não importando se há outros eventos no meio; a reclamação de um cliente no site é sempre seguida por um registro no site ReclameAqui;
b)      Um evento sucede outro logo em seguida (sem outro evento no meio); ex. ministrar o remédio X ao paciente faz a pressão baixar imediatamente;
c)      Um evento sucede outro dentro de um intervalo de tempo X; ex.: quem compra um home theater volta dentro de 3 meses para comprar uma TV de LED.


O objetivo desta postagem é sugerir uma forma de categorizar eventos ao invés de usar eventos individuais ou muito específicos.

Imagine que haja uma sequência com tais eventos:
a)      O ministro da Fazenda (federal) esteve presente na cidade;
b)      Choveu torrencialmente no momento da partida dele;
c)      As vendas do produto W cresceram no dia seguinte à partida.

Talvez seja muito difícil que esta mesma sequência de eventos se repita. Mas talvez outros ministros visitem a cidade.

Então talvez consigamos encontrar um padrão nos nossos registros históricos que seja assim:
Toda vez que um ministro do governo federal visita a cidade
E
Que chove durante sua estada
Então as vendas de produtos do tipo KLM aumentam durante os dias seguintes.


Outros exemplos:

a) Vendas
Categorias de eventos:
- tipos de produtos adquiridos: por setor, tamanho, faixa de preço;
- ações de clientes: consulta de preços, consulta de forma de pagamento, cadastro, reclamações;

b) Atendimentos médicos
Categorias de eventos:
- tipos de pacientes atendidos: ex. faixa etária, sexo
- tipos de sinais e sintomas
- tipos de prescrições médicas
- tipos de especialidades médicas que atenderam
- tipos de exames feitos

c) Atendimentos em uma oficina mecânica
Categorias de eventos:
- tipos de carros: tamanho, cor, modelo, ano
- tipos de serviços prestados
- tipos de problemas, defeitos ou reclamações

d) Eventos gerais significativos
Categorias de eventos:
- catástrofes naturais
- eventos naturais acima/abaixo do normal: neve, chuva, temperatura, seca, umidade
- reuniões ou visitas de líderes políticos ou religiosos
- manifestações ou festas populares (eventuais ou fixas no calendário)

e) Eventos econômicos
- aumento/redução de taxa de juros
- publicação de previsões de índices (inflação ou PIB)
- subida/descida de moedas (dólar, euro)
- falência de uma grande empresa
- anúncios importantes do governo
- votações de projetos importantes

terça-feira, 24 de setembro de 2019

11 razões por que eu só compro e-books (livros eletrônicos)

Eu uso aplicativos como Kindle, Moon Reader ou Mobi Reader, para ler livros eletrônicos (formatos pdf, mobi, etc.).
Estes aplicativos funcionam em qualquer tipo de celular ou tablet e também têm versões para PC (desktop).

Aqui vão as razões por que só compro livros eletrônicos (e-books):

1) são mais baratos que livros em papel e não precisam pagar frete. Tu compra e já recebe no dispositivo móvel, na mesma hora.

2) tenho quase todos os meus livros no dispositivo (celular) ou na nuvem. Não preciso transportar livros físicos.
Se quero reler um livro, ele já está comigo.

3) a leitura é mais fácil, porque não preciso segurar um livro físico que é mais pesado. E passar páginas também é mais fácil. Dá para segurar o celular com uma mão e passar páginas sem usar a outra.

4) pode-se aumentar o tamanho da letra. Além disso, dá para alternar entre fundo e cor de letra (branco x preto). Letra branca no fundo preto é melhor para ambientes com pouca luz.

CUIDADO: em geral, os arquivos pdf aparecem como imagens. Então, ao aumentar o tamanho da letra, na verdade ele aumenta a imagem. E aí a linha fica maior que a largura da tela. Para ler é ruim porque precisa deslocar o texto para os lados. Mas no aplicativo Moon Reader, tem uma opção para extrair o texto da imagem. Assim, é possível colocar o tamanho de letra que quiser, e ele ajusta a linha para caber na largura da tela.

5) dá para ler no escuro e sem incomodar o parceiro ou parceira. Basta configurar a luminosidade. Assim, posso ler em qualquer lugar. Para ler livros físicos, preciso de um lugar com boa luminosidade.

6) quando eu paro de ler e volto em outra hora, ele volta para a mesma página onde parei.
Se tu estiver usando dispositivos diferentes, ele sincroniza. Ou seja, posso reiniciar a leitura em outro dispositivo que ele "lembra" a página onde parei.

7) eu gosto de fazer resumos. Há opções para fazer COPIAR+COLAR. Copio os trechos que quero e colo num documento texto.
Assim, tenho resumos de todos os livros que leio.

8) há opções para marcar partes do texto com cores (como as canetinhas coloridas em livros de papel). Dá para marcar também páginas. Eu não uso estes recursos porque uso o recurso anterior.

9) pode-se fazer buscas por palavras no texto. Ele traz os trechos onde a palavra aparece.

10) em alguns aplicativos, depois que tu tá lendo há muito tempo, ele bloqueia a tela para tu descansar os olhos.

11) pode-se ver o índice a qualquer momento. E é possível ir para qualquer capítulo ou seção que esteja no índice bastando clicar no título.

Obs: na verdade, eu ainda compro livros físicos. São aqueles que ainda não tem edição em formato eletrônico. Geralmente, são livros mais antigos. Neste caso, procuro olhar os livros usados no site Estante Virtual, que reúne os maiores sebos do Brasil. Ali eles indicam inclusive o estado do exemplar, se tem anotações, se está amarelado, rasgado, etc.

sexta-feira, 6 de setembro de 2019

Livro "Disseminação de Conhecimento"

Disseminação de Conhecimento: como a informação se espalha e por que as pessoas compartilham conhecimento, memes, fofocas e boatos.


Este livro é o terceiro de uma série ou trilogia sobre conhecimento, começando com estes dois:

LOH, Stanley. De onde vem o Conhecimento: depois do diálogo entre Sócrates e Teeteto. Porto Alegre, 2018.

LOH, Stanley. Memória organizacional: como coletar, armazenar e recuperar conhecimentos explícitos e tácitos. Porto Alegre, 2018.

Resumo:

Este livro procura estudar como conhecimentos e informações se espalham, procurando auxiliar os que pretendem melhorar suas técnicas de comunicação, levando informação de mais qualidade, alcançando mais pessoas e as pessoas certas, aumentando a velocidade da disseminação e utilizando os recursos apropriados.
Na parte II, veremos como se deu a evolução da disseminação de conhecimento e informações durante a evolução do próprio gênero Homo, incluindo o surgimento da linguagem, da escrita e do alfabeto.
Na parte III, apresentamos os aspectos e fatores envolvidos na disseminação, tentando explicar como a informação se espalha. Esta seção discute como o tipo de rede física ou social pode interferir, como certos tipos de pessoas impulsionam a disseminação numa rede, a força do hábito e da imitação, a influência do grupo sobre indivíduos, a confiança e a reputação, a atenção e as limitações da memória humana, etc. A seção também defende com argumentos que o meio interfere na disseminação, ou seja, compara formatos como texto, imagens e sons, e debate a comunicação verbal e a não verbal, dando ênfase aos meios digitais.
Na parte IV, o livro debate o que motiva as pessoas a compartilharem informações, sejam boas ou ruins, sejam verdades ou boatos. Esta seção traz estudos científicos sobre técnicas de motivação de pessoas para o trabalho e discute fatores como incentivos financeiros, fama e exibicionismo, cooperação e virtude, altruísmo e reciprocidade, prazer e felicidade.
Na parte V, é discutida uma lista de barreiras à disseminação de conhecimento e informações.
A parte VI trata dos sistemas de recomendação, que são ferramentas e técnicas baseadas em software e sistemas de Inteligência Artificial, responsáveis por filtrar e encaminhar informações para pessoas, sem mesmo que estas precisem solicitar ou dizer do que precisam.
A parte VII traz discussões sobre técnicas e ferramentas para análise da disseminação. O uso de representações gráficas como grafos e diagramas podem ajudar a entender o processo de disseminação e até mesmo auxiliar em cálculos de velocidade e alcance.

terça-feira, 14 de maio de 2019

Livro sobre a verdade e veracidade de dados


A verdade está nos dados ou não? Discussões sobre o que é verdadeiro na era do Big Data, das fake news e da pós-verdade




A ideia deste livro não é filosofar sobre a verdade. Queremos saber como chegar à verdade, de preferência com base em dados ou fatos. Em alguns casos, a verdade é única. Por exemplo, “a Terra é redonda”. Mas a verdade pode mudar ao longo do tempo, quando conseguimos novas informações (as quebras de paradigmas bem discutidas por Thomas Kuhn). Duas pessoas podem discordar sobre uma temperatura (está quente ou frio?). Também é verdade que pessoas enxergam fisicamente de forma diferente. As percepções sensoriais podem nos enganar. E a memória pode nos trair.

Entretanto, em alguns casos, não podemos admitir diferentes verdades. Temos que respeitar as opiniões contrárias mas buscar a verdade única. No julgamento de um réu por assassinato, a verdade tem que ser uma só de duas opções. No tocante também a tratamentos médicos e vacinas, ninguém que ser paciente de um médico que não sabe qual medicamento indicar. A meia verdade ou as verdades relativas podem matar tanto quanto a falta de conhecimento.

É preciso buscar a verdade, ainda que não a tenhamos no momento. Precisamos de métodos científicos, técnicas para coleta de dados, observações, experimentos, simulações, precisamos de instrumentos e de modelos teóricos. Precisamos validar modelos, confirmar teorias e refutar hipóteses falsas. Se não houver certeza, que então trabalhemos com estatística e probabilidade.

Precisamos dados, fatos e evidências. Temos muitos dados (Big Data) à disposição e temos ferramenta para análise. Precisamos sincronizar dados, ferramentas e mentes para entender o que os dados nos dizem. Discutiremos como coletar dados com as novas tecnologias de Internet das Coisas e Inteligência Artificial. Mas também discutiremos que a análise dos dados também pode levar a interpretações equivocadas ou dúbias.

A quem se destina este livro:
·         Jornalistas que queiram procurar e escrever sobre fatos e verdades;
·         Cientistas que estão procurando verdades em seus experimentos e observações;
·         Analistas e cientistas de dados que queiram extrair a verdade de seus dados;
·         Leitores e cidadãos críticos que queiram entender como as verdades são desviadas e que então desejem saber como chegar até as verdades lendo textos de fontes confiáveis;
·         Pessoas que queiram entender as limitações humanas para armazenar e transmitir informações, o que gera confusões de fatos e opiniões;
·         Profissionais que queiram saber como transmitir mais precisamente fatos e informações;
·         Pessoas que desejam entender como separar fatos de interpretações;
·         Pesquisadores que precisam entender que a coleta de informações por humanos é falha e possui limitações (e como isto acontece);
·         Profissionais que trabalham com observação de fatos e que procuram fazer registros mais fiéis de dados;
·         Sociólogos e filósofos que estão tentando entender o comportamento humano na era da Pós-Verdade;
·         Profissionais de tecnologia de informação, software, computação e sistemas automatizados que queiram entender os equívocos possíveis na coleta, armazenamento e transmissão de dados digitais;
·         Profissionais que precisam avaliar a credibilidade de fontes de informações;
·         Profissionais de saúde preocupados em saber as melhores práticas e medicamentos para cada diagnóstico.


Livro na Amazon

terça-feira, 7 de maio de 2019

Slides da palestra no GUBI/SUCESU

Aqui estão os slides da minha palestra no dia 07/05/2019 no Grupo de Usuários de BI, da SUCESU/RS.

https://www.intext.com.br/palestra_sucesu.pdf

Título: ESTRATÉGIAS PARA ANÁLISE INTELECTUAL DE DADOS

Resumo:
A palestra discute a importância de se coletar dados corretos para análise, os cuidados na preparação de amostras para análise e as dificuldades na interpretação dos resultados. Também abordará técnicas intelectuais e novas formas para coleta e análise de dados, envolvendo novas tecnologias de Big Data, mapas conceituais, storytelling, associações visuais e incorporação de sinais fracos. Por fim, serão discutidas formas de avaliar a validade dos conhecimentos descobertos por processos de Analytics e Data Mining.


sexta-feira, 26 de abril de 2019

Como detratar ou elogiar algo a partir do mesmo dado


Imagine que um administrador de um hospital municipal, que atende somente SUS, apresente o gráfico a seguir, com o indicador de número de cirurgias agendadas por ano (ano x número de cirurgias de todos os tipos e para todos tipos de pacientes).



Para Elogiar

a) Houve um grande aumento de 13,9% de um ano para outro.
b) A inclinação do gráfico pode ser jogada para cima (neste gráfico, está próximo de 30 graus).
c) Esse é um aumento maior em relação a aumentos em anos anteriores (entre 2016 e 2017, houve baixa; entre 2015 e 2016, o aumento foi de 10%)
d) O aumento ocorreu porque “nós fizemos isso e aquilo”.
e) 12% das cirurgias foram feitas em pessoas carentes e minorias étnicas.
f) Ainda houve redução no tempo de uso das salas cirúrgicas, o que permite abrir espaço para mais cirurgias.
g) O número de cirurgias plásticas aumentou 23%.

Para Detratar

a) Houve um pequeno aumento de 13,9% de um ano para outro.
b) A inclinação do gráfico pode ser jogada para baixo (neste gráfico, está próximo de 30 graus).
c) Esse é um aumento menor em relação a aumentos em anos anteriores (por exemplo, entre 2014 e 2015 o aumento foi de 15%).
d) O aumento foi pequeno porque não foram feitos investimentos adequados.
e) Somente 12% das cirurgias foram feitas em pessoas carentes e minorias étnicas (a maioria das cirurgias foi feita em pessoas que têm poder aquisitivo para pagar por uma cirurgia).
f) Houve aumento no número de cirurgias mas o custo por cirurgia aumentou.
g) Apesar do aumento de 13,9% nas cirurgias, a fila por cirurgias aumentou 3,5%. E no mesmo período, o número de atendimentos aumentou 30% e a população da cidade aumentou 15%.

O correto a fazer, para saber a verdade

a) Evitar adjetivos (subjetividade); comparar com evoluções anteriores (todas), se aumento ou redução 
b) Gráfico de barras permite melhor comparação de proporcionalidades
c) Quais os dados de anos anteriores
d) O que causou o aumento? Pode ter sido menor ou maior devido a fatores externos (quais?).
e) Mostrar o % por subgrupos ou setores, usando critérios de divisão como sexo, faixa etária, classe social, tipo de cirurgia, etc. E mostrar se houve aumento ou redução em cada setor.
f) e g) Comparar com outros indicadores, por exemplo:
Custo por cirurgia, uso de materiais e recursos,
Quantas cirurgias foram realmente feitas (algumas foram canceladas)
Quantas tiveram ou terão que ser refeitas por erro médico
Quantas se referem a cirurgias reparadoras por erro médico em cirurgias anteriores
Avaliar o contexto (evolução na população, evolução de investimentos e gastos, evolução de outros tipos de atendimentos)


sexta-feira, 5 de abril de 2019

5W2H para entender problemas e necessidades de informação


A técnica dos 5W e 2H é muito útil para várias coisas. Eu já falei em um post anterior sobre seu uso para verificar a validade/verdade de conhecimentos descobertos em análises de dados.

Aqui destaco sua aplicação para entender um problema (útil para Analistas de TI) e para entender uma necessidade de informação (útil para Analistas de BI).

No 1º caso, a técnica ajuda no processo de análise de requisitos, para que soluções possam ser buscadas depois.
No 2º caso, a técnica ajuda aos analistas e cientistas de dados a prepararem os dados para análise.

Entendendo um problema:


What: qual o problema?
Who: quem está tendo este problema? Quem mais participa do problema? Quem está relatando, encontrando ou verificando o problema?
Where: onde (local físico ou virtual) o problema está ocorrendo? Onde o problema está sendo verificado?
When: quando o problema ocorre? É esporádico ou regular? Qual sua frequência? Quando o problema é notado?
Why: Por que é um problema (quais seus impactos negativos)?
How: como o problema ocorre? Que etapas anteriores acontecem? por que o problema acontece? Quais suas causas (mesmo que aparentes, não confirmadas)?
How much: quão grande é o impacto deste problema (pode ser especificado numa escala numérica de 1 a 10 por exemplo)?

Exemplo:
What: há muitas reclamações de clientes em relação ao atendimento via telefone (SAC)
Who: os clientes relatam; atendentes do SAC estão envolvidos, bem como seus supervisores
Where: está acontecendo no SAC (via telefone); as reclamações são recebidas via e-mail (lidos pelos supervisores do SAC)
When: as reclamações chegam durante todos os dias, em vários horários
Why: há uma suspeita que este tipo de reclamação esteja gerando perda de clientes
How: análises superficiais das reclamações recebidas indicam demora no atendimento e falta de soluções; as reclamações se originam após atendimentos via telefone
How much: são em média 20 reclamações por dia.


Entendendo uma necessidade de informação:


What: qual é a necessidade de informação ?
Who: (origem è entrega) Quem pode ter esta informação (ou partes de informações que possam levar à informação desejada)? quem está precisando desta informação?
Where: (origem è entrega) onde (local físico ou virtual) a informação pode ser encontrada (ou partes de informações que possam levar à informação desejada) ? onde a informação deve ser entregue?
When: (origem è entrega) quando a informação deve ser coletada ou analisada ? É esporádico ou regular? Qual sua frequência? Quando a informação deve ser entregue?
Why: Por que a informação é necessária ? que problema ajuda a resolver?  
How: como a informação pode ser encontrada ou descoberta? Que etapas anteriores são necessárias ?
How much: quão grande é esta necessidade (pode ser especificado numa escala numérica de 1 a 10 por exemplo)? Qual o volume esperado de dados de entrada e de dados resultantes desta busca? Quantas vezes esta busca será feita?

Exemplo:
What: precisamos saber do que exatamente os clientes estão reclamando em relação ao atendimento no SAC (via telefone)
Who: os clientes geram as reclamações (via textos em emails), onde então devem estar as informações para este tipo de análise; quem precisa dos resultados da análise são os supervisores de atendimento
Where: a informação está nos emails; o resultado da análise deverá chegar até o setor de atendimento, mas especificamente nos supervisores
When: seria importante ter a informação ao final de cada semana
Why: a informação irá melhorar o atendimento e consequentemente aumentar a retenção de clientes
How: a análise poderá ser feita por tipo de cliente, por tipo de atendimento, por atendente e por períodos de tempo; o resultado será na forma de alguns gráficos; será necessário utilizar técnicas de text mining
How much: são em média 20 reclamações por dia (e-mails).