segunda-feira, 26 de dezembro de 2016

Data mining (cubos para BI) sobre dados de pacientes (usando Excel)

Este post explica como fazer descoberta de padrões (Data Mining ou BI) sobre dados de pacientes (por exemplo, dados epidemiológicos). Cada linha é um paciente individual. A tabela possui uma coluna (atributo) que é a doença ou diagnóstico. As demais colunas (atributos A, B, C... até G) são características dos pacientes e seus valores admitem somente Sim ou Não (S/N).

Podem ser atributos sócio-demográficos (sexo/gênero, faixa etária, classe social, local de origem ou residência, etc), ou hábitos (fuma = sim/não, faz exercícios = sim/não), ou eventos da história pregressa (tem caso anterior na família, como foi a infância, etc).

Note que há um campo identificador que foi criado somente para identificar unicamente cada linha. Este campo será usado depois nos cubos para contagem de linhas.

Dê uma olhada na planilha ao final deste post. É uma tabela flat, onde todos os atributos estão como colunas. Fica muito difícil identificar padrões numa tabela flat.

Mas ao gerar um cubo, colocando atributos em linhas X colunas, aparecem padrões que não podem ser facilmente vistos nesta tabela flat. É sobre isto que este post fala.

Lembro que a coluna principal aqui é a doença ou diagnóstico, mas poderia ser utilizado outro atributo, como sexo/gênero, faixa etária ou região de origem ou residência.

Também é possível fazer o mesmo tipo de análise com clientes. Basta ter uma coluna principal no lugar do diagnóstico, que poderia ser o produto adquirido (ou tipo ou classe de produto), ou a loja onde foi adquirido. Os demais atributos (colunas) seriam características sócio-demográficas dos clientes. Cada linha é um cliente individual.

Outra possibilidade é fazer dos atributos as características do produto (cor, tamanho, preço, etc). Aí precisaríamos de uma coluna principal para separar os padrões. Poderia ser alguma característica do cliente (faixa etária ou sexo, por exemplo).


Criando um cubo com tabela dinâmica do Excel

Marque a tabela toda (todas as células), insira a tabela dinâmica numa aba nova, coloque o atributo principal nas linhas (neste caso, o diagnóstico ou doença) e coloque uma característica na coluna. Irão aparecer subcolunas com Não e Sim.
Coloque dentro do cubo o campo identificador e use a contagem (de linhas).
Depois selecione para mostrar "percentual das linhas" na contagem do identificador.
O cubo ficará como abaixo.



Característica A

Contagem de identificador Rótulos de Coluna

Rótulos de Linha n s Total Geral
D1 50,00% 50,00% 100,00%
D2 30,00% 70,00% 100,00%
D3 100,00% 0,00% 100,00%
Total Geral 59,26% 40,74% 100,00%



Tipos de padrões descobertos



Característica A

Contagem de identificador Rótulos de Coluna

Rótulos de Linha n s Total Geral
D1 50,00% 50,00% 100,00%
D2 30,00% 70,00% 100,00%
D3 100,00% 0,00% 100,00%
Total Geral 59,26% 40,74% 100,00%

Este cubo acima pode nos mostrar se há alguma relação possível entre a doença (diagnóstico) e a característica (neste exemplo, o atributo A).
Vejam que para a doença D1, a distribuição é metade a metade para quem tem ou não a característica. Já para a doença D2, há uma predominância da característica A (há 70% de pacientes que têm a característica contra 30% que não a têm).
E no caso da doença D3, pode-se ver que todos os pacientes com este diagnóstico possuem a característica A.
Note: a característica A pode ser uma causa ou uma consequência da doença D3; Isto precisaria ser melhor investigado. Mas um padrão foi identificado.





Característica F

Contagem de identificador Rótulos de Coluna

Rótulos de Linha n s Total Geral
D1 50,00% 50,00% 100,00%
D2 0,00% 100,00% 100,00%
D3 44,44% 55,56% 100,00%
Total Geral 29,63% 70,37% 100,00%

No caso da característica F, pode-se ver um novo padrão. Uma leve tendência desta característica para pacientes com diagnóstico D3 (55,56% sim contra 44,44% não). A variação é pequena, então talvez não seja determinante e não se possa tirar conclusões.


Seleção de amostras

É claro que as conclusões sempre devem ser feitas com base nos dados analisados, ou seja, dependem da amostra utilizada.
Falarei sobre amostras em um post futuro.



Todos os cubos e padrões descobertos



Característica A

Contagem de identificador Rótulos de Coluna

Rótulos de Linha n s Total Geral
D1 50,00% 50,00% 100,00%
D2 30,00% 70,00% 100,00%
D3 100,00% 0,00% 100,00%
Total Geral 59,26% 40,74% 100,00%









Característica B

Contagem de identificador Rótulos de Coluna

Rótulos de Linha n s Total Geral
D1 87,50% 12,50% 100,00%
D2 20,00% 80,00% 100,00%
D3 100,00% 0,00% 100,00%
Total Geral 66,67% 33,33% 100,00%









Característica C

Contagem de identificador Rótulos de Coluna

Rótulos de Linha n s Total Geral
D1 100,00% 0,00% 100,00%
D2 50,00% 50,00% 100,00%
D3 22,22% 77,78% 100,00%
Total Geral 55,56% 44,44% 100,00%









Característica D

Contagem de identificador Rótulos de Coluna

Rótulos de Linha n s Total Geral
D1 50,00% 50,00% 100,00%
D2 100,00% 0,00% 100,00%
D3 100,00% 0,00% 100,00%
Total Geral 85,19% 14,81% 100,00%









Característica E

Contagem de identificador Rótulos de Coluna

Rótulos de Linha n s Total Geral
D1 75,00% 25,00% 100,00%
D2 50,00% 50,00% 100,00%
D3 100,00% 0,00% 100,00%
Total Geral 74,07% 25,93% 100,00%









Característica F

Contagem de identificador Rótulos de Coluna

Rótulos de Linha n s Total Geral
D1 50,00% 50,00% 100,00%
D2 0,00% 100,00% 100,00%
D3 44,44% 55,56% 100,00%
Total Geral 29,63% 70,37% 100,00%









Característica G

Contagem de identificador Rótulos de Coluna

Rótulos de Linha n s Total Geral
D1 50,00% 50,00% 100,00%
D2 20,00% 80,00% 100,00%
D3 100,00% 0,00% 100,00%
Total Geral 55,56% 44,44% 100,00%








Planilha original flat




identificador doença A  B C D E F G
1 D1 s n n n s n s
2 D1 s n n n s s n
3 D1 n n n n n n s
4 D1 s n n n n s n
5 D1 n n n s n n s
6 D1 n n n s n s n
7 D1 s s n s n n s
8 D1 n n n s n s n
9 D1 s n n n s n s
10 D1 s n n n s s n
11 D1 n n n n n n s
12 D1 s n n n n s n
13 D1 n n n s n n s
14 D1 n n n s n s n
15 D1 s s n s n n s
16 D1 n n n s n s n
17 D1 s n n n s n s
18 D1 s n n n s s n
19 D1 n n n n n n s
20 D1 s n n n n s n
21 D1 n n n s n n s
22 D1 n n n s n s n
23 D1 s s n s n n s
24 D1 n n n s n s n
25 D2 s s n n s s n
26 D2 n s s n n s n
27 D2 s s n n s s s
28 D2 s s s n n s s
29 D2 s s n n s s s
30 D2 s n s n n s s
31 D2 s n n n s s s
32 D2 s s s n n s s
33 D2 n s n n s s s
34 D2 n s s n n s s
35 D2 s s n n s s n
36 D2 n s s n n s n
37 D2 s s n n s s s
38 D2 s s s n n s s
39 D2 s s n n s s s
40 D2 s n s n n s s
41 D2 s n n n s s s
42 D2 s s s n n s s
43 D2 n s n n s s s
44 D2 n s s n n s s
45 D2 s s n n s s n
46 D2 n s s n n s n
47 D2 s s n n s s s
48 D2 s s s n n s s
49 D2 s s n n s s s
50 D2 s n s n n s s
51 D2 s n n n s s s
52 D2 s s s n n s s
53 D2 n s n n s s s
54 D2 n s s n n s s
55 D3 n n s n n s n
56 D3 n n n n n n n
57 D3 n n s n n s n
58 D3 n n s n n n n
59 D3 n n s n n s n
60 D3 n n n n n n n
61 D3 n n s n n s n
62 D3 n n s n n n n
63 D3 n n s n n s n
64 D3 n n s n n s n
65 D3 n n n n n n n
66 D3 n n s n n s n
67 D3 n n s n n n n
68 D3 n n s n n s n
69 D3 n n n n n n n
70 D3 n n s n n s n
71 D3 n n s n n n n
72 D3 n n s n n s n
73 D3 n n s n n s n
74 D3 n n n n n n n
75 D3 n n s n n s n
76 D3 n n s n n n n
77 D3 n n s n n s n
78 D3 n n n n n n n
79 D3 n n s n n s n
80 D3 n n s n n n n
81 D3 n n s n n s n

quinta-feira, 3 de novembro de 2016

Por que uns países são ricos e outros são pobres ? (livro grátis)

O que leva um país a ser rico ? E por que há países pobres ? Quais as diferenças entre eles ?
Estas questões já foram tratadas em parte por outros autores, mas este livro procura justamente reunir o que os mais renomados autores, entre economistas, cientistas políticos, administradores e filósofos, apontam como os fatores que distinguem países ricos e pobres, incluindo: tamanho territorial e da população, geografia, clima, recursos naturais, colonização, imigrantes, comércio exterior, capital externo, agricultura, indústria, serviços, dívidas, exportações e importações, inflação, participações em guerras, educação, saúde, desigualdade e pobreza, pesquisa e desenvolvimento, patentes, influência e poder do governo X liberdade, corrupção e privilégios, legislação e burocracia, pirâmide populacional e previdência social, força e estabilidade das instituições, influência das religiões, infraestrutura, produtividade, violência e crimes, cultura e criatividade do povo.
Este livro é um resumo do meu livro anterior "A História da Inovação e do Empreendedorismo no Brasil" (do mesmo autor), sem os detalhes de dados históricos do Brasil.

Baixe o livro GRÁTIS clicando aqui.


Confira o livro na Amazon.


sábado, 22 de outubro de 2016

A História da Inovação e do Empreendedorismo no Brasil (livro grátis FREE E-BOOK)

Apresento aqui meu livro mais recente, mais importante e mais trabalhoso. Foram 5 anos de pesquisa, buscando dados históricos e estatísticos para compreender a situação atual do Brasil. A ideia inicial era pesquisar por que alguns países são ricos e outros são pobres. Mas eu queria situar o Brasil neste contexto. Por isto, busquei a história da inovação e do empreendedorismo no Brasil, desde Cabral até hoje. Mas também pesquisei a situação em outros países, sejam ricos ou em desenvolvimento (os grupos BRICS e MINT). Por isto então, são também apresentados dados de outros países para comparação com o Brasil.

Para baixar o livro grátis, clique aqui. 



Resumo do livro:
Este não é um livro de economia. É um livro de história que trata de questões econômicas e ajuda a entender a situação atual do Brasil reconstruindo sua trajetória. Em especial o livro procura refazer esta trajetória comparando nossas escolhas com os caminhos percorridos por outros países.
São 5 anos de pesquisa que resultaram em mil páginas sobre o assunto. A 1a parte do livro faz um resumo dos eventos principais em relação a inovação e empreendedorismo desde a descoberta do Brasil até os dias atuais. A 2a parte discute em detalhe os fatores que distinguem países ricos e pobres, posicionando o Brasil através de dados históricos e estatísticos e comparando nossas situações passada e presente com as de países desenvolvidos e em desenvolvimento. Os fatores incluem: tamanho territorial e da população, geografia, clima, recursos naturais, colonização, imigrantes, comércio exterior, capital externo, agricultura, indústria, serviços, dívidas, exportações e importações, inflação, participações em guerras, educação, saúde, desigualdade e pobreza, pesquisa e desenvolvimento, patentes, influência e poder do governo X liberdade, corrupção e privilégios, legislação e burocracia, pirâmide populacional e previdência social, força e estabilidade das instituições, influência das religiões, infraestrutura, produtividade, violência e crimes, cultura e criatividade do povo. São quase mil páginas, contendo também mais de 150 gráficos e mais de 200 tabelas com dados históricos, estatísticos e atualizados.

Para baixar o livro grátis, clique aqui. 

Formas de citação:

Loh, Stanley. A História da Inovação e do Empreendedorismo no Brasil - e comparações com outros países. Porto Alegre, 2016.

Loh, Stanley (2016) A História da Inovação e do Empreendedorismo no Brasil - e comparações com outros países. Porto Alegre, 2016.

Prefixo Editorial: 916683
Número ISBN: 978-85-916683-5-9

Copyright © by Stanley Loh
Todos os direitos reservados.






 

segunda-feira, 10 de outubro de 2016

Big Data x Complexidade



O fenômeno Big Data possui 3 características principais conhecidas como 3Vs das informações. São elas:

- volume: cada vez mais a Humanidade gera e armazena mais informações. As tecnologias como rádio, TV e telefone geraram mudanças na comunicação (velocidade e volume de informações). Mas a Internet aumentou tudo isto e ainda permite que pessoas gerem informações que ficam disponíveis publicamente. É a explosão de informações.

- velocidade: hoje em dia é possível escrever um post  num blog como este e divulgá-lo instantaneamente para milhares de pessoas em diferentes partes do mundo.

- variedade: a variedade de informações acontece porque nosso mundo está se tornando mais complexo. Geramos e armazenamos informações em formatos diferentes como textos, diagramas, figuras, sons, planilhas, tabelas, gráficos, etc. Além disto, nossos conceitos estão evoluindo para estados menos estáveis ou concretos. Por exemplo: como definir hoje em dia uma família ? E um casamento ? Como armazenar a filiação de uma pessoa ? Seriam 2 ou 3 valores possíveis ? Pode haver uma pessoa só com um pai ou uma mãe ? E sexo então. Há hospitais que trabalham com 12 diferentes tipos de sexo.

Já escrevi sobre o colapso do consenso, termo cunhado por Alvin Toffler na década de 1980.

Os 3Vs são consequência de um mundo mais complexo.

A complexidade aumenta na proporção direta a:
- número de elementos ou itens envolvidos;
- diferentes tipos dos elementos;
- número de relações entre os elementos;
- diferentes tipos de relações entre os elementos.

Uma equipe de trabalho com homens e mulheres de diferentes profissões é mais complexo que um time de futebol masculino. Uma sala de aula com 20 alunos é menos complexa que uma sala com 40 alunos. Uma rede social que permite ligar amigos e inimigos é mais complexa que uma rede onde somente amigos estão relacionados.

O mundo está mais complexo porque:
- há mais pessoas no mundo;
- nossos grupos sociais estão aumentando, passando o limite de 150 para nossa capacidade intelectual (conforme Robin Dunbar);
- as interações entre as pessoas estão mais diversificadas usando diferentes mídias, tecnologia e redes sociais.

A quem isto tudo vai impactar ?

Campanhas de marketing precisarão entender os diferentes segmentos de clientes. Haverá mais microssegmentação. Veja quantas revistas diferentes existem sobre esportes

O atendimento a clientes deverá ser mais personalizado. Jeff Bezos da Amazon disse que precisa ter 3 milhões de lojas diferentes se tiver 3 milhões de clientes.

A inovação de produtos e serviços ficará cada vez mais especializada, para finalidades e públicos específicos.

A diversidade é boa. Ela aumenta a criatividade, amplia oportunidades de negócios. A padronização não funciona mais. O que se quer hoje é personalização. Mas a padronização é boa porque facilita nossa vida. Imagina atravessar ruas numa cidade onde em cada esquina há um tipo diferente de sinaleira ? A diversidade é boa mas dificulta nosso viver (precisaríamos tomar decisões sobre o que fazer em cada nova situação). Ou seja, a Humanidade procura padronização. Foi por isto que inventamos e nos adaptamos bem à agricultura. Para entender a natureza e poder obter alimento de uma forma mais tranquila e regular.

Mas o Big Data só cresce. Cada vez temos mais sensores espalhados para monitorar nosso mundo. São sensores de luminosidade para acender ou pagar lâmpadas nas ruas automaticamente, sensores de temperatura para acionar condicionadores de ar, sensores de chuva e intensidade solar para melhor adaptar nossa agricultura. E tudo isto feito com diferentes máquinas interligadas. É a Internet das Coisas (Internet of Things – IoT).

Para poder entender tantos dados sendo gerados e armazenados vamos precisar de técnicas de análise de dados mais modernas e eficientes, como Data Mining e BI. Será necessário dividir uma coleção grande de dados em amostras menores.

Mas também o mundo novo nos trouxe aumento na complexidade da análise. As necessidades das pessoas estão mais complexas. Antes uma pessoa queria saber somente o endereço de um cliente. Depois, passou a querer saber quem são os clientes com determinado perfil. Hoje, quer saber quais os perfis de clientes que existem num grupo.


Comportamento complexo emerge de comportamentos simples


Esta excelente reportagem da revista National Geographic Brasil, explica o que é a Teoria dos Enxames e a Sabedoria Coletiva. Ali há exemplos de comportamentos simples em animais que geram comportamentos complexos nos grupos.

Eu mesmo já escrevi um pouco sobre isto em

Com as pessoas também acontece o mesmo. Apesar de cada indivíduo ser um ser inteligente e com comportamento complexo (veja como as pessoas tomam decisões complexas aqui http://miningtext.blogspot.com.br/2013/09/como-as-pessoas-tomam-decisoes.html), há também comportamento de enxame nas multidões de humanos, como por exemplo em clientes comprando por promoções.

Isto também pode acontecer com o Big Data que a gente coleta e armazena. Uma forma de entender o caso do Big Data seria procurando por padrões simples nas partes. Assim, não seria necessário procurar por um comportamento complexo, mas apenas buscar entender como as partes funcionam. Um formigueiro ou uma colmeia funcionam bem aos olhos de quem está de fora (como explicado na reportagem da NatGeo). Mas este comportamento complexo é gerado por ações simples de cada elemento no enxame. Apesar de haver diferentes funções, elas não são muitas. Cada indivíduo repete as mesmas funções que seus colegas de mesma função. Por exemplo, ao limpar um terreno, cada formiga coloca o item que encontra (ex. pedra, resto de alimento, sujeira), próximo de outro item similar gerando amontoados (isto é um comportamento simples). Se cada indivíduo fizer isto, teremos montes de itens classificados (um comportamento complexo), sem uma autoridade central ou alguém com visão holística.

O comportamento do todo é gerado pelas pequenas ações de cada indivíduo.

É claro que a complexidade não é a mera soma das partes. Há uma sinergia entre as partes ou diferentes comportamentos simples. O comportamento é simples nas unidades mas destas relações emerge um comportamento complexo.

Existe o que se chama auto-organização em sistemas complexos. Os indivíduos ajustam seu comportamento ao avaliar o comportamento dos outros indivíduos. Por exemplo, uma formiga pode mudar sua função (de forrageira para soldado) se entender que há poucos indivíduos na outra função.

O feedback e a adaptação são duas características importantes em sistemas cibernéticos. Eles estão presentes em seres vivos mas também estão sendo incorporados em máquinas. Um robô que explora um planeta ou um satélite no céu não podem esperar alguém reprogramar seu comportamento ou mesmo vir corrigir um defeito. Eles precisam ser autossuficientes e para isto devem ser programados para se adaptarem a novos ambientes.

Aí é que o Big Data pode ser muito útil. Quanto mais informações sobre o ambiente e quanto mais retorno ou reações (feedback) de nossas ações, melhor podemos nos adaptar. Precisamos acelerar o retorno vindo de diferentes e várias fontes, para melhorar as nossas decisões. Sobrevive quem se adapta melhor, já dizia Darwin. Mas nos seres vivos a adaptação ou evolução pode demorar milhões de anos. Precisamos de adaptação rápida. E o Big Data pode ajudar. Isto também é chamado de “retorno acelerado” (increasing returns).

A descentralização também pode ajudar. Quanto mais partes colhendo dados, de mais fontes e mais variadas, melhor o feedback.


Será possível controlar um sistema complexo, por exemplo, de clientes ?


Os sistemas complexos impõem dificuldades para entender causalidade (quem causa o que). O comportamento final é imprevisível se analisarmos apenas as partes (o todo não é a mera soma das partes).

Por isto, os sistemas de simulação podem ajudar a entender ou mesmo gerar um comportamento coletivo com muitas partes ou interações. Podemos fazer simulação de sistemas complexos com NetLogo (https://ccl.northwestern.edu/netlogo/). É possível programar o comportamento dos tipos de elementos e então simular o que aconteceria numa multidão. Podemos variar parâmetros e ver o que acontece em novas simulações. Os parâmetros podem ser: o número inicial de cada tipo de elemento, os padrões de comportamento (exemplo: probabilidade com que um elemento consegue mudar o comportamento de outro, ou o quanto um indivíduo muda seu comportamento em certas situações), o número de interações entre os indivíduos (por exemplo, quantos vizinhos ou elementos cada indivíduo encontra).

Axelrod utilizou simulações computacionais para tentar entender como a cooperação poderia sobreviver em um mundo egoísta. Biólogos simulam sistemas predador-presa para entender se haverá ou não extinção de espécies. Economistas simulam mercados. Analistas de Marketing poderiam simular como uma campanha viral se espalharia, por exemplo, se houvessem tantos eleitos influenciando o todo (para entender os eleitos, ver livro “O Ponto da Virada” de Malcolm Gladwell).

Paco Underhill e sua equipe usam mineração de dados sobre observações de comportamentos de clientes. Suas descobertas estão documentadas no livro “Why we buy”. Eles extraem padrão do caos. Em resumo, pode-se entender que clientes se comportam como gado, inclusive sendo direcionados dentro de lojas. Pessoas são autônomas mas acabam tendo comportamento similar. E uma multidão ainda pode engessar o comportamento das pessoas pelo chamado Groupthinking ou condicionamento de manadas.  

Um roteiro para tentar entender clientes pela análise de complexidade:
1.      Observar o comportamento dos indivíduos;
2.      Identificar ações simples que se repetem (classificar, reduzir, simplificar);
3.      Simular em computador como o todo irá se comportar com vários comportamentos simples iguais.


A simulação permite testar ideias mas também a evolução de sistemas dinâmicos, onde indivíduos podem mudar seu comportamento. As regras básicas da evolução são: diferenciação e seleção. Indivíduos mudam mas só sobrevivem certos tipos de comportamentos ou características.

Um sistema vivo não é aquele que está estável ou em equilíbrio, mas sim estabelecido na instabilidade. Os gases na Terra não estão estáveis. Sua proporção (por exemplo, 21% de oxigênio) é resultado justamente da instabilidade, ou seja, das muitas reações que estão acontecendo. É o equilíbrio na corda bamba. O sistema morre se estabilizar.

O atendimento a clientes deve ser também um sistema vivo. Se for padronizado, morre. Qual estratégia funciona melhor ? Precisamos testar em ambientes reais (com clientes reais em necessidades e situações reais). Ou então simular em computador.



Referências sobre Complexidade:


KELLY, Kevin. Bootstrapping Complexity. Amazon (e-book Kindle), 2011.

WALDROP, M. Mitchell. Complexity: The Emerging Science at the Edge of Order and Chaos. Simon and Schuster, 1993.