sexta-feira, 1 de dezembro de 2017

Desafios e questões em aberto para sistemas de recomendação

A grande vantagem de um sistema de recomendação é diminuir as opções de escolha quando a pessoa não tem tempo ou informações para comparar as opções.
Apesar do crescente uso deste tipo de sistema e da presença pervasiva em nosso dia a dia, ainda há muita pesquisa a ser feita.
Este artigo fala dos desafios recentes e de problemas ainda não bem solucionados pelos sistemas de recomendação.

Observações iniciais: neste texto vou me referir muito a termos genéricos tais como:
- produto: mas é possível fazer recomendações também de serviços, empresas, pessoas, páginas na web, cidades, atrações turísticas, restaurantes, pratos de comida e informações;
- cliente: representa a pessoa ou entidade que irá receber a recomendação e sobre a qual o sistema precisará coletar informações para montar um perfil de interesse. Não necessariamente é alguém que compra ou paga por algo.

Coleta implícita de dados sobre clientes

A coleta explícita envolve perguntar aos usuários ou clientes. A implícita é feita por observação. O grande desafio hoje em dia é coletar dados sobre clientes para criar a visão 360 graus sem incomodá-lo e sem invadir a privacidade (sobre isto, tem um tópico no final deste texto).
A coleta implícita é boa porque não atrapalha a tarefa do cliente nem toma seu tempo. Isso inclui observar o que o cliente está fazendo, o que está olhando, onde está clicando, que textos está enviando ou postando, etc.
O desafio primeiro é estabelecer que ações do cliente são importantes para a recomendação e o quanto (isto tem a ver com perfil dinâmico explicado a seguir).
O segundo desafio é como coletar os dados sem invadir sistemas.
Depois da coleta, vem a inferência. Exemplo: se o cliente comprou vários alimentos congelados, infere-se que ele tenha um freezer em casa.

Perfil dinâmico de clientes

Em sistemas de recomendação, o perfil do cliente representa seus interesses, gostos, hábitos e preferências, além de características demográficas. Se o cliente clica várias vezes em produtos tipo “geladeira”, então é porque ele tem interesse neste tipo de produto. Se o cliente clica uma vez é diferente de ele clicar 5 vezes.
Então o normal é utilizar um esquema de pontos para representar o grau de interesse de um cliente em relação a um item ou a uma classe de itens (classes são discutidas a seguir).
Veja a figura a seguir: o tamanho da barra representa o quanto um cliente se interesse por uma classe.




Além disto, o sistema de recomendação deve perceber quando o interesse diminuiu ou acaba. Se um cliente passa uma semana toda analisando produtos de uma classe, seu interesse é grande nesta classe. Se na semana seguinte, ele não demonstrar mais interesse, a pontuação da classe deve diminuir (talvez ele até já tenha comprado o produto e o sistema não saiba).
O primeiro desafio é estabelecer a pontuação para cada tipo de ação (o grau de interesse). Por exemplo, clicar num produto é uma coisa; clicar nas fotos e na descrição detalhada já demonstra mais interesse.
O segundo desafio é definir a meia-vida do interesse, ou seja, o quanto deve decair a pontuação no perfil a cada período de tempo (horas ou dias).

Tipos de classes para interesse e perfil do cliente

Em sistemas baseados em conteúdo (content-based), o perfil do cliente é composto de classes. Em geral, as classes representam tipos de produtos (“brick”), tais como geladeira, TV, notebook, celular, carro, viagens, etc.
Entretanto, é necessário utilizar também classes mais específicas como marcas, cor, tamanho e detalhes técnicos (voltagem, tamanho de memória, etc.).
Também podem ser usadas classes temporárias tais como “frete grátis” e “promoção”. Há clientes que só se interessam por produtos neste tipo de classe.
O desafio é estabelecer uma taxonomia ou ontologia para descrever os produtos ou itens.
Outro desafio é em relação a preços de produtos. Se um cliente comprar numa geladeira de 3 mil reais, ele vai se interessar mais por restaurantes caros ou baratos ? Uma solução possível é criar faixas de valores (caro, médio e barato) para associar ao perfil do cliente.

Cold Start – clientes sem perfil

Podemos usar técnicas de recomendação que não precisam saber quem é o cliente. Por exemplo, a técnica dos Top N (mais-mais) usa a sabedoria da massas (por exemplo, os mais vendidos).
A lista de técnicas está em:

Técnicas de filtragem colaborativa ou baseada em conteúdo utilizam o perfil do cliente para gerar recomendações. O desafio é fazer recomendações quanto não se tem informações sobre o cliente.
Na verdade, talvez não se tenha informações detalhadas, mas alguma informação é necessária.
Por exemplo, podemos coletar informações de alguém que entra num site, analisando que páginas ele está visitando na seção. Mesmo que por pouco tempo, ali teremos alguns dados para formar um perfil inicial e gerar recomendações na hora mesmo.
Outra possibilidade é cruzar sistemas, ou seja, coletar dados do cliente a partir de outros sistemas (como por exemplo, redes sociais).

Recomendar somente o que é novo ?

Se Spotify e iTunes recomendarem somente as músicas novas (lançamentos), talvez ninguém fique sabendo de músicas mais antigas. E há muitas boas que merecem ser ouvidas.
Se uma loja de games só recomendar os lançamentos, ficará com os jogos antigos encalhados.
O desafio é persuadir os clientes que os itens antigos também podem ser bons.

Explicar a origem das Recomendações

Os sistemas deveriam explicar como chegaram até as recomendações. Isto gera confiança (trust) no cliente. O sistema deve explicar de forma leiga e de fácil entendimento o algoritmo usado (exemplos: “clientes que compraram isto, também compraram aquilo”; “talvez você goste disto, porque pessoas parecidas com você também gostaram”).

Origem das Recomendações: grupos X indivíduos, massa X especialistas

A técnica dos Top N (ex. mais vendidos) usa informações da coletividade. Mas todas as pessoas são iguais. Se o sistema apresenta a música mais ouvida, ele não está fazendo distinção de quem foram as pessoas que mais ouviram.
Uma maneira de resolver o problema é com a técnica de filtragem colaborativa. Outra possibilidade é separar por grupos. Exemplos: música mais ouvida no Brasil, aplicativo mais baixado entre pessoas de 20 a 30 anos, computador mais adquirido por empresas de design. 

Relevância Temporal

Durante 3 anos, uma farmácia recomendou fraldas toda semana a um cliente. E este sempre aceitou. Numa certa semana, ele não veio comprar fraldas. Mas a empresa continuou recomendando. Na semana seguinte, também não veio. E assim por diante. Quando a empresa deve parar de recomendar.
Já falamos antes do perfil dinâmico. Esta pode ser uma solução.
A outra é incorporar um tempo de validade para as recomendações ou a sazonabilidade. Não é porque um cliente comprou sorvete todo dia entre dezembro e fevereiro que a empresa deve continuar recomendando sorvete durante o ano todo.

Gostos ou Necessidades Ad Hoc

Um cliente só compra discos de Jazz. Certo dia, ele comprou um disco de Pagode. Isto deve ser incorporado ao seu perfil ? Uma possibilidade é incorporar esta classe de interesse mas com um grau pequeno (como discutido antes no perfil dinâmico). Outra possibilidade é os sistemas permitirem ao cliente dizer “comprei para presente”, “não coloque isto no meu perfil” e coisas assim.

Recomendar de novo o mesmo item?

Se o cliente não aceitou a primeira vez uma recomendação, talvez ele possa aceitar mais tarde. Quantas recusas indicam que ele nunca mais vai querer ? Os sistemas deveriam permitir ao cliente dizer explicitamente (ratings) coisas como “nunca mais me recomende de novo”, “hoje eu não quero”, “já tenho este produto”.

Se o cliente já comprou, nunca mais recomenda de novo o mesmo item ?

Se um cliente comprar uma TV, ficaria muito chato recomendar para ele o mesmo produto na semana seguinte (pior ainda se for com menor preço).
Mas talvez depois de 4 anos ele queira comprar outra TV, mais moderna.
O mesmo produto deve “morrer” no perfil do cliente, mas a “classe” pode “ressuscitar” depois de um tempo.
E perfume ? Tem pessoas que compram sempre o mesmo perfume. Então recomendar depois de 3 meses o mesmo perfume que o cliente comprou não é problema.
E cerveja ? Se um cliente comprou cerveja hoje, amanhã posso recomendar a mesma cerveja por preço mais baixo ?

Relembrar Recomendações

Hoje o usuário não aceitou a recomendação. Amanhã pode querê-la. Talvez fosse bom haver funções de recuperação de recomendações feitas pelo sistema (cuidando com a validade das ofertas).

Mesmas recomendações para todos ?

Num engarrafamento, várias pessoas pedem recomendação de caminhos alternativos. Se todas receberem a mesma recomendação, as vias alternativas ficarão também congestionadas.
Se uma loja recomendar o mesmo produto para vários clientes, talvez fique sem estoque e torne insatisfeito o cliente que foi na loja atrás deste produto.
Um desafio para os sistemas de recomendação é o balanceamento de carga, como já é feito em sistemas distribuídos para que os acessos a dados sejam distribuídos equilibradamente por vários servidores diferentes.

Stigmergia

Stigmergia significa a comunicação entre seres vivos através do meio físico, e muitas vezes de forma involuntária. Funciona com as formigas, que deixam feromônios pelo caminho após encontrarem comida. Funciona quando queremos atravessar um mato e não conhecemos o caminho; basta seguir pelo chão onde a vegetação está mais pisada.
Ao recomendar livros técnicos ou filmes que possuem continuação, os sistemas deveriam recomendar os itens numa ordem. Esta ordem pode ser inferida pela sabedoria das massas (em que ordem a maioria das pessoas compra livros ou assiste a filmes e séries).

Interromper ou não o trabalho do usuário

Se o sistema percebe que o cliente está procurando por algo, deve-se interrompê-lo para avisar e poupar-lhe tempo ?
Ou o sistema deve lembrá-lo depois (ex. “lembra aquele dia que você estava fazendo assim...”).

Recomendação solicitada ou espontânea ?

Lembra o Assistente do Office, aquele clip que interrompia nosso trabalho para dar dicas furadas ?
Agora imagine a seguinte situação: uma loja de lingerie manda uma carta agradecendo ao seu melhor cliente pelas compras feitas. A esposa dele lê a carta e se dá conta que nunca recebeu nenhum presente do marido. Tá feita a confusão.
Sistemas de recomendação deveriam incorporar o chamado Marketing de Permissão (opt-in x opt-out).

(sobre tipos de marketing ver meu livro no link abaixo)

Quantos itens recomendar

Qual a quantidade ideal de itens a serem recomendados ? O Google já escolheu um número baixo, em torno de 3.
Se o objetivo do sistema de recomendação é diminuir a sobrecarga de opções, bombardear o cliente com muitas informações só vai piorar a situação.  
Talvez o sistema possa permitir ao cliente configurar ou explicitamente informar os seus limiares de relevância.

Recomendação para Grupos

Uma das áreas recentes de pesquisa é combinar perfis para fazer recomendações para grupos. Como um agente de viagem pode propor um roteiro turístico para um grupo onde haja pessoas de 3ª idade, jovens, casais sem filhos, adolescentes, solteiros de meia idade ... ?
Se alguém gosta de filmes violentos, não significa que devemos recomendar filmes violentos toda vez que ele vá ao cinema. E se ele for com a namorada que gosta de filmes românticos ?

Recomendações Sensíveis ao Contexto

O desafio atual com o crescimento da Internet das Coisas (IoT), dispositivos móveis, GPS, etc. é entender o contexto do cliente para melhorar as recomendações (context awareness).
Por exemplo, se o cliente pede para ser avisado quando seu time fizer um gol, o aviso deve ser diferente se ele estivar numa reunião ou se ele estiver na academia.
Além disto, os conteúdos multimídia devem ser adaptados para o tipo de dispositivo do cliente, dependendo do tamanho de tela, espaço em memória, velocidade da rede de transmissão de dados, etc.

Privacidade

O World Wide Web Consortium (W3C) está propondo o protocolo P3P - Platform for Privacity Preferences. Com ele, cada pessoa poderá estabelecer o que permite que os sistemas coletem de informações e o que recomendem. Os sistemas devem consultar as configurações do cliente antes de fazer qualquer ação (como um acordo). 
Entretanto, privacidade é algo que não existe mais. O que existe e deve ser melhor gerenciado é “política de privacidade”, onde sistemas e clientes possam dizer suas intenções.
Leia mais sobre este tema em:  

Serendipity

O que diferencia recomendação de spam é o seguinte: imagine que você receba um SMS avisando de uma promoção de produto. Mas você recebe a mensagem às 4 horas da madrugada, atrapalhando o seu sono. Se você sorrir e voltar a dormir feliz porque no dia seguinte vai comprar algo legal, ISTO É RECOMENDAÇÃO. Se você ficar muito chateado com a mensagem, ISTO É SPAM.
O grande desafio dos sistemas de recomendação é oferecer algo que surpreenda o cliente.
Para isto, temos que conhece-lo bem e utilizar bons algoritmos para faze o “match” entre perfis e produtos.


sexta-feira, 24 de novembro de 2017

Origem e razão para fidelidade a marcas

Por que fãs são fiéis às marcas ?
Estou pesquisando e comparando religiões com marcas, e como estas conseguem atrair e manter fãs e clientes fiéis. Estou me baseando em marcas de produtos como Apple, Ferrari e Coca-Cola, mas também considero marcas Star Wars, Star Trek, Harry Potter, Beatles e times de futebol. E tenho estudo muito sobre religiões, crenças e o conceito de Deus.
Tenho notado várias semelhanças entre as religiões e as marcas, e o resultado deste estudo irei publicar ano que vem num livro.
Por enquanto, posso adiantar uma descoberta que achei interessante: a possível origem da fidelidade às marcas. Este fenômeno pode ter vindo de fenômenos parecidos tais como a transposição do politeísmo para o monoteísmo e o surgimento da monogamia entre os animais.
Então aí vão minhas hipóteses para a fidelidade de marca:

Hipótese 1:
Assim, como o politeísmo gerou o monoteísmo como uma forma de unificação de grupos, diminuição de conflitos internos e eliminação de alternativas éticas conflitantes, a fidelidade à marca também pode ter surgido como uma forma de entendimento ou senso comum entre fãs, para diminuir conflitos. Inclusive, fãs que aceitam outras marcas (por exemplo, concorrentes) são excluídos ou perdem poder no grupo.

Hipótese 2:
Assim como a monogamia pode ter surgido para evitar o infanticídio, já que um macho matava a prole do outro por ciúme ou para ter mais atenção da fêmea, a fidelidade a uma marca pode ter surgido da sensação de que a marca é uma espécie de “filha” (ou mãe ou parente) dos fãs. Então, os fãs podem ter um sentimento para cuidar que a aceitação de outras marcas não acabe “matando” a marca mais querida (como uma filha ou mãe). Por exemplo, o fã que ama Samsung não aceitaria uma parceria com a Apple porque isto poderia acabar com os produtos da Samsung (a marca mais forte sobrepujaria a menor). E por esta razão, este tipo de fã rejeita outras marcas mais fortes e por isto é fiel.

Hipótese 3:
A monogamia pelos machos pode ter surgido pelo alto custo de manter ou dar atenção a várias fêmeas. Assim também pode ter surgido o monoteísmo ou associação a somente uma religião: é muito custoso seguir os rituais de duas religiões, ir a diferentes cultos, participar de diferentes grupos sociais e com éticas diferentes.
Portanto, também é custoso para uma pessoa ser fã de várias marcas concorrentes. Por exemplo, ninguém vai comprar eletrônicos de marcas diferentes se há dificuldade de comunicação, integração ou compatibilidade. Ter 2 celulares de marcas diferentes, talvez exija ter acessórios (ex. carregador, smartwatch) diferentes para cada marca (replicação de recursos). Da mesma forma, imagine um fã de banda de rock que queira ir a todos os shows de suas (no plural) bandas favoritas; sairia muito caro. A fidelidade a uma marca então surge como um apaziguador da alma, uma desculpa para aceitação da situação (“não vou a outros shows, não porque não quero gastar ou não tenho dinheiro, mas porque só gosto de uma banda”).

Hipótese 4:
A fidelidade a uma marca também pode ter surgido da necessidade ou do sentimento de diminuir custos com decisões. A fidelidade a uma marca facilita escolher, ou seja, você não precisa escolher a marca. Exemplo: quem se apegou à marca Tommy Hilfiger tenderá a comprar roupas e acessórios somente desta marca. Não há por que ficar procurando e pesquisando preços. Basta ir somente a uma loja e escolher entre as opções que a marca lhe oferece. É muito mais fácil, rápido e prático.

Hipóteses menores
Outras hipóteses podem ter contribuído para o monoteísmo e para a monogamia, e assim também podem influenciar a fidelidade a uma marca.
Há a cultura que vem dos pais, pressionando ou persuadindo a criança a ser fiel a uma religião. Há a cultura entre alguns casais para respeitar a monogamia. Isto serve de aprendizado para a criança que forma um conceito forte. E isto pode se refletir em outras fidelidades ainda durante a infância ou adolescência. Amar seu colégio. Defender seus amigos. E depois, a fidelidade a marcas de roupas, tênis e ao time do coração.

Outra hipótese menor pode ser o desejo de status, fama e poder. Fazer parte de um grupo forte (o do Deus maior) dá um sentimento de poder e confiança em batalhas e no futuro. Ser fiel a uma marca famosa, rica e onipresente, faz gerar sentimentos de pertencer a castas superiores. 

segunda-feira, 16 de outubro de 2017

Quebra de paradigmas

Vejo muita discussão sobre qual seria a verdade verdadeira em muitas áreas. Começa com a discussão entre Criacionismo vs. Big Bang e Evolução. Segue com a disputa entre religiões e provas da existência de Deus. Até chegar às teorias de Física, Química, Biologia, etc.

Pois bem, o mais correto, na minha opinião, é dizer “no momento, a teoria mais aceita é ...”.  Isto porque não há provas de uma verdade ou outra. Há indícios e há opiniões (maioria x minoria).

Já vimos várias teorias sendo quebradas: Terra plana, Sol x Terra, átomo indivisível, universo x multiverso, matéria x antimatéria, leis de Newton X Einstein X teoria quântica, etc. Até Stephen Hawking está revendo seus conceitos sobre buracos negros. Recentemente, o Museu de História Natural de Londres retirou a estátua de Lamarck e colocou a de Darwin. Mas já existem teorias surgindo dizendo que talvez algumas ideias de Lamarck estejam certas (características adquiridas passando para a prole). Por exemplo, talvez informações passem pelo DNA e aí explicariam a sensação de “déjà-vu”.  

Thomas Kuhn, no livro “A estrutura das revoluções científicas”, estuda o surgimento de novos paradigmas. Quando observações não se encaixam na teoria antiga ou vigente, é necessário adaptar a teoria ou criar uma nova. É como funciona a tese x antítese, dando origem a uma nova teoria para acomodar ambos os lados (a dialética também faz isto).

Karl Popper propôs o teste de falseabilidade para provar uma teoria. O teste consiste em procurar o que não se encaixa na teoria. Se nada for encontrado, então a teoria está correta. E se a gente não procurar corretamente ? Se os instrumentos não forem suficientes ? Se a amostra ou o momento da observação não estiverem adequados ? Estaremos validando uma teoria incorreta.

Taleb, no livro “A lógica do Cisne Negro” lembra que o Peru forma um modelo (ou teoria) de que sempre será bem alimentado. Mas isto só dura até o dia de Ação de Graças.

Mas teorias nem sempre são fáceis de serem quebradas. A teoria da Terra plana ainda hoje é defendida por alguns. Quando o assunto é tecnologia, já vimos várias vezes o fenômeno chamado de “lock in”. É quando uma tecnologia melhor não consegue substituir outra mais antiga ou pior. A explicação é que as pessoas já estão acostumadas como uma e acreditam que será muito esforço aprender a nova. Isto aconteceu com o teclado qwerty e com o padrão VHS de fitas de filmes. O tablet também foi inventado pela Microsoft 10 anos antes do Ipad, mas só se popularizou com este último. E justo porque Jobs permitiu que diversas empresas pudessem criar aplicativos para o Ipad. Ou seja, você compra um dispositivo e pode baixar de graça ou comprar funcionalidades adicionais, coisa que não acontecia no tablet da MS.

Por outro lado, às vezes é necessário que um mercado todo se estabeleça para que uma nova tecnologia se popularize. A Kodak não acreditou na fotografia digital que ela mesma ajudou a inventar. Isto porque não imaginava um mercado sem os filmes tradicionais. Mas o celular emplacou anos depois de sua criação porque as empresas criaram também antenas. E o fax só ficou visível ao grande público depois que muitos já o tinham e usavam.

A quebra de paradigma permite inovações. Procure por imagens de como eram as técnicas para a modalidade de atletismo conhecida como “salto em altura”. Veja o quanto as técnicas mudaram. E como uma técnica maluca se tornou a mais eficiente e popular hoje em dia (saltar de costas fazendo um arco).


Sven Magnus Øen Carlsen é um mestre de xadrez norueguês, campeão mundial e que já derrotou Kasparov. Sua técnica ? Utilizar movimentos que não se enquadram no padrão dos grandes mestres e nem nos históricos de jogos clássicos. Com isto, ele desconcerta os adversários, que não sabem o que Magnus está planejando, e isto abre caminho para aplicar suas estratégias vencedoras. 

quarta-feira, 6 de setembro de 2017

O 4o Paradigma de Jim Gray - a eScience

O 4o Paradigma de Jim Gray, chamado de eScience, vê a Ciência como uma exploração de dados, unificando teorias, experimentos e simulações. As ferramentas permitem analisar grandes volumes de dados, capturados por instrumentos e sensores ou gerados por simuladores, usando processadores paralelos e estatística, a fim de unificar teorias, explicar resultados de experimentos e simulações e ajudar na construção de novos modelos.

Milhares de anos atrás, a ciência era empírica, descrevendo apenas fenômenos naturais. Este foi o 1º Paradigma. Por exemplo, o método da sangria era experimentação pura, uma espécie de tentativa e erro (ou, faça e veja o que acontece). E isto durou até a Renascença e o Iluminismo. Hoje temos tecnologias para coleta de dados que incluem sensores, câmeras e Internet das Coisas (IoT). Podemos armazenar dados não estruturados como imagens, sons e textos.

Há poucas centenas de anos, ramos teóricos surgiram usando modelos e generalizações. Este foi o 2º Paradigma. Com ele, surgiram as leis da Física e outras equações e teorias que explicam os fenômenos observados e podem prever eventos futuros. Hoje temos tecnologias como BI e Data Mining que podem ajudar a encontrar padrões estatísticos e modelos matemáticas de forma quase automática. Softwares de predição podem ajudar a predizer eventos ou valores numéricos usando modelos e equações matemáticas.  

Com o avanço dos computadores e do software (por exemplo, processamento paralelo e inteligência artificial), foi possível elaborar teorias complexas e testá-las com simulações computacionais. Este é o 3º Paradigma. Imagine poder testar a divulgação e a venda de novos produtos da seguinte forma: se fizermos um post no Facebook para 1000 pessoas, se uns 20% compartilharem, se 2% dos que receberem a postagem comprarem o produto, se 10% dos que comprarem divulgarem, e se etc etc. qual será o resultado final ?

O 4º Paradigma, a eScience, é um processo de exploração massiva de dados, combinando a identificação e uso de teorias, observações e experimentos e a simulação computacional.


Fonte: HEY, Tony, TANSLEY, Stewart, TOLLE, Kristin Tolle (Editores). The Fourth Paradigm: Data-Intensive Scientific Discovery. Microsoft Research, 2009.

quinta-feira, 31 de agosto de 2017

Livro Gestão da Inovação nas Empresas

GESTÃO DA INOVAÇÃO NAS EMPRESAS: O que as empresas precisam ter e saber para inovar

(e-book)

O livro começa discutindo a importância da inovação para o valor e receita da empresa e para a economia de um país. Depois é apresentada uma classificação de 21 tipos de inovações, que são desdobramentos dos tipos definidos em Oslo. O livro aborda também o ciclo da inovação, discutindo modelos de adoção ou difusão de inovações (como curva S e ciclo Hype) e modelos de processos de inovação dentro de empresas. São discutidas também forças impulsionadoras de inovações dentro das empresas e a relação entre as forças da tríplice hélice Governo-Empresa-Universidade. Também são apresentadas diferentes formas de obter financiamento ou apoio para inovações, incluindo crowdfunding, aceleradoras, incubadoras, parques tecnológicos e programas de fomento do Governo. Seguindo, há um capítulo sobre patentes onde se discutem conceitos, tipos, formas de registro e bancos de dados para busca e análise de pedidos de patentes. Por fim, o livro discute o papel e o perfil das pessoas inovadoras e visionárias no processo de inovação e apresenta diversas técnicas para criatividade.



ÍNDICE DO LIVRO: 

1 O que é Inovação e sua Importância 8
1.1 Ranking do PIB Mundial 9
1.2 Ranking de Países por Patentes 12
1.3 Empresas mais Inovadoras e mais Valiosas 12
1.4 Índices e Rankings de Competitividade e Inovação 15
1.5 Obstáculos à inovação 18
1.6 Mortalidade Infantil de Empresas 18
1.7 Oportunidades Disfarçadas 19
1.8 Criação de Valor a partir da Inovação 20
1.9 Retorno Financeiro com a Inovação 21
1.10 Ativos Intangíveis 22
1.11 Importância da Gestão da Inovação 23
1.12 Norma NBR 16501 28
1.13 Modelo de Maturidade da Gestão da Inovação 28
1.14 Radar da Inovação 29
2 Tipos de Inovações 31
2.1 Tipos de Projetos de Inovação 33
2.2 Tipos de Inovação - nova classificação detalhada 35
2.2.1 Oferta  (Oslo) 35
2.2.2 Processos (Oslo) 35
2.2.3 Organização (Oslo) 37
2.2.4 Plataforma 37
2.2.5 Soluções 37
2.2.6 Clientes - novos mercados 38
2.2.7 Experiência do Consumidor 39
2.2.8 Captura de valor - novos modelos de negócios 39
2.2.9 Cadeia de fornecimento 42
2.2.10 Presença 43
2.2.11 Relacionamentos 43
2.2.12 Colaboração e Compartilhamento 44
2.2.13 Resultado por Compartilhamento e Junção 44
2.2.14 Troca de benefícios com clientes 44
2.2.15 Promoção 45
2.2.16 Marca 45
2.2.17 Design (forma) 46
2.2.18 Novos mundos e realidades 48
2.2.19 Sustentabilidade 49
2.2.20 Personalização 50
2.2.21 Usabilidade 50
3 O Ciclo da Inovação 52
3.1 Ciclo Hype 56
3.2 Crossing the chasm - Geoffrey Moore (1991) 57
3.3 Raridade x popularidade 58
3.4 Modelo TAM 59
3.5 Quando lançar um produto novo ? 60
3.6 E quando pensar em inovação ? 62
3.7 Inovação em Produto X Inovação em Processo 63
3.8 Obsolescência planejada x percebida 63
3.9 De onde vem a Inovação - fatores impulsionadores 65
3.9.1 A Lei do Retorno Acelerado de Ray Kurzweil 65
3.10 De onde vem a Inovação - fatores impulsionadores 67
3.10.1 Simulações 68
3.10.2 Lei dos Rendimentos Decrescentes de Thomas Malthus 68
3.10.3 Programas e Grupos de Qualidade 70
3.10.4 Outras fontes de Inovação 72
3.10.5 O Estado/Governo 73
3.10.6 Pesquisa básica X pesquisa aplicada 73
3.10.7 Tríplice Hélice: Governo, Empresas e Universidades 76
3.10.8 Fator Sorte e Inovação por Acaso - serendipity 81
3.10.9 Inovação por Improviso - Jugaad 82
4 Trajetória e Capacidade Tecnológica e Processos de Inovação 84
4.1 Aprendizagem Tecnológica 86
4.2 Modelos de Capacidade Tecnológica 87
4.3 Modelo Linear - 1a geração 88
4.4 Modelo de Inovação Interativo - 2a geração 88
4.5 Modelo Acoplado - 3a Geração 89
4.6 Modelo Integrado - 4a Geração 90
4.7 Modelo de 5a Geração 91
4.8 Modelo em Funil 93
4.9 O Modelo Catch-up 93
4.10 Inovação Reversa 94
4.11 Setor ou Departamento de P&D 94
4.12 Lideranças para a Inovação 96
4.13 Papéis na Gestão da Inovação 97
4.14 Cultura da inovação na Empresa 98
4.15 Inteligência Competitiva 99
4.16 Sistema de gerenciamento de sugestões e banco de ideias 101
4.17 Gestão de Portfólio 102
5 Financiamento e Infraestrutura para Inovações 106
5.1 Investimentos Privados X Públicos 107
5.2 Gastos das empresas com P&D 109
5.3 Pessoas envolvidas em P&D 110
5.4 Como conseguir Investimentos para inovação 112
5.5 Incentivos governamentais para inovação no Brasil 113
5.6 Políticas Públicas no Brasil 113
5.7 O Custo Brasil 114
5.8 Crowdfunding 115
5.9 Aceleradoras e Associações de Startups 115
5.10 Incubadoras e Parques Empresariais/Tecnológicos 117
5.11 Colaboração 119
5.12 Competitividade 122
5.13 Dicas para Melhorar o Fluxo de Ideias 123
6 Patentes 125
6.1 O que é uma patente ? 125
6.2 Características Fundamentais das Patentes 126
6.3 Por que patentear ? 126
6.4 Patente Nacional ou Internacional ? 126
6.5 Tempo de direitos 127
6.6 Patente de Invenção (PI) 127
6.7 Modelo de Utilidade (MU) 128
6.8 Desenho Industrial (DI) 129
6.9 Diferença entre invenção, descoberta e modelo de utilidade 129
6.10 Legislação sobre Patentes 130
6.11 Procedimentos para o pedido de patentes 132
6.12 Custos para encaminhamento de patentes 133
6.13 Tempo para receber patente 134
6.14 Transferência de Tecnologia 134
6.15 Formas de transferência de tecnologia 135
6.16 Tipos de contratos para transferência de tecnologia 135
6.17 Franquias 137
6.18 Sites e Bases de Dados sobre patentes 138
7 Pessoas Inovadoras e Visionárias 143
7.1 O DNA dos Inovadores 143
7.1.1 Associatividade 144
7.1.2 Questionar 146
7.1.3 Observar 146
7.1.4 Experimentar 147
7.1.5 Networking 147
7.2 Características de pessoas criativas 148
7.3 Perfis de Profissionais para Inovação 150
7.4 Motivação 150
7.5 Visionários 153
7.6 Visionários da Ficção Científica 153
7.7 Visionários Cientistas 154
7.8 Visionários Pesquisadores sobre o Futuro 155
7.9 Visionários que erraram 156
7.10 Empresas de Consultoria em Previsão de Futuro 157
7.11 Previsões sobre o Futuro 157
7.12 Planejamento por Cenários Futuros 160
8 Criatividade 162
8.1 De onde vêm as boas ideias - O Ato da criação 162
8.1.1 Maturação de ideias 162
8.1.2 Junção de contextos diferentes 163
8.2 O Processo Criativo 164
8.3 Design Thinking 165
8.3.1 Etapas do Design Thinking 165
8.3.2 Foco na Experiência do Cliente – Foco do Cliente 167
8.4 Imagens X Palavras - Hemisférios Cerebrais 168
8.5 Ambientes Criativos 170
8.6 Curva da Criatividade 171
8.7 Educação para Criatividade 171
8.8 Pensar diferente 172
8.9 Mudança ou Quebra de Paradigmas 173
8.10 Técnicas e ferramentas para criatividade 177
8.10.1 Brainstorming 177
8.10.2 Brainwriting 178
8.10.3 Analogias 178
8.10.4 Combinação 178
8.10.5 "Reframe", repensar o problema 179
8.10.6 Fazer as perguntas certas 180
8.10.7 Visão Holística 180
8.10.8 5W + 1H 181
8.10.9 SCAMPER 182
8.10.10 Harvey Cards 182
8.10.11 Técnica da listagem de atributos 183
8.10.12 Miscelânea de dicas 184
9 Bibliografia 185

segunda-feira, 26 de dezembro de 2016

Data mining (cubos para BI) sobre dados de pacientes (usando Excel)

Este post explica como fazer descoberta de padrões (Data Mining ou BI) sobre dados de pacientes (por exemplo, dados epidemiológicos). Cada linha é um paciente individual. A tabela possui uma coluna (atributo) que é a doença ou diagnóstico. As demais colunas (atributos A, B, C... até G) são características dos pacientes e seus valores admitem somente Sim ou Não (S/N).

Podem ser atributos sócio-demográficos (sexo/gênero, faixa etária, classe social, local de origem ou residência, etc), ou hábitos (fuma = sim/não, faz exercícios = sim/não), ou eventos da história pregressa (tem caso anterior na família, como foi a infância, etc).

Note que há um campo identificador que foi criado somente para identificar unicamente cada linha. Este campo será usado depois nos cubos para contagem de linhas.

Dê uma olhada na planilha ao final deste post. É uma tabela flat, onde todos os atributos estão como colunas. Fica muito difícil identificar padrões numa tabela flat.

Mas ao gerar um cubo, colocando atributos em linhas X colunas, aparecem padrões que não podem ser facilmente vistos nesta tabela flat. É sobre isto que este post fala.

Lembro que a coluna principal aqui é a doença ou diagnóstico, mas poderia ser utilizado outro atributo, como sexo/gênero, faixa etária ou região de origem ou residência.

Também é possível fazer o mesmo tipo de análise com clientes. Basta ter uma coluna principal no lugar do diagnóstico, que poderia ser o produto adquirido (ou tipo ou classe de produto), ou a loja onde foi adquirido. Os demais atributos (colunas) seriam características sócio-demográficas dos clientes. Cada linha é um cliente individual.

Outra possibilidade é fazer dos atributos as características do produto (cor, tamanho, preço, etc). Aí precisaríamos de uma coluna principal para separar os padrões. Poderia ser alguma característica do cliente (faixa etária ou sexo, por exemplo).


Criando um cubo com tabela dinâmica do Excel

Marque a tabela toda (todas as células), insira a tabela dinâmica numa aba nova, coloque o atributo principal nas linhas (neste caso, o diagnóstico ou doença) e coloque uma característica na coluna. Irão aparecer subcolunas com Não e Sim.
Coloque dentro do cubo o campo identificador e use a contagem (de linhas).
Depois selecione para mostrar "percentual das linhas" na contagem do identificador.
O cubo ficará como abaixo.



Característica A

Contagem de identificador Rótulos de Coluna

Rótulos de Linha n s Total Geral
D1 50,00% 50,00% 100,00%
D2 30,00% 70,00% 100,00%
D3 100,00% 0,00% 100,00%
Total Geral 59,26% 40,74% 100,00%



Tipos de padrões descobertos



Característica A

Contagem de identificador Rótulos de Coluna

Rótulos de Linha n s Total Geral
D1 50,00% 50,00% 100,00%
D2 30,00% 70,00% 100,00%
D3 100,00% 0,00% 100,00%
Total Geral 59,26% 40,74% 100,00%

Este cubo acima pode nos mostrar se há alguma relação possível entre a doença (diagnóstico) e a característica (neste exemplo, o atributo A).
Vejam que para a doença D1, a distribuição é metade a metade para quem tem ou não a característica. Já para a doença D2, há uma predominância da característica A (há 70% de pacientes que têm a característica contra 30% que não a têm).
E no caso da doença D3, pode-se ver que todos os pacientes com este diagnóstico possuem a característica A.
Note: a característica A pode ser uma causa ou uma consequência da doença D3; Isto precisaria ser melhor investigado. Mas um padrão foi identificado.





Característica F

Contagem de identificador Rótulos de Coluna

Rótulos de Linha n s Total Geral
D1 50,00% 50,00% 100,00%
D2 0,00% 100,00% 100,00%
D3 44,44% 55,56% 100,00%
Total Geral 29,63% 70,37% 100,00%

No caso da característica F, pode-se ver um novo padrão. Uma leve tendência desta característica para pacientes com diagnóstico D3 (55,56% sim contra 44,44% não). A variação é pequena, então talvez não seja determinante e não se possa tirar conclusões.


Seleção de amostras

É claro que as conclusões sempre devem ser feitas com base nos dados analisados, ou seja, dependem da amostra utilizada.
Falarei sobre amostras em um post futuro.



Todos os cubos e padrões descobertos



Característica A

Contagem de identificador Rótulos de Coluna

Rótulos de Linha n s Total Geral
D1 50,00% 50,00% 100,00%
D2 30,00% 70,00% 100,00%
D3 100,00% 0,00% 100,00%
Total Geral 59,26% 40,74% 100,00%









Característica B

Contagem de identificador Rótulos de Coluna

Rótulos de Linha n s Total Geral
D1 87,50% 12,50% 100,00%
D2 20,00% 80,00% 100,00%
D3 100,00% 0,00% 100,00%
Total Geral 66,67% 33,33% 100,00%









Característica C

Contagem de identificador Rótulos de Coluna

Rótulos de Linha n s Total Geral
D1 100,00% 0,00% 100,00%
D2 50,00% 50,00% 100,00%
D3 22,22% 77,78% 100,00%
Total Geral 55,56% 44,44% 100,00%









Característica D

Contagem de identificador Rótulos de Coluna

Rótulos de Linha n s Total Geral
D1 50,00% 50,00% 100,00%
D2 100,00% 0,00% 100,00%
D3 100,00% 0,00% 100,00%
Total Geral 85,19% 14,81% 100,00%









Característica E

Contagem de identificador Rótulos de Coluna

Rótulos de Linha n s Total Geral
D1 75,00% 25,00% 100,00%
D2 50,00% 50,00% 100,00%
D3 100,00% 0,00% 100,00%
Total Geral 74,07% 25,93% 100,00%









Característica F

Contagem de identificador Rótulos de Coluna

Rótulos de Linha n s Total Geral
D1 50,00% 50,00% 100,00%
D2 0,00% 100,00% 100,00%
D3 44,44% 55,56% 100,00%
Total Geral 29,63% 70,37% 100,00%









Característica G

Contagem de identificador Rótulos de Coluna

Rótulos de Linha n s Total Geral
D1 50,00% 50,00% 100,00%
D2 20,00% 80,00% 100,00%
D3 100,00% 0,00% 100,00%
Total Geral 55,56% 44,44% 100,00%








Planilha original flat




identificador doença A  B C D E F G
1 D1 s n n n s n s
2 D1 s n n n s s n
3 D1 n n n n n n s
4 D1 s n n n n s n
5 D1 n n n s n n s
6 D1 n n n s n s n
7 D1 s s n s n n s
8 D1 n n n s n s n
9 D1 s n n n s n s
10 D1 s n n n s s n
11 D1 n n n n n n s
12 D1 s n n n n s n
13 D1 n n n s n n s
14 D1 n n n s n s n
15 D1 s s n s n n s
16 D1 n n n s n s n
17 D1 s n n n s n s
18 D1 s n n n s s n
19 D1 n n n n n n s
20 D1 s n n n n s n
21 D1 n n n s n n s
22 D1 n n n s n s n
23 D1 s s n s n n s
24 D1 n n n s n s n
25 D2 s s n n s s n
26 D2 n s s n n s n
27 D2 s s n n s s s
28 D2 s s s n n s s
29 D2 s s n n s s s
30 D2 s n s n n s s
31 D2 s n n n s s s
32 D2 s s s n n s s
33 D2 n s n n s s s
34 D2 n s s n n s s
35 D2 s s n n s s n
36 D2 n s s n n s n
37 D2 s s n n s s s
38 D2 s s s n n s s
39 D2 s s n n s s s
40 D2 s n s n n s s
41 D2 s n n n s s s
42 D2 s s s n n s s
43 D2 n s n n s s s
44 D2 n s s n n s s
45 D2 s s n n s s n
46 D2 n s s n n s n
47 D2 s s n n s s s
48 D2 s s s n n s s
49 D2 s s n n s s s
50 D2 s n s n n s s
51 D2 s n n n s s s
52 D2 s s s n n s s
53 D2 n s n n s s s
54 D2 n s s n n s s
55 D3 n n s n n s n
56 D3 n n n n n n n
57 D3 n n s n n s n
58 D3 n n s n n n n
59 D3 n n s n n s n
60 D3 n n n n n n n
61 D3 n n s n n s n
62 D3 n n s n n n n
63 D3 n n s n n s n
64 D3 n n s n n s n
65 D3 n n n n n n n
66 D3 n n s n n s n
67 D3 n n s n n n n
68 D3 n n s n n s n
69 D3 n n n n n n n
70 D3 n n s n n s n
71 D3 n n s n n n n
72 D3 n n s n n s n
73 D3 n n s n n s n
74 D3 n n n n n n n
75 D3 n n s n n s n
76 D3 n n s n n n n
77 D3 n n s n n s n
78 D3 n n n n n n n
79 D3 n n s n n s n
80 D3 n n s n n n n
81 D3 n n s n n s n