sábado, 27 de julho de 2013

Personal Data Mining

Estamos vivendo numa era de grandes volumes de informações. O volume de informações é medido em exabytes. A escala é assim: bit, byte, kylobyte, megaybte, gigabyte, terabyte, petabyte, exabyte, zettabyte, yottabyte.

Chamam isto de Big Data, mas anos atrás Korth e Silberschatz já falavam sobre isto e chamavam esta nova revolução de "explosão de informações". Sim eles comparavam estes novos acontecimentos a revoluções como a invenção da imprensa por Gutenberg (distribuição de informações a todo canto do mundo) e invenção do telefone por Graham Bell (informação distribuída imediatamente, em tempo real).

O volume aumenta a cada ano pelas seguintes razões:
·         o armazenamento de dados hoje é barato (discos rígidos e DVDs) ou mesmo de graça (serviços de hospedagem free na Web);
·         as pessoas estão mais familiarizadas com a tecnologia e consequentemente geram e armazenam mais informações (crianças de 2 anos já sabem usar celulares e computadores e a 3a idade está menos tecnofóbica);
·         a tendência atual de "não jogar nada fora", que começou com o Gmail dizendo que ninguém precisava "deletar' seus e-mails;
·          mais possibilidades de serviços para publicar e difundir informações (blogs, twitter, e-mail, redes globais, conexões sem fio, etc.).

A Revista Veja, edição de maio de 2013 (ed.2321, n.20, ano 46) tratou deste assunto na sua reportagem de capa. Eles falam que o Big Data se deve a 3 Vs: volume, velocidade e variedade. Além do grande volume de dados gerados, coletados, armazenados, etc, a velocidade de transmissão (banda larga por cabo ou 3G ou wifi etc.) e a diversidade de tipos de informações (planilhas, textos, imagens, sons) ajudam a sobrecarregar o ser humano e as organizações.

Segundo a reportagem da revista Veja, a cada dia:
- 2,5 exabytes de informação são produzidos pela humanidade;
- 375 megabytes de dados são acumulados por cada família;
- 24 petabytes são processados pelo site do Google;
- 10 petabytes correspondem aos e-mails enviados;

E ainda, 385 terabytes guardam todo o catálogo da Biblioteca do Congresso americano, a maior do mundo, enquanto que 1,8 zettabyte armazena todos os dados acumulados pela civilização em um ano. Comparando com os 3 exabytes que a humanidade conseguia guardar em 1986 (hoje produzimos quase o dobro disto em 2 dias), estamos vivendo em tempos exponenciais.

Além disto, a complexidade do ser humano foi passada para a Tecnologia da Informação. Hoje podemos armazenar dados não estruturados, ou seja, imagens, vídeos, sons e textos. E some-se a isto tudo a possibilidade de análises mais complexas com o desenvolvimento de softwares com funções de Inteligência Artificial. Se antes, os gestores apenas queriam encontrar endereço de clientes num banco de dados, hoje querem saber qual a faixa de idade que mais compra os produtos de uma certa faixa de preço e isto tudo apresentado por loja, cidade e país.

E tudo isto sem que a gente precise jogar nada fora. Podemos guardar tudo eternamente. E algum dia, quem sabe, alguém redescobrirá nossos registros, lerá nossas anotações, analisará nossas ideias.

A reportagem da Revista contou o caso escritor americano A. J. Jacobs que colocou sensores por todo o corpo. Ele usa software para calcular tudo e com isto descobrir o que é bom para ter corpo saudável. Ele mesmo considera isto útil mas concorda que gera muito stress mental. Temos que cuidar muitas metas, analisar muitos números, guardar dados e saber como ou onde recuperá-los. É a sobrecarga de informações (information overload): estamos afogados em tanta informação. Sabemos que ela está em algum lugar, mas não temos como encontrar o que precisamos, pelo menos não no momento da necessidade.

Como lidar com tudo isto ? Padronizando o mundo.

A identificação de padrões é parte da nossa vida. Quem não dá palpites sobre como será o tempo, se vai chover, fazer sol, calor, observando as nuvens ? Ou se o próximo inverno será mais frio ou menos frio do que o ano anterior, pelo que viu no outono ? Se um local público vai lotar ou não para um evento, observando o movimento das pessoas chegando ? Ou quantas pessoas há num concerto ao ar livre num parque público, lembrando o último evento que ocorreu ali ?

O início da descoberta de padrões se deu há milhares de anos atrás. Nossos antepassados conseguiram encontrar padrões para as variações do tempo, as estações, os ciclos das plantações, as fases lunar e eclipses, para remédios, curas e tratamentos em relação a diversas doenças. Mesmo algumas superstições são exemplos de padrões, que acreditamos que irão se repetir. Numa entrevista de negócios, usar a mesma roupa de um acontecimento bom. Sentar no mesmo lugar do último título para torcer por seu time. Não quebrar espelho, pois quando isto ocorreu, um evento de má sorte também ocorreu junto.

Somos condicionados desde pequenos a padronizar tudo. A classificação deve ser um instinto do ser humano. Tentamos colocar tudo em grupos (pessoas, produtos, eventos, animais, plantas, etc.). Se uma criança tenta colocar um objeto cúbico numa entrada circular pode levar a suspeitas de alguma irregularidade mental (os pais já ficam preocupados).

E para que tudo isto ? O objetivo final é poder direcionar nosso futuro.

A padronização facilita nosso entendimento do mundo e agiliza nossa tomada de decisão. Os padrões servem para minimizar a incerteza. Se encontramos uma situação nova e verificamos que ela se encaixa num padrão já entendido, já sabemos que atitudes tomar naquela situação. Este é um dos conceitos de inteligência: saber adaptar-se a novas situações e conseguir resolver problemas novos. Isto não significa que vamos usar exatamente as mesmas ações. A inteligência humana pressupõe a adaptação dos padrões para novas realidades.

A evolução da área de BI gerou a chamada Business Analytics. O objetivo é poder prever acontecimentos ou predizer valores para variáveis. Por exemplo, "neste ritmo de vendas, alcançaremos a meta no dia ...". A ideia não é nova, apenas teve uma nova roupagem. Os sistemas de apoio à decisão (SAD ou DSS, em inglês) já há muitos anos vêm ajudando os tomadores de decisão. O funcionamento é simples: a partir de dados de entrada (parâmetros) e utilizando um modelo de decisão, pode-se prever valores futuros. Os modelos de decisão geralmente são do tipo what-if ("e se eu fizer isto, o que vai acontecer"), e utilizam técnicas como projeção, regressão e simulação.

O fato é que as novas técnicas estão permitindo predizer com maior precisão alguns valores e ainda verificar a interligação entre eventos ou variáveis. Desta forma, é possível saber se uma determinada ação vai impactar positivamente ou negativamente em algum contexto futuro. E quanto irá impactar. Por exemplo, se aumentarmos a exposição do produto em X dias na mídia convencional, quanto teremos de aumento de vendas e, com base nos custos desta estratégia, o quanto teremos de retorno financeiro (ou lucro).

Das organizações para as pessoas. As pessoas também registram dados (no cérebro ou em meios físicos), desde o tempo das cavernas. E depois analisam os dados. Estamos guardando mais informações hoje em dia também porque recebemos mais informações. Além disto, ao usarmos diferentes tipos de dispositivos e meios para armazenar informações (eletrônicos ou em papel), queremos integrar tudo isto.

E transformamos tudo em números. A Irmandade Pitagoreana já dizia: "tudo são números". Vejam só: o programa Soundhoud que "escuta" um trecho de música e nos diz que música é, transforma música em números para poder fazer a comparação rápida. Os softwares de biometria (identificação por características físicas da pessoa) também transformam um ser humano em números. Nossas características (traços do rosto ou das impressões digitais, atributos de nossa voz ou pupilas) são transformadas para equações matemáticas para uma rápida análise. Um gráfico diz mais que mil palavras; e gráficos são baseados em números. Quem tiver maior interesse por como construir gráficos pode ler a seguinte referência:
BERTIN, Jacques. Semiology of Graphics: Diagrams, Networks, Maps. University of Wisconsin Press, 198.

Além disto, temos metas pessoais (calorias ingeridas, quilômetros corridos e até mesmo horas para usar tecnologia). Avaliamos nosso carisma pelo número de amigos ou "curtidas" nas redes sociais. Analisamos estatísticas esportivas. Estudamos numerologia. E controlamos nossas finanças. Ou seja, não tem como não concordar que vivemos num mundo de números.

Este fenômeno se tornou tão comum e importante que a Microsoft já tem uma patente para o que ela chama de Personal Data Mining (uma mistura de processo e algoritmos).

Vejam abaixo o resumo desta patente:
Personal data mining mechanisms and methods are employed to identify relevant information that otherwise would likely remain undiscovered. Users supply personal data that can be analyzed in conjunction with data associated with a plurality of other users to provide useful information that can improve business operations and/or quality of life. Personal data can be mined alone or in conjunction with third party data to identify correlations amongst the data and associated users. Applications or services can interact with such data and present it to users in a myriad of manners, for instance as notifications of opportunities.
Publication number    US7930197 B2
Application number    US 11/536,601
Publication date         Apr 19, 2011

Mas eu gostaria de estender este conceito para incluir também intuições que temos sobre padrões da nossa vida ou do que nos cerca (aqui está a novidade em relação à patente da Microsoft).

A referência abaixo relata uma série de casos de pessoas analisando seus próprios dados. Como o cara que descobriu estatisticamente que café não ajudava na concentração dele (ele pensava ao contrário).

WOLF, Gary. The Data-Driven Life - What happens when technology can analyze every quotidian thing that happened to you today ? The New York Times Magazine Maio de 2010.

Eu também tenho alguns padrões meus:
- na última semana de Julho, todo ano, fico gripado;
- o início do inverno é pior, depois o corpo acostuma com as temperaturas baixas;
- quando jogo na Mega-Sena, presumo que serão sorteados pelo menos dois números na mesma dezena, que haverá um número abaixo de 10 e um pelo menos na dezena do 50 (já fiz uma quadra com estes padrões);
- quando criança, eu notava que nos fins de semana havia mais sol e calor; eu acreditava que era porque as fábricas paravam, com isto emitiam menos poluentes, e assim haveria menos nuvens.

Isto deve acontecer com todo mundo. Alguns veem números que se repetem no seu dia a dia. Outros possuem números da sorte. Algumas pessoas usam estes padrões para jogar na loteria, no cassino e mesmo para tomar decisões importantes (através da numerologia). Se observarmos bem, até mesmo quem investe em ações na bolsa deve ter seus padrões próprios, além de dados estatísticos sobre as ações, é claro.


Não tenho explicações científicas nem comprovações para os meus padrões. Elas podem existir ou podem ser intuições falsas.

Os padrões podem dar certo talvez pelo efeito placebo: achamos que vamos ter melhor rendimento usando certos padrões (é como uma superstição). É como regular sua alimentação e ver efeitos positivos, e então acreditar que descobriu um novo método. E isto aí vira sabedoria popular e vai passando de boca em boca. Como os sacrifícios humanos para os deuses ou para ajudar na agricultura e clima (a civilização Maia fazia isto). Max Gunther, no seu livro "O Fator Sorte" diz que há duas leis estatísticas: (a) tudo pode acontecer e (b) se algo pode acontecer, vai acontecer algum dia, pelo grande volume de casos (por exemplo, cair 5 vezes o mesmo número na roleta em algum cassino do mundo, algum dia). Gunther também fala da Sincronicidade

Segundo a Wikipedia, Sincronicidade "é um conceito desenvolvido por Carl Gustav Jung para definir acontecimentos que se relacionam não por relação causal e sim por relação de significado. Desta forma, é necessário que consideremos os eventos sincronísticos não a relacionado com o princípio da causalidade, mas por terem um significado igual ou semelhante. A sincronicidade é também referida por Jung de 'coincidência significativa' ". Um exemplo é o caso de um americano que lutou na Guerra da Coréia e teve um filho por lá. Mas nem sabia disto. O filho foi trabalhar nos EUA e não sabia nada do pai, a não ser seu nome. Um dia, aquele americano estava andando dirigindo pela estrada e resolveu parar num restaurante que não costumava. Quando foi pagar em cartão, o atendente viu o nome e adivinhem: era seu pai. Uma grande coincidência. Uma sincronicidade: tais eventos são comuns de ocorrer; o que determina sua relevância é que aconteceu com pai e filho que não se conheciam.

O perigo de padronizar e classificar comportamentos é que acabamos estereotipando pessoas, colocamos rótulos em tudo (músicas, estilos de moda, épocas históricas, método de ensino, tipos de empresas, preços de produtos). Por um lado, ajuda a saber como tratar com as pessoas, como se comportar em outros países, em reuniões de negócios, entrevistas de emprego. A padronização facilita a nossa vida. Estabelecemos padrões para acordar, tomar banho, tomar café, escovar os dentes, pegar pasta de trabalho e chave e sair (chamamos rotina). Agiliza porque não precisamos parar para pensar no que vamos fazer em seguida. Permite pensar em outras coisas enquanto estamos fazendo as básicas.

Por outro lado, há autores que acham que isto faz a vida passar mais depressa. Como no filme Click. A organização, o padrão torna tudo monótono, sem graça. Por isto, muitos aconselham pessoas a viajar, conhecer pessoas e lugares novos, novas línguas e culturas. Se não puder viajar, leia. Ou converse com pessoas. Ou veja filmes. Mas faça algo novo, descubra algo novo. Saia da rotina.

Mas estamos condicionados. Usamos padrões para moldar nosso comportamento, para planejar nossos atos e nos ajudar a antecipar o futuro.

E se alguém mudar suas ideias ? Pode ? Ou será taxado de inconsistente ou incoerente, "diz uma coisa e faz outra", leviano.


O grande fato é que as informações que manipulamos estão se tornando altamente abstratas: o que pensamos sobre pessoas, princípios, ideologias, partidos políticos. E nossos sentimentos, intuições, nosso 6o sentido também. Está tudo entrando como parâmetro para nossos padrões, para nosso Personal Data Mining. E isto molda nosso comportamento. 

Nenhum comentário: