sábado, 29 de junho de 2013

Predizendo a velocidade de mobilizações a partir de redes sociais

Em tempos de manifestações disseminadas por redes sociais, este artigo, indicado pelo amigo e colega Prof. Dr. Luis Fernando Garcia, avalia que atributos influenciam na velocidade das mobilizações.
Traz dicas de como otimizar a velocidades das mobilizações sociais.

Predictors of Social Mobilization Speed
Jeff Alstott, Stuart Madnick, Chander Velu

Abstract:
Mobilization across social networks is becoming increasingly influential, but little is
known about what traits of individuals and their relationships affect their speed of
mobilization between them. We ran a global social mobilization contest and recorded
personal traits of the participants and those they mobilized. We examined how those traits
influenced the speed of mobilization. Individuals mobilized faster when they heard about the
contest directly from the contest organization, and decreased in speed when hearing from less
personal source types (e.g. family vs. media). Mobilization was faster when the mobilizer and
the mobilized heard about the contest through the same source type, and slower when both
individuals were in different countries. Females mobilized other females faster than males
mobilized other males. Mobilization was faster with young recruiters and old recruits, and
slower with old recruiters and young recruits. These findings suggest ways to optimize the
speed of social mobilization.
http://arxiv.org/ftp/arxiv/papers/1303/1303.3805.pdf

sexta-feira, 21 de junho de 2013

A privacidade acabou - Big Data X Privacidade

A privacidade acabou. Em 4 passos.

·         Passo 1: coleta e armazenamento de dados
Com esta onda de Big Data por aí, está todo mundo coletando dados sobre todos. A operadora de celular sabe por onde a gente anda e quando. Qual o caminho que costumamos fazer, por onde costumamos andar em cada dia da semana e horário. E se instalarmos aplicativos tipo o Waze no nosso celular, a Google (que comprou o Waze) vai saber até a que velocidade estamos andando. E daí inferir se estamos a pé ou de carro, ou num engarrafamento.
Aí alguém inventou a tecnologia de RFID, e ela está em cartões com chips, carros, produtos novos e vai estar em sacolas, carrinhos de supermercados, etc. Então não é só por celular. Os aplicativos e softwares que usamos em celulares, tablets, notebooks e etc também estão avisando onde estamos, se estivermos conectados via Wifi, 3G ou 4G.
A coleta também pode ser feita por observação. Não conheço estabelecimento que faça isto, mas é um futuro provável. Quando você paga em dinheiro num supermercado, este só registra o que você comprou e como; não ficam registrados dados como seu sexo, idade, etc. Mas imagine que o operador do caixa (check-out) possa observar o cliente e utilizar códigos para dar entrada no sistema de dados que ele está vendo (sexo, faixa etária, estilo de se vestir, se está acompanhado ou não).
Num futuro um pouco mais distante isto já poderá ser feito através da análise de imagens gravadas com câmeras.
Experimento que, pelo contorno da pessoa diante de um banner, era possível identificar o sexo e a faixa etária.

·         Passo 2: enriquecimento de dados
Cada click na internet é monitorado. Aí eles cruzam estes dados com o que a gente comprou pela internet. Aí eles cruzam estes dados com nossos cadastros em lojas físicas. Aí eles cruzam com o que a gente comprou na loja física, fora da Internet. Aí eles complementam estes dados sobre nós com nossos perfis nas redes sociais e com o que estamos dizendo em fóruns e blogs (é o Social CRM).
E é possível pegar dados públicos, disponíveis livremente na Internet. Estes dados não identificam pessoas individualmente, mas dão estatísticas sobre grupos de pessoas. Uma empresa pode comprar uma lista telefônica com nome, endereço e telefone de clientes. Mas não sabe classificar os clientes por dados sócio-demográficos. Então, a empresa pode consultar bases públicas sobre setores censitários. Um setor censitário é diferente de um bairro ou quadra; é uma região, geralmente menor que um bairro mas podendo abranger partes de 2 bairros, que foi pesquisada pelo censo do IBGE (exemplos na Figura 24). Então, há informações estatísticas sobre cada setor específico. Imagine que a empresa então possui os seguintes dados sobre uma pessoa: o nome é José da Silva e mora na Rua X, n.41. Bom, usando um sistema de GIS simples, pode-se saber o setor censitário onde ela mora. Depois, procuram-se dados estatísticos sobre este setor e, digamos, temos que neste setor:
                     100% das residências possuem 3 TVs;
                     98% possuem 2 banheiros;
                     90% possuem aparelhos de DVD;
                     90% possuem TVs LCD;
                     etc.
Agora, de posse destas informações estatísticas,  podemos estimar alguns dados sobre José da Silva. Que ele tem 3 TVs, com 100% de chances, que há 98% de chances de ele ter 2 banheiros em casa, e assim por diante.
Então, desta forma, uma empresa combina a lista telefônica com dados censitários e poderá obter um banco de dados de clientes potenciais.
Empresas parceiras também costumam compartilhar dados sobre clientes, por exemplo, administradoras de cartões de crédito, instituições financeiras, redes de varejo, escolas, postos de gasolina, editoras, etc.
E a cada pesquisa que participamos, com o objetivo de concorrer a prêmios, estamos fornecendo mais dados sobre nós.

·         Passo 3: análises e inferências
Inferir é gerar uma informação a partir de outra. Se você compra muito produto congelado no supermercado, a análise destes dados pode ajudar a inferir que:
a) você tem um bom freezer em casa;
b) você não sabe cozinhar ou não gosta;
c) você é uma pessoa muita atarefada e não tem tempo nem para cozinhar.

O nível de inferência é subjetivo de cada organização e certamente aumenta a incerteza sobre a veracidade da informação. Mas muitas empresas assumem o risco desta incerteza, porque mais incerto ainda é não saber nada sobre o cliente.
Tempos atrás surgiram alguns artigos falando sobre Phenomenal Data Mining. Que significa tentar inferir eventos ou atributos de entidades a partir de coleções de dados. É na prática e com seriedade fazer aquela brincadeira de analisar os restos no lixo de alguém. Aí você saberá que tipo de pessoa é, pelo que compre e consome (marcas, tipos de produtos, faixas de preços, etc). Assim, se você compra Xampu feminimo e  desodorante feminino juntos na mesma compra, você é uma mulher. Se comprar Xampu para carro, esponja para lavar carro e creme para polimento de carro, você certamente tem um carro. É claro que há margem para erros.
E utilizando a sabedoria das massas, se numa loja de supermercado a venda de água mineral foi muito acima do normal, é porque faltou água neste bairro. E se na mesma cidade, várias farmácias estão vendendo antigripal, é porque há um surto de gripe. E provavelmente a temperatura também esfriou ou a umidade aumentou.  
E isto já chegou à Internet. O Facebook já consegue inferir nossa orientação sexual e tendência política só analisando nossas "curtidas" (ler a reportagem "Estudo mostra que botão ‘Curtir’ do Facebook revela muito mais do que se imagina sobre o usuário

Há uns tempos atrás, a Microsoft tinha um experimento para inferir sexo e faixa etária de uma pessoa, pelo tipo de assunto que buscava na Internet (http://adlab.msn.com/DPUI/DPUI.aspx). Veja as imagens abaixo. Olhei agora e o experimento é outro (no redirecionamento deste link).




·         Passo 4: ofertas personalizadas ou recomendações
Qual a diferença entre spam e recomendação (ofertas personalizadas): se você receber um SMS às 3h da manhã avisando de promoção (venda de um produto) e:
a) ficar irritado com a operadora: isto é spam;
b) ficar contente e agradecer a operadora porque no dia seguinte irá comprar várias unidades: isto é recomendação.
A recomendação é direcionado a cada indivíduo e não por grupos. É parte do chamado Marketing de Relacionamento ou Marketing 1-to-1 (Peppers & Rogers). Para isto, a empresa precisa saber muito sobre o cliente. Mas é a forma que as empresas têm para diminuir a margem de erro. E ninguém vai deixar de fazer propaganda.
O Google ganha dinheiro assim. Dependendo do que você está procurando na Internet, isto é, das palavras que você coloca no buscador, as propagandas serão diferentes. E elas serão contextualizadas também no seu Gmail. E eles possuem tecnologias para identificar o assunto em vídeos no Youtube, seja pelas palavras no título do vídeo, pelas tags marcadas por quem postou o vídeo ou, com mais tecnologia, pelas palavras que estão no áudio do vídeo.

A privacidade acabou então. Estamos combinados.
O que existe é política de privacidade. Onde a empresa diz que dados está coletando das pessoas, como e para quê. E a pessoa assina ou clica aceitando a política de privacidade. Dizem que apenas 0,4% dos visitantes de um site leem a política de privacidade do site. E quem lê as várias páginas com linhas pequenas nos contratos de serviços ?
O W3C está planejando um protocolo para ajudar usuários a controlarem sua privacidade (o PPP). Funciona assim: cada usuário configura no seu navegador o seu nível de privacidade, isto é, o que permite que um site colete de informações, ao você entrar neste site. O site, embutido no seu código HTML, colocará sua política de privacidade (é claro que estruturada neste protocolo). Quando você estiver para entrar num site, o navegador compara o nível de privacidade do usuário com a política do site. Em caso de incompatibilidade, ele avisa o usuário ou não permite entrar.
Note que os aplicativos baixados para Android já avisam o usuário deste tipo de informação (o que o aplicativo vai fazer, que tipo de conexão ou transferência, ou que dados irá manipular no dispositivo móvel).
Outra iniciativa para controle de privacidade está no novo Código de Defesa do Consumidor 2.0. Nele está dito que as empresas não podem passar adiante dados coletados de uma pessoa. Isto é crime. O problema é como controlar isto. Quando a gente recebe em casa uma propaganda pelo correio normal, a quem vamos culpar ? Quem forneceu nossos dados para esta empresa que enviou a propaganda ?
Alguns Procons já aceitam cadastros para listas brancas contra telemarketing. Por exemplo, você cadastra seu telefone e nenhuma empresa pode ligar para você, sob pena de receber multa. A questão é que as empresas fazem as contas e verificam que é mais vantajoso continuar ligando e pagando a multa.
Na Constituição brasileira está definido o direito de habeas data. Você pode entrar com uma ação de habeas data para adicionar, retirar ou retificar informações em cadastros existentes, desde que a instituição seja pública ou de caráter público. O bom seria permitir a cada cidadão poder fazer isto em qualquer tipo de banco de dados. Ou ao menos, receber uma parcela dos ganhos de propaganda, quando nossos dados forem utilizados.
Agora a Vivo criou um modelo novo de propaganda. Se você aceitar ouvir uma ligação com propaganda no seu celular, você recebe bônus (ler a reportagem "Vivo lança serviço de chamada patrocinada"



terça-feira, 11 de junho de 2013

Determinismo tecnológico e anti-tecnologia

Uma recente pesquisa ofereceu mil dólares para alguns adolescentes ficarem alguns dias sem internet. Alguns não aceitaram. O Homem trabalha para comprar controle remoto para poder fazer menos esforço. Não seria melhor voltarmos ao tempo das cavernas ? Menos poluição, mais sustentabilidade, menos stress.
Por que ter telefones que fazem tudo ? Por que estar conectado 24 horas ? Por que ler e-mails em todo lugar ? Por que ser avisado a toda hora se chegou post novo no twitter ? Por que queremos ler todos os posts no facebook ?
Estou vendo algumas iniciativas de pessoas que procuram diminuir o uso de tecnologias, seja definindo tempo para não usar tecnologia (dias ou horários), seja vivendo com menos apego material.
Domenico de Masi dissemina o Ócio criativo, procurando juntar trabalho, lazer e aprendizado. Ou seja, em tudo o que a gente fizer, temos que procurar aprender, nos divertir e ainda usar para nosso sustento.
Mas fazer isto presencialmente ou por rede ? Michio Kaku fala do princípio do Homem das Cavernas (caveman principle): queremos tocar e ver. A vida High Tech impõe Low Touch, mas as pessoas tendem a procurar high touch porque estão sendo oprimidas pelo high tech. Segundo este princípio ainda, jornal em papel, livros impressos e reuniões presenciais com amigos não irão acabar nunca. Por isto, o ciberturismo não deu certo (visitar lugares pela internet não é a mesma coisa que estar presente).
McLuhan já falava anos atrás (A Galáxia de Gutenberg) do poder de transformação da tecnologia e de como a Humanidade não está preparada para entender, prever e muito menos controlar tais mudanças.
Eric McLuhan  (filho do mais famoso) diz que as novas tecnologias, quando entram em funcionamento na sociedade, espalham-se como vírus (e causam danos).  
 Manuel Castells (A Sociedade em Rede) afirma que o fenômeno de informatização é irreversível e agrava-se com o novo liberalismo mundial, em que tudo é justificado em função do mercado. Estamos à deriva, como passageiros do barco da tecnologia (e quem está no comando ?). 
E a velocidade destas transformações acelera a cada ano. Ray Kurzweil fala em curva exponencial: tudo se desenvolve exponencialmente (aumento da população, avanço das tecnologias). Kurzweil defende que a Lei do Retorno Acelerado faz com que o feedback de informações acelere as descobertas e inovações.
Some-se a isto a Aldeia Global de McLuhan pai (a troca de informações globalizadas), a capacidade de armazenamento (nuvens sem limite) e recuperação de informações (Google), a diversificação de tipos de informações (youtube, podcasts, pinterest, instagram, google maps, mapas mentais, anagramas) e uma juventude multitarefa, impaciente e altamente conectada e digitalizada (Geração Y). Perdemos a noção de tempo e espaço. Podemos tudo agora e em qualquer lugar. 
E o próximo passo é perder a noção de Humanidade. McLuhan falou conotativamente que os meios de comunicação são extensões do Homem (do corpo humano). Agora já se fala em singularidade (Vernor Vinge e Ray Kurzweil): Homem e máquina serão um ser só, sem distinção. Já temos impressoras 3D fazendo partes do corpo, exoesqueletos para dar mais força, transmissão de dados por telepatia e leitura de frequências cerebrais (como em Avatar e Matrix).
O professor e cientista Kevin Warwick afirma que as máquinas serão mais fortes e mais inteligentes que os Homens. A única forma de o ser humano não ser dominado por elas é se juntando a elas, ou seja, seres ciborgues. Então ele já começou implantando chips em seu corpo, para controlar equipamentos à distância. Esta é a mesma preocupação de Isaac Asimov, que tanto escreveu sobre Robôs. 
Os McLuhan (pai e filho) identificaram as Leis da Mídia. Uma delas diz que as novas tecnologias tornam alguma coisa anterior obsoleta. Será que o Homem ficará obsoleto ?

O paradoxo da Humanidade é este: não podemos controlar nossas criações e seremos extintos por nossas próprias criações. 

segunda-feira, 3 de junho de 2013

Análise de sentimentos - cada vez mais atual


As empresas estão preocupadas com sua imagem. É importante saber o que estão falando dela ou de seus produtos e serviços. Para obter tal conhecimento, a empresa pode usar pesquisas de campo com clientes potenciais ou fazer pesquisas tipo "survey" com uma amostra de seus clientes. Entretanto, nem sempre as pessoas se sentem confortáveis para reclamar ou falar mal.

Para estes casos existe a Internet. Zona livre de censura e restrições. Mas não estamos falando de analisar notícias, nem sites específicos para reclamações como o Reclameaqui. No primeiro caso, depende-se da parcialidade da fonte e, no segundo caso, pode ficar em aspectos muitos específicos de alguns poucos clientes (há uma estatística que diz que apenas 95% dos clientes insatisfeitos fazem reclamações formais).
A ideia é vasculhar a Web atrás de oceanos de opiniões, procurando saber o que a grande massa tem por dizer (Wisdom of Crowds - Sabedoria das Massas). Hoje cada cliente é um "prosumidor" (consumidor + produtor), que deseja expressar suas opiniões, dar ideias, ajudar a empresa ou outras pessoas. E para isto utiliza as redes sociais (Twitter, Facebook, Google+) ou cria blogs e fóruns para reunir grupos de pessoas interessadas na mesma discussão.

O sucesso depende da capacidade de coletar tais dados informais e da velocidade em analisar seu conteúdo, para gerar decisões sábias em tempo hábil. A área de Análise de Sentimentos (Sentiment Analysis) ou Mineração de Opiniões (Opinion Mining) nasce como uma das alternativas. Seu objetivo é encontrar opiniões e analisar seu conteúdo. Na prática, o que deve ser feito é encontrar na Web textos que possam conter opiniões de pessoas e analisar o tipo de sentimento presente nos textos: se positivos ou negativos (se falam bem ou falam mal).

O processo depende da existência de uma ontologia de tarefa ou de domínio, que permita entender como as pessoas escrevem sobre um determinado assunto e como elas expressam seus sentimentos positivos e negativos. Após, um processo de inferência probabilístico ou determinístico é utilizado para identificar o tipo de sentimento.

A ontologia de tarefa ou de domínio é um conjunto organizado de palavras e expressões linguísticas (multipalavras), separadas por tipo de sentimento. Pode-se utilizar um método determinístico (quando a presença de certas palavras diz com certeza que um sentimento está presente num texto) ou um método probabilístico. Neste último caso, as palavras da ontologia devem ter pesos associados, indicando a probabilidade de a palavra ou expressão indicar um certo tipo de sentimento. A inferência então é feita com métodos probabilísticos (por exemplo, métodos bayesianos). Assim, o resultado é um grau de certeza de que um sentimento esteja presente no texto sendo analisado.

A figura abaixo apresenta a tela do software SWASI que faz análise de sentimentos sobre blogs, notícias, twitter e páginas web abertas. O usuário deve entrar com palavras indicando o tema (no exemplo, "dilma") e o resultado é uma contagem de resultados positivos, negativos e neutros.



  

Em outros casos, talvez seja interessante entender em mais detalhes do que exatamente o cliente está reclamando. A figura abaixo apresenta a tela de um software desenvolvido como TCC na ULBRA de Canoas, onde são feitas análises de críticas de hotéis. O usuário fornece como entrada o nome de um hotel (no exemplo, "Rio Othon Palace") e o software procura opiniões de clientes em sites específicos. Os textos primeiramente são analisados para se saber de que parte especificamente do hotel estão falando (ex.: acomodações, atendimento, preço, etc.). Depois, é feita a análise de sentimentos (positivos ou negativos).



Da mesma forma, a ontologia pode ser incrementada para que a análise seja feita sobre sentimentos mais detalhados (e não somente positivos ou negativos). Alguns autores utilizam o modelo POMS (Profile of Mood States), utilizado por psicólogos, para identificar o estados de humor. Este modelo utiliza 6 tipos de humor:
1.      Tensão-Ansiedade:
·         tenso, tranquilo, nervoso, impaciente, inquieto e ansioso.
2.      Depressão-Melancolia:
·         triste, desencorajado, só, abatido (deprimido), desanimado e infeliz
3.      Hostilidade-Ira:
·         irritado, mal humorado, (rabujento), aborrecido, furioso, com mau feitio, e enervado.
4.      Vigor-Actividade:
·         animado, activo, enérgico, alegre e cheio de boa disposição
5.      Fadiga-Inércia:
·         esgotado, fatigado, exausto, sem energia, cansado e estourado.
6.      Confusão-Desorientação:
·         confuso, baralhado, desnorteado, inseguro, competente e eficaz.

Tal modelo já foi utilizado para comprovar a correlação entre postagens do twitter e acontecimentos do mundo real. Por exemplo, pode-se analisar o sentimento predominante nas postagens antes, durante ou depois de um evento, sejam as eleições presidenciais ou o Dia de Ação de Graças. Também é possível saber o ritmo das postagens para cada tipo de humor, analisando-se subidas e descidas num gráfico que represente o total de postagens de cada tipo.

Outro modelo que pode ajudar a detalhar sentimentos, é o Modelo OCC (Ortony, A.; Clore, G.L.; Colins, A. The Cognitive Structure of Emotions, Cambridge University Press. 1988). Este modelo trabalha com 22 tipos de emoções, agrupando adjetivos que exprimem tais emoções em textos.

Alguém poderá pensar "por que analisar opiniões ? o certo não seria analisar somente fatos ?". Pois bem, um investidor da bolsa, para poder tomar decisões à frente de seus concorrentes, precisa também analisar boatos e dados não confirmados (os chamados sinais fracos). Assim também as empresas precisam saber lidar com opiniões para agilizar suas decisões. Confirmar fatos pode ser muito demorado ou caro. O objetivo é procurar tendências, levando em conta o que a maioria das pessoas têm por dizer. 

Tudo isto está baseado na tal da Sabedoria das Massas ou Inteligência Coletiva. O Google usa tais técnicas para fazer suas correções ortográficas (isto mesmo, são baseadas em estatísticas e não em análise de linguagem). Por outro lado, é sabido que há formadores de opinião na Web, pessoas que influenciam a opinião de grandes massas. Ou seja, a opinião da massa pode ser apenas a opinião de uma pessoa ou de um grupo pequeno.

Encontrar tais pessoas não é fácil. Tais formadores de opinião podem ser celebridades do esporte ou das artes ou então jornalistas e economistas. Entretanto, há também pessoas comuns (ordinary people), que também influenciam seus amigos, através das redes de relacionamento. Algumas empresas utilizam métricas tais como número de postagens, número de seguidores ou número de retweets para tentar descobrir quem são os influenciadores. Outras tentam remontar a origem dos memes, tentando identificar a origem (quem foi o primeiro a falar). Há também as métricas baseadas em grafos como o algoritmo PageRank do Google (quem aponta para quem) e algoritmos de análise de complexidade de redes (identificar autoridades, hubs, graus de centralidade, proximidade e densidade da rede, etc.).

A grande dificuldade é que as empresas não conseguem entrar nos perfis particulares na maioria das redes sociais como Facebook e Google+ (a não ser o próprio fornecedor do software). E tais opiniões ficam invisíveis para as métricas comuns (a chamada Deep Web).

Uma variação para a análise de sentimentos baseados em textos é observar as ações dos usuários na Web, por exemplo, o que eles "curtem", recomendam ou repassam. A gente pode não escrever nada na Internet, mas nossos atos nos delatam.

Resumindo, técnicas de análise de sentimentos são úteis para avaliar opiniões de clientes efeitos ou potenciais, mas também para refinar ideias (pois a empresa pode analisar o sentimento das pessoas sobre determinados assuntos antes que produtos e serviços sejam lançados).