Em tempos de manifestações disseminadas por redes sociais, este artigo, indicado pelo amigo e colega Prof. Dr. Luis Fernando Garcia, avalia que atributos influenciam na velocidade das mobilizações.
Traz dicas de como otimizar a velocidades das mobilizações sociais.
Predictors of Social Mobilization Speed
Jeff Alstott, Stuart Madnick, Chander Velu
Abstract:
Mobilization across social networks is becoming increasingly influential, but little is
known about what traits of individuals and their relationships affect their speed of
mobilization between them. We ran a global social mobilization contest and recorded
personal traits of the participants and those they mobilized. We examined how those traits
influenced the speed of mobilization. Individuals mobilized faster when they heard about the
contest directly from the contest organization, and decreased in speed when hearing from less
personal source types (e.g. family vs. media). Mobilization was faster when the mobilizer and
the mobilized heard about the contest through the same source type, and slower when both
individuals were in different countries. Females mobilized other females faster than males
mobilized other males. Mobilization was faster with young recruiters and old recruits, and
slower with old recruiters and young recruits. These findings suggest ways to optimize the
speed of social mobilization.
http://arxiv.org/ftp/arxiv/papers/1303/1303.3805.pdf
sábado, 29 de junho de 2013
sexta-feira, 21 de junho de 2013
A privacidade acabou - Big Data X Privacidade
A privacidade acabou. Em 4 passos.
·
Passo 1: coleta e armazenamento de dados
Com esta onda de Big Data por aí, está todo mundo coletando
dados sobre todos. A operadora de celular sabe por onde a gente anda e quando.
Qual o caminho que costumamos fazer, por onde costumamos andar em cada dia da
semana e horário. E se instalarmos aplicativos tipo o Waze no nosso celular, a
Google (que comprou o Waze) vai saber até a que velocidade estamos andando. E
daí inferir se estamos a pé ou de carro, ou num engarrafamento.
Aí alguém inventou a tecnologia de RFID, e ela está em
cartões com chips, carros, produtos novos e vai estar em sacolas, carrinhos de
supermercados, etc. Então não é só por celular. Os aplicativos e softwares que
usamos em celulares, tablets, notebooks e etc também estão avisando onde
estamos, se estivermos conectados via Wifi, 3G ou 4G.
A coleta também pode ser feita por observação. Não conheço
estabelecimento que faça isto, mas é um futuro provável. Quando você paga em
dinheiro num supermercado, este só registra o que você comprou e como; não ficam
registrados dados como seu sexo, idade, etc. Mas imagine que o operador do
caixa (check-out) possa observar o cliente e utilizar códigos para dar entrada
no sistema de dados que ele está vendo (sexo, faixa etária, estilo de se
vestir, se está acompanhado ou não).
Num futuro um pouco mais distante isto já poderá ser feito através
da análise de imagens gravadas com câmeras.
Experimento que, pelo contorno da pessoa diante de um
banner, era possível identificar o sexo e a faixa etária.
·
Passo 2: enriquecimento de dados
Cada click na internet é monitorado. Aí eles cruzam estes
dados com o que a gente comprou pela internet. Aí eles cruzam estes dados com nossos
cadastros em lojas físicas. Aí eles cruzam com o que a gente comprou na loja
física, fora da Internet. Aí eles complementam estes dados sobre nós com nossos
perfis nas redes sociais e com o que estamos dizendo em fóruns e blogs (é o
Social CRM).
E é possível pegar dados públicos, disponíveis livremente na
Internet. Estes dados não identificam pessoas individualmente, mas dão
estatísticas sobre grupos de pessoas. Uma empresa pode comprar uma lista
telefônica com nome, endereço e telefone de clientes. Mas não sabe classificar
os clientes por dados sócio-demográficos. Então, a empresa pode consultar bases
públicas sobre setores censitários. Um setor censitário é diferente de um
bairro ou quadra; é uma região, geralmente menor que um bairro mas podendo
abranger partes de 2 bairros, que foi pesquisada pelo censo do IBGE (exemplos
na Figura 24).
Então, há informações estatísticas sobre cada setor específico. Imagine que a
empresa então possui os seguintes dados sobre uma pessoa: o nome é José da
Silva e mora na Rua X, n.41. Bom, usando um sistema de GIS simples, pode-se
saber o setor censitário onde ela mora. Depois, procuram-se dados estatísticos
sobre este setor e, digamos, temos que neste setor:
•
100% das
residências possuem 3 TVs;
•
98%
possuem 2 banheiros;
•
90%
possuem aparelhos de DVD;
•
90%
possuem TVs LCD;
•
etc.
Agora, de posse destas
informações estatísticas, podemos
estimar alguns dados sobre José da Silva. Que ele tem 3 TVs, com 100% de
chances, que há 98% de chances de ele ter 2 banheiros em casa, e assim por
diante.
Então, desta forma, uma
empresa combina a lista telefônica com dados censitários e poderá obter um
banco de dados de clientes potenciais.
Empresas parceiras também
costumam compartilhar dados sobre clientes, por exemplo, administradoras de
cartões de crédito, instituições financeiras, redes de varejo, escolas, postos
de gasolina, editoras, etc.
E a cada pesquisa que participamos, com o objetivo de
concorrer a prêmios, estamos fornecendo mais dados sobre nós.
·
Passo 3: análises e inferências
Inferir é gerar uma informação a partir de outra. Se você
compra muito produto congelado no supermercado, a análise destes dados pode
ajudar a inferir que:
a) você tem um bom freezer em casa;
b) você não sabe cozinhar ou não gosta;
c) você é uma pessoa muita atarefada e não tem tempo nem
para cozinhar.
O nível de inferência é subjetivo de cada organização e certamente
aumenta a incerteza sobre a veracidade da informação. Mas muitas empresas
assumem o risco desta incerteza, porque mais incerto ainda é não saber nada
sobre o cliente.
Tempos atrás surgiram alguns artigos falando sobre
Phenomenal Data Mining. Que significa tentar inferir eventos ou atributos de entidades
a partir de coleções de dados. É na prática e com seriedade fazer aquela
brincadeira de analisar os restos no lixo de alguém. Aí você saberá que tipo de
pessoa é, pelo que compre e consome (marcas, tipos de produtos, faixas de
preços, etc). Assim, se você compra Xampu feminimo e desodorante feminino juntos na mesma compra,
você é uma mulher. Se comprar Xampu para carro, esponja para lavar carro e
creme para polimento de carro, você certamente tem um carro. É claro que há
margem para erros.
E utilizando a sabedoria das massas, se numa loja de
supermercado a venda de água mineral foi muito acima do normal, é porque faltou
água neste bairro. E se na mesma cidade, várias farmácias estão vendendo
antigripal, é porque há um surto de gripe. E provavelmente a temperatura também
esfriou ou a umidade aumentou.
E isto já chegou à Internet. O Facebook já consegue inferir nossa
orientação sexual e tendência política só analisando nossas
"curtidas" (ler a reportagem "Estudo mostra que botão ‘Curtir’
do Facebook revela muito mais do que se imagina sobre o usuário
Há uns tempos atrás, a Microsoft tinha um experimento para
inferir sexo e faixa etária de uma pessoa, pelo tipo de assunto que buscava na
Internet (http://adlab.msn.com/DPUI/DPUI.aspx). Veja as imagens abaixo. Olhei
agora e o experimento é outro (no redirecionamento deste link).
·
Passo 4: ofertas personalizadas ou recomendações
Qual a diferença entre spam e recomendação (ofertas
personalizadas): se você receber um SMS às 3h da manhã avisando de promoção
(venda de um produto) e:
a) ficar irritado com a operadora: isto é spam;
b) ficar contente e agradecer a operadora porque no dia
seguinte irá comprar várias unidades: isto é recomendação.
A recomendação é direcionado a cada indivíduo e não por
grupos. É parte do chamado Marketing de Relacionamento ou Marketing 1-to-1
(Peppers & Rogers). Para isto, a empresa precisa saber muito sobre o
cliente. Mas é a forma que as empresas têm para diminuir a margem de erro. E
ninguém vai deixar de fazer propaganda.
O Google ganha dinheiro assim. Dependendo do que você está
procurando na Internet, isto é, das palavras que você coloca no buscador, as
propagandas serão diferentes. E elas serão contextualizadas também no seu
Gmail. E eles possuem tecnologias para identificar o assunto em vídeos no
Youtube, seja pelas palavras no título do vídeo, pelas tags marcadas por quem
postou o vídeo ou, com mais tecnologia, pelas palavras que estão no áudio do
vídeo.
A privacidade acabou então. Estamos combinados.
O que existe é política de privacidade. Onde a empresa diz
que dados está coletando das pessoas, como e para quê. E a pessoa assina ou
clica aceitando a política de privacidade. Dizem que apenas 0,4% dos visitantes
de um site leem a política de privacidade do site. E quem lê as várias páginas com
linhas pequenas nos contratos de serviços ?
O W3C está planejando um protocolo para ajudar usuários a
controlarem sua privacidade (o PPP). Funciona assim: cada usuário configura no
seu navegador o seu nível de privacidade, isto é, o que permite que um site
colete de informações, ao você entrar neste site. O site, embutido no seu
código HTML, colocará sua política de privacidade (é claro que estruturada
neste protocolo). Quando você estiver para entrar num site, o navegador compara
o nível de privacidade do usuário com a política do site. Em caso de
incompatibilidade, ele avisa o usuário ou não permite entrar.
Note que os aplicativos baixados para Android já avisam o
usuário deste tipo de informação (o que o aplicativo vai fazer, que tipo de
conexão ou transferência, ou que dados irá manipular no dispositivo móvel).
Outra iniciativa para controle de privacidade está no novo Código
de Defesa do Consumidor 2.0. Nele está dito que as empresas não podem passar
adiante dados coletados de uma pessoa. Isto é crime. O problema é como
controlar isto. Quando a gente recebe em casa uma propaganda pelo correio
normal, a quem vamos culpar ? Quem forneceu nossos dados para esta empresa que
enviou a propaganda ?
Alguns Procons já aceitam cadastros para listas brancas
contra telemarketing. Por exemplo, você cadastra seu telefone e nenhuma empresa
pode ligar para você, sob pena de receber multa. A questão é que as empresas
fazem as contas e verificam que é mais vantajoso continuar ligando e pagando a
multa.
Na Constituição brasileira está definido o direito de habeas data. Você pode entrar com uma ação
de habeas data para adicionar,
retirar ou retificar informações em cadastros existentes, desde que a
instituição seja pública ou de caráter público. O bom seria permitir a cada
cidadão poder fazer isto em qualquer tipo de banco de dados. Ou ao menos,
receber uma parcela dos ganhos de propaganda, quando nossos dados forem
utilizados.
Agora a Vivo criou um modelo novo de propaganda. Se você
aceitar ouvir uma ligação com propaganda no seu celular, você recebe bônus (ler
a reportagem "Vivo lança serviço de chamada patrocinada"
terça-feira, 11 de junho de 2013
Determinismo tecnológico e anti-tecnologia
Uma
recente pesquisa ofereceu mil dólares para alguns adolescentes ficarem alguns
dias sem internet. Alguns não aceitaram. O Homem
trabalha para comprar controle remoto para poder fazer menos esforço. Não
seria melhor voltarmos ao tempo das cavernas ? Menos
poluição, mais sustentabilidade, menos stress.
Por
que ter telefones que fazem tudo ? Por que estar conectado 24 horas ? Por que
ler e-mails em todo lugar ? Por que ser avisado a toda hora se chegou post novo
no twitter ? Por que queremos ler todos os posts no facebook ?
Estou
vendo algumas iniciativas de pessoas que procuram diminuir o uso de tecnologias,
seja definindo tempo para não usar tecnologia (dias ou horários), seja vivendo
com menos apego material.
Domenico
de Masi dissemina o Ócio criativo, procurando juntar trabalho, lazer e
aprendizado. Ou seja, em tudo o que a gente fizer, temos que procurar aprender,
nos divertir e ainda usar para nosso sustento.
Mas
fazer isto presencialmente ou por rede ? Michio Kaku fala do princípio do Homem
das Cavernas (caveman principle): queremos tocar e ver. A vida High Tech impõe Low
Touch, mas as pessoas tendem a procurar high touch porque
estão sendo oprimidas pelo high tech. Segundo
este princípio ainda, jornal em papel, livros impressos e reuniões presenciais
com amigos não irão acabar nunca. Por isto, o ciberturismo não deu certo
(visitar lugares pela internet não é a mesma coisa que estar presente).
McLuhan
já falava anos atrás (A Galáxia de Gutenberg) do poder de transformação da
tecnologia e de como a Humanidade não está preparada para entender, prever e
muito menos controlar tais mudanças.
Eric
McLuhan (filho do mais famoso) diz que as
novas tecnologias, quando entram em funcionamento na sociedade, espalham-se
como vírus (e causam danos).
Manuel
Castells (A Sociedade em Rede) afirma que o fenômeno de informatização é irreversível
e agrava-se com o novo liberalismo mundial, em que tudo é justificado em função
do mercado. Estamos à deriva, como passageiros do barco da tecnologia (e quem
está no comando ?).
E
a velocidade destas transformações acelera a cada ano. Ray Kurzweil fala em
curva exponencial: tudo se desenvolve exponencialmente (aumento da população, avanço
das tecnologias). Kurzweil defende que a Lei do Retorno Acelerado faz com que o
feedback de informações acelere as descobertas e inovações.
Some-se
a isto a Aldeia Global de McLuhan pai (a troca de informações globalizadas), a capacidade
de armazenamento (nuvens sem limite) e recuperação de informações (Google), a diversificação
de tipos de informações (youtube, podcasts, pinterest, instagram, google maps,
mapas mentais, anagramas) e uma juventude multitarefa, impaciente e altamente
conectada e digitalizada (Geração Y). Perdemos a noção de tempo e espaço. Podemos
tudo agora e em qualquer lugar.
E o
próximo passo é perder a noção de Humanidade. McLuhan falou conotativamente que
os meios de comunicação são extensões do Homem (do corpo humano). Agora já se
fala em singularidade (Vernor Vinge e Ray Kurzweil): Homem e máquina serão um
ser só, sem distinção. Já temos impressoras 3D fazendo partes do corpo,
exoesqueletos para dar mais força, transmissão de dados por telepatia e leitura
de frequências cerebrais (como em Avatar e Matrix).
O
professor e cientista Kevin Warwick afirma que as máquinas serão mais fortes e
mais inteligentes que os Homens. A única forma de o ser humano não ser dominado
por elas é se juntando a elas, ou seja, seres ciborgues. Então ele já começou
implantando chips em seu corpo, para controlar equipamentos à distância. Esta é
a mesma preocupação de Isaac Asimov, que tanto escreveu sobre Robôs.
Os
McLuhan (pai e filho) identificaram as Leis da Mídia. Uma delas diz que as
novas tecnologias tornam alguma coisa anterior obsoleta. Será que o Homem ficará
obsoleto ?
O
paradoxo da Humanidade é este: não podemos controlar nossas criações e seremos
extintos por nossas próprias criações.
segunda-feira, 3 de junho de 2013
Análise de sentimentos - cada vez mais atual
As empresas estão preocupadas com sua imagem. É importante
saber o que estão falando dela ou de seus produtos e serviços. Para obter tal
conhecimento, a empresa pode usar pesquisas de campo com clientes potenciais ou
fazer pesquisas tipo "survey" com uma amostra de seus clientes.
Entretanto, nem sempre as pessoas se sentem confortáveis para reclamar ou falar
mal.
Para estes casos existe a Internet. Zona livre de censura e
restrições. Mas não estamos falando de analisar notícias, nem sites específicos
para reclamações como o Reclameaqui.
No primeiro caso, depende-se da parcialidade da fonte e, no segundo caso, pode
ficar em aspectos muitos específicos de alguns poucos clientes (há uma
estatística que diz que apenas 95% dos clientes insatisfeitos fazem reclamações
formais).
A ideia é vasculhar a Web atrás de oceanos de opiniões,
procurando saber o que a grande massa tem por dizer (Wisdom of Crowds -
Sabedoria das Massas). Hoje cada cliente é um "prosumidor"
(consumidor + produtor), que deseja expressar suas opiniões, dar ideias, ajudar
a empresa ou outras pessoas. E para isto utiliza as redes sociais (Twitter,
Facebook, Google+) ou cria blogs e fóruns para reunir grupos de pessoas
interessadas na mesma discussão.
O sucesso depende da capacidade de coletar tais dados
informais e da velocidade em analisar seu conteúdo, para gerar decisões sábias
em tempo hábil. A área de Análise de Sentimentos (Sentiment Analysis) ou
Mineração de Opiniões (Opinion Mining) nasce como uma das alternativas. Seu
objetivo é encontrar opiniões e analisar seu conteúdo. Na prática, o que deve
ser feito é encontrar na Web textos que possam conter opiniões de pessoas e
analisar o tipo de sentimento presente nos textos: se positivos ou negativos
(se falam bem ou falam mal).
O processo depende da existência de uma ontologia de tarefa
ou de domínio, que permita entender como as pessoas escrevem sobre um
determinado assunto e como elas expressam seus sentimentos positivos e
negativos. Após, um processo de inferência probabilístico ou determinístico é
utilizado para identificar o tipo de sentimento.
A ontologia de tarefa ou de domínio é um conjunto organizado
de palavras e expressões linguísticas (multipalavras), separadas por tipo de
sentimento. Pode-se utilizar um método determinístico (quando a presença de
certas palavras diz com certeza que um sentimento está presente num texto) ou
um método probabilístico. Neste último caso, as palavras da ontologia devem ter
pesos associados, indicando a probabilidade de a palavra ou expressão indicar
um certo tipo de sentimento. A inferência então é feita com métodos
probabilísticos (por exemplo, métodos bayesianos). Assim, o resultado é um grau
de certeza de que um sentimento esteja presente no texto sendo analisado.
A figura abaixo apresenta a tela do software SWASI que faz
análise de sentimentos sobre blogs, notícias, twitter e páginas web abertas. O
usuário deve entrar com palavras indicando o tema (no exemplo,
"dilma") e o resultado é uma contagem de resultados positivos,
negativos e neutros.
Em outros casos, talvez seja interessante entender em mais
detalhes do que exatamente o cliente está reclamando. A figura abaixo apresenta
a tela de um software desenvolvido como TCC na ULBRA de Canoas, onde são feitas
análises de críticas de hotéis. O usuário fornece como entrada o nome de um
hotel (no exemplo, "Rio Othon Palace") e o software procura opiniões
de clientes em sites específicos. Os textos primeiramente são analisados para
se saber de que parte especificamente do hotel estão falando (ex.: acomodações,
atendimento, preço, etc.). Depois, é feita a análise de sentimentos (positivos
ou negativos).
Da mesma forma, a ontologia pode ser incrementada para que a
análise seja feita sobre sentimentos mais detalhados (e não somente positivos
ou negativos). Alguns autores utilizam o modelo POMS (Profile of Mood States),
utilizado por psicólogos, para identificar o estados de humor. Este modelo
utiliza 6 tipos de humor:
1.
Tensão-Ansiedade:
·
tenso, tranquilo, nervoso, impaciente, inquieto
e ansioso.
2.
Depressão-Melancolia:
·
triste, desencorajado, só, abatido (deprimido),
desanimado e infeliz
3.
Hostilidade-Ira:
·
irritado, mal humorado, (rabujento), aborrecido,
furioso, com mau feitio, e enervado.
4.
Vigor-Actividade:
·
animado, activo, enérgico, alegre e cheio de boa
disposição
5.
Fadiga-Inércia:
·
esgotado, fatigado, exausto, sem energia,
cansado e estourado.
6.
Confusão-Desorientação:
·
confuso, baralhado, desnorteado, inseguro,
competente e eficaz.
Tal modelo já foi utilizado para comprovar a correlação
entre postagens do twitter e acontecimentos do mundo real. Por exemplo, pode-se
analisar o sentimento predominante nas postagens antes, durante ou depois de um
evento, sejam as eleições presidenciais ou o Dia de Ação de Graças. Também é
possível saber o ritmo das postagens para cada tipo de humor, analisando-se
subidas e descidas num gráfico que represente o total de postagens de cada
tipo.
Outro modelo que pode ajudar a detalhar sentimentos, é o Modelo
OCC (Ortony, A.; Clore, G.L.; Colins, A. The Cognitive Structure of Emotions,
Cambridge University Press. 1988). Este modelo trabalha com 22 tipos de emoções,
agrupando adjetivos que exprimem tais emoções em textos.
Alguém poderá pensar "por que analisar opiniões ? o
certo não seria analisar somente fatos ?". Pois bem, um investidor da
bolsa, para poder tomar decisões à frente de seus concorrentes, precisa também
analisar boatos e dados não confirmados (os chamados sinais fracos). Assim
também as empresas precisam saber lidar com opiniões para agilizar suas
decisões. Confirmar fatos pode ser muito demorado ou caro. O objetivo é
procurar tendências, levando em conta o que a maioria das pessoas têm por
dizer.
Tudo isto está baseado na tal da Sabedoria das Massas ou
Inteligência Coletiva. O Google usa tais técnicas para fazer suas correções
ortográficas (isto mesmo, são baseadas em estatísticas e não em análise de
linguagem). Por outro lado, é sabido que há formadores de opinião na Web,
pessoas que influenciam a opinião de grandes massas. Ou seja, a opinião da
massa pode ser apenas a opinião de uma pessoa ou de um grupo pequeno.
Encontrar tais pessoas não é fácil. Tais formadores de
opinião podem ser celebridades do esporte ou das artes ou então jornalistas e
economistas. Entretanto, há também pessoas comuns (ordinary people), que também influenciam seus amigos, através das
redes de relacionamento. Algumas empresas utilizam métricas tais como número de
postagens, número de seguidores ou número de retweets para tentar descobrir quem são os influenciadores. Outras
tentam remontar a origem dos memes, tentando identificar a origem (quem foi o
primeiro a falar). Há também as métricas baseadas em grafos como o algoritmo
PageRank do Google (quem aponta para quem) e algoritmos de análise de
complexidade de redes (identificar autoridades, hubs, graus de centralidade, proximidade e densidade da rede, etc.).
A grande dificuldade é que as empresas não conseguem entrar
nos perfis particulares na maioria das redes sociais como Facebook e Google+ (a
não ser o próprio fornecedor do software). E tais opiniões ficam invisíveis
para as métricas comuns (a chamada Deep Web).
Uma variação para a análise de sentimentos baseados em textos
é observar as ações dos usuários na Web, por exemplo, o que eles "curtem",
recomendam ou repassam. A gente pode não escrever nada na Internet, mas nossos atos
nos delatam.
Resumindo, técnicas de análise de sentimentos são úteis para
avaliar opiniões de clientes efeitos ou potenciais, mas também para refinar ideias
(pois a empresa pode analisar o sentimento das pessoas sobre determinados assuntos
antes que produtos e serviços sejam lançados).
Assinar:
Postagens (Atom)