segunda-feira, 3 de junho de 2013

Análise de sentimentos - cada vez mais atual


As empresas estão preocupadas com sua imagem. É importante saber o que estão falando dela ou de seus produtos e serviços. Para obter tal conhecimento, a empresa pode usar pesquisas de campo com clientes potenciais ou fazer pesquisas tipo "survey" com uma amostra de seus clientes. Entretanto, nem sempre as pessoas se sentem confortáveis para reclamar ou falar mal.

Para estes casos existe a Internet. Zona livre de censura e restrições. Mas não estamos falando de analisar notícias, nem sites específicos para reclamações como o Reclameaqui. No primeiro caso, depende-se da parcialidade da fonte e, no segundo caso, pode ficar em aspectos muitos específicos de alguns poucos clientes (há uma estatística que diz que apenas 95% dos clientes insatisfeitos fazem reclamações formais).
A ideia é vasculhar a Web atrás de oceanos de opiniões, procurando saber o que a grande massa tem por dizer (Wisdom of Crowds - Sabedoria das Massas). Hoje cada cliente é um "prosumidor" (consumidor + produtor), que deseja expressar suas opiniões, dar ideias, ajudar a empresa ou outras pessoas. E para isto utiliza as redes sociais (Twitter, Facebook, Google+) ou cria blogs e fóruns para reunir grupos de pessoas interessadas na mesma discussão.

O sucesso depende da capacidade de coletar tais dados informais e da velocidade em analisar seu conteúdo, para gerar decisões sábias em tempo hábil. A área de Análise de Sentimentos (Sentiment Analysis) ou Mineração de Opiniões (Opinion Mining) nasce como uma das alternativas. Seu objetivo é encontrar opiniões e analisar seu conteúdo. Na prática, o que deve ser feito é encontrar na Web textos que possam conter opiniões de pessoas e analisar o tipo de sentimento presente nos textos: se positivos ou negativos (se falam bem ou falam mal).

O processo depende da existência de uma ontologia de tarefa ou de domínio, que permita entender como as pessoas escrevem sobre um determinado assunto e como elas expressam seus sentimentos positivos e negativos. Após, um processo de inferência probabilístico ou determinístico é utilizado para identificar o tipo de sentimento.

A ontologia de tarefa ou de domínio é um conjunto organizado de palavras e expressões linguísticas (multipalavras), separadas por tipo de sentimento. Pode-se utilizar um método determinístico (quando a presença de certas palavras diz com certeza que um sentimento está presente num texto) ou um método probabilístico. Neste último caso, as palavras da ontologia devem ter pesos associados, indicando a probabilidade de a palavra ou expressão indicar um certo tipo de sentimento. A inferência então é feita com métodos probabilísticos (por exemplo, métodos bayesianos). Assim, o resultado é um grau de certeza de que um sentimento esteja presente no texto sendo analisado.

A figura abaixo apresenta a tela do software SWASI que faz análise de sentimentos sobre blogs, notícias, twitter e páginas web abertas. O usuário deve entrar com palavras indicando o tema (no exemplo, "dilma") e o resultado é uma contagem de resultados positivos, negativos e neutros.



  

Em outros casos, talvez seja interessante entender em mais detalhes do que exatamente o cliente está reclamando. A figura abaixo apresenta a tela de um software desenvolvido como TCC na ULBRA de Canoas, onde são feitas análises de críticas de hotéis. O usuário fornece como entrada o nome de um hotel (no exemplo, "Rio Othon Palace") e o software procura opiniões de clientes em sites específicos. Os textos primeiramente são analisados para se saber de que parte especificamente do hotel estão falando (ex.: acomodações, atendimento, preço, etc.). Depois, é feita a análise de sentimentos (positivos ou negativos).



Da mesma forma, a ontologia pode ser incrementada para que a análise seja feita sobre sentimentos mais detalhados (e não somente positivos ou negativos). Alguns autores utilizam o modelo POMS (Profile of Mood States), utilizado por psicólogos, para identificar o estados de humor. Este modelo utiliza 6 tipos de humor:
1.      Tensão-Ansiedade:
·         tenso, tranquilo, nervoso, impaciente, inquieto e ansioso.
2.      Depressão-Melancolia:
·         triste, desencorajado, só, abatido (deprimido), desanimado e infeliz
3.      Hostilidade-Ira:
·         irritado, mal humorado, (rabujento), aborrecido, furioso, com mau feitio, e enervado.
4.      Vigor-Actividade:
·         animado, activo, enérgico, alegre e cheio de boa disposição
5.      Fadiga-Inércia:
·         esgotado, fatigado, exausto, sem energia, cansado e estourado.
6.      Confusão-Desorientação:
·         confuso, baralhado, desnorteado, inseguro, competente e eficaz.

Tal modelo já foi utilizado para comprovar a correlação entre postagens do twitter e acontecimentos do mundo real. Por exemplo, pode-se analisar o sentimento predominante nas postagens antes, durante ou depois de um evento, sejam as eleições presidenciais ou o Dia de Ação de Graças. Também é possível saber o ritmo das postagens para cada tipo de humor, analisando-se subidas e descidas num gráfico que represente o total de postagens de cada tipo.

Outro modelo que pode ajudar a detalhar sentimentos, é o Modelo OCC (Ortony, A.; Clore, G.L.; Colins, A. The Cognitive Structure of Emotions, Cambridge University Press. 1988). Este modelo trabalha com 22 tipos de emoções, agrupando adjetivos que exprimem tais emoções em textos.

Alguém poderá pensar "por que analisar opiniões ? o certo não seria analisar somente fatos ?". Pois bem, um investidor da bolsa, para poder tomar decisões à frente de seus concorrentes, precisa também analisar boatos e dados não confirmados (os chamados sinais fracos). Assim também as empresas precisam saber lidar com opiniões para agilizar suas decisões. Confirmar fatos pode ser muito demorado ou caro. O objetivo é procurar tendências, levando em conta o que a maioria das pessoas têm por dizer. 

Tudo isto está baseado na tal da Sabedoria das Massas ou Inteligência Coletiva. O Google usa tais técnicas para fazer suas correções ortográficas (isto mesmo, são baseadas em estatísticas e não em análise de linguagem). Por outro lado, é sabido que há formadores de opinião na Web, pessoas que influenciam a opinião de grandes massas. Ou seja, a opinião da massa pode ser apenas a opinião de uma pessoa ou de um grupo pequeno.

Encontrar tais pessoas não é fácil. Tais formadores de opinião podem ser celebridades do esporte ou das artes ou então jornalistas e economistas. Entretanto, há também pessoas comuns (ordinary people), que também influenciam seus amigos, através das redes de relacionamento. Algumas empresas utilizam métricas tais como número de postagens, número de seguidores ou número de retweets para tentar descobrir quem são os influenciadores. Outras tentam remontar a origem dos memes, tentando identificar a origem (quem foi o primeiro a falar). Há também as métricas baseadas em grafos como o algoritmo PageRank do Google (quem aponta para quem) e algoritmos de análise de complexidade de redes (identificar autoridades, hubs, graus de centralidade, proximidade e densidade da rede, etc.).

A grande dificuldade é que as empresas não conseguem entrar nos perfis particulares na maioria das redes sociais como Facebook e Google+ (a não ser o próprio fornecedor do software). E tais opiniões ficam invisíveis para as métricas comuns (a chamada Deep Web).

Uma variação para a análise de sentimentos baseados em textos é observar as ações dos usuários na Web, por exemplo, o que eles "curtem", recomendam ou repassam. A gente pode não escrever nada na Internet, mas nossos atos nos delatam.

Resumindo, técnicas de análise de sentimentos são úteis para avaliar opiniões de clientes efeitos ou potenciais, mas também para refinar ideias (pois a empresa pode analisar o sentimento das pessoas sobre determinados assuntos antes que produtos e serviços sejam lançados).

2 comentários:

Unknown disse...

Amigo, muito bom suas explicações, gostaria de efetuar a manipulação dos dados, fazer testes, onde encontro os sistemas descritos? swasi?

Stanley Loh disse...

Prezado Isaias, infelizmente o sistema não está ainda disponível, nem para testes, nem para comercialização.