<?xml version='1.0' encoding='UTF-8'?><?xml-stylesheet href="http://www.blogger.com/styles/atom.css" type="text/css"?><feed xmlns='http://www.w3.org/2005/Atom' xmlns:openSearch='http://a9.com/-/spec/opensearchrss/1.0/' xmlns:georss='http://www.georss.org/georss' xmlns:gd='http://schemas.google.com/g/2005' xmlns:thr='http://purl.org/syndication/thread/1.0'><id>tag:blogger.com,1999:blog-1615961092471704308</id><updated>2011-09-13T16:46:14.942-03:00</updated><category term='georss'/><category term='geographical information'/><category term='geoinfo'/><category term='geographical information retrieval'/><title type='text'>Text Mining por Stanley Loh</title><subtitle type='html'>O objetivo deste blog é reunir técnicas, ferramentas, aplicações e exemplos de "text mining" e áreas correlatas
(Information Retrieval, Search Engines, SEO/SEM, Sistemas de Recomendação,
BI, Inteligência Competitiva, Gestão do Conhecimento, Data Mining, Web 2.0,
Inteligência Coletiva, Sabedoria das Massas, etc).</subtitle><link rel='http://schemas.google.com/g/2005#feed' type='application/atom+xml' href='http://miningtext.blogspot.com/feeds/posts/default'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default?max-results=100'/><link rel='alternate' type='text/html' href='http://miningtext.blogspot.com/'/><link rel='hub' href='http://pubsubhubbub.appspot.com/'/><author><name>Stanley Loh</name><uri>http://www.blogger.com/profile/03065680116154760826</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='31' height='32' src='http://3.bp.blogspot.com/_t1y-T1yvw50/SxVQ-hcRUiI/AAAAAAAAACQ/M7c9hoUC3ew/S220/Stanley+sozinho.jpg'/></author><generator version='7.00' uri='http://www.blogger.com'>Blogger</generator><openSearch:totalResults>14</openSearch:totalResults><openSearch:startIndex>1</openSearch:startIndex><openSearch:itemsPerPage>100</openSearch:itemsPerPage><entry><id>tag:blogger.com,1999:blog-1615961092471704308.post-7565216909551449698</id><published>2011-09-13T16:43:00.002-03:00</published><updated>2011-09-13T16:46:14.991-03:00</updated><title type='text'>Call for Chapters - book on Social CRM</title><content type='html'>We are editing a new book on Social CRM (Customer Relationship Management) and inviting authors to contribute to it.&lt;br /&gt;The Call for Chapters is available at (and link to information about the book):&lt;br /&gt;&lt;a href="http://www.invenio.com.br/cfc.htm"&gt;http://www.invenio.com.br/cfc.htm&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/1615961092471704308-7565216909551449698?l=miningtext.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://miningtext.blogspot.com/feeds/7565216909551449698/comments/default' title='Postar comentários'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=1615961092471704308&amp;postID=7565216909551449698' title='0 Comentários'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/7565216909551449698'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/7565216909551449698'/><link rel='alternate' type='text/html' href='http://miningtext.blogspot.com/2011/09/call-for-chapters-book-on-social-crm.html' title='Call for Chapters - book on Social CRM'/><author><name>Stanley Loh</name><uri>http://www.blogger.com/profile/03065680116154760826</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='31' height='32' src='http://3.bp.blogspot.com/_t1y-T1yvw50/SxVQ-hcRUiI/AAAAAAAAACQ/M7c9hoUC3ew/S220/Stanley+sozinho.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-1615961092471704308.post-8956205199766438098</id><published>2011-05-28T09:05:00.007-03:00</published><updated>2011-05-28T09:37:21.045-03:00</updated><title type='text'>Análise de sentimentos em textos (sentiment analysis)</title><content type='html'>&lt;div&gt;&lt;strong&gt;O que é ?&lt;/strong&gt;&lt;br /&gt;Uma recente aplicação das técnicas de Text Mining é analisar o sentimento presente em textos. Ou seja, saber qual o sentimento do autor quando escreveu um texto. A tarefa parece meio esotérica, mas a ideia é mais simples. Analisar as palavras no texto e entender o tipo de sentimento que o texto quer expressar.&lt;br /&gt;Em geral, as ferramentas analisam somente 2 tipos de sentimentos: positivo e negativo. Ou seja, saber se o texto está falando bem (positivamente) ou mal (negativamente) sobre um certo tema.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Sinônimos ?&lt;/strong&gt;&lt;br /&gt;Outro termo utilizado é Mineração de Opiniões (opinion mining).&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Para quê ?&lt;/strong&gt;&lt;br /&gt;Muitas empresas estão preocupadas em saber o que as pessoas estão falando dela ou de seus produtos ou serviços. Querem saber se estão falando bem ou mal e qual o sentimento predominante.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Ferramentas para Análise de Sentimentos ?&lt;/strong&gt;&lt;br /&gt;Uma das ferramentas que faz análise de sentimentos (positivos ou negativos) está em&lt;br /&gt;&lt;a href="http://www.youtube.com/profstanleybrasil#p/u/3/94CyzMxItxk"&gt;http://www.youtube.com/profstanleybrasil#p/u/3/94CyzMxItxk&lt;/a&gt;&lt;br /&gt;O usuário entra com palavras-chave para definir um tema ou assunto, a ferramenta captura textos na web sobre este tema (blogs, notícias, páginas e posts do twitter) e depois analise o tipo de sentimento presente no texto. No final, a ferramenta diz quantos textos positivos, negativos ou neutros foram encontrados (além de listar os textos de cada categoria).&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Como fazem isto ?&lt;/strong&gt;&lt;br /&gt;Em geal, são utilizadas ontologias de tarefa para tanto. Este tipo de ontologia possui uma lista de palavras (simples e expressões) que servem como indicadores do sentimento. Além disto, são utilizadas graus numéricos para indicar o quanto a palavra ou expressão indica o sentimento. Estes graus serão utilizados em processos probabilísticos pois palavras de 2 tipos podem estar presentes no texto (e mesmo um termo pode ser usado positiva ou negativamente). Assim, o processo probabilístico consegue identificar o sentimento predominante mesmo que palavras dos 2 tipo estejam presentes (qual a probabilidade de cada sentimento estar presente no texto).&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Analisam conteúdo ?&lt;/strong&gt;&lt;br /&gt;Na verdade, as ferramentas não analisam o que exatamente os textos estão falando, apenas procuram encontrar o sentimento pela análise de indicadores (palavras positivas ou negativas).&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;E outros tipos de sentimentos além de positivo ou negativo ?&lt;/strong&gt;&lt;br /&gt;Existem ontologias mais detalhadas, ou seja, que permitem identificar sentimentos mais precisos.&lt;br /&gt;O modelo OCC é um modelo psicológico e cognitivo que contém descrições de 22 tipos diferentes de emoções (por exemplo,  “happy for”, “resentment”, “gloating”, “pity”, “joy”, “distress”, “pride”, “shame”, “admiration”, “reproach”, “love”, “hate”, “hope”, “fear”, “satisfaction”, “fears-confirmed”, “relief”, “disappointment”, “gratification”, “remorse”, “gratitude” e “anger”).&lt;br /&gt;Ref.: Ortony, A.; Clore, G.L.; Colins, A. (1988). The Cognitive Structure of Emotions, Cambridge University Press. 1988&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Outras referências ?&lt;/strong&gt;&lt;br /&gt;Um bom survey sobre o assunto encontra-se em:&lt;br /&gt;Pang, Bo and Lee, Lillian. (2008, January). Opinion Mining and Sentiment Analysis.&lt;br /&gt;Foundations and Trends in Information Retrieval, v.2, n.1-2. Delft, Netherlands.&lt;br /&gt;&lt;br /&gt;Existe outra ontologia (Affect Base) criada pelo grupo “The Cognitive and Communication Technologies” (&lt;a href="http://tcc.itc.it/"&gt;http://tcc.itc.it/&lt;/a&gt;), baseada no Wordnet.&lt;/div&gt;&lt;div&gt;E há também a WordNet Affect (&lt;a href="http://wndomains.itc.it/"&gt;http://wndomains.itc.it&lt;/a&gt;).&lt;br /&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/1615961092471704308-8956205199766438098?l=miningtext.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://miningtext.blogspot.com/feeds/8956205199766438098/comments/default' title='Postar comentários'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=1615961092471704308&amp;postID=8956205199766438098' title='0 Comentários'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/8956205199766438098'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/8956205199766438098'/><link rel='alternate' type='text/html' href='http://miningtext.blogspot.com/2011/05/analise-de-sentimentos-em-textos.html' title='Análise de sentimentos em textos (sentiment analysis)'/><author><name>Stanley Loh</name><uri>http://www.blogger.com/profile/03065680116154760826</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='31' height='32' src='http://3.bp.blogspot.com/_t1y-T1yvw50/SxVQ-hcRUiI/AAAAAAAAACQ/M7c9hoUC3ew/S220/Stanley+sozinho.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-1615961092471704308.post-5070181321743501487</id><published>2010-06-29T21:04:00.001-03:00</published><updated>2010-06-29T21:07:41.607-03:00</updated><title type='text'>Demonstração em vídeos de software para Text Mining</title><content type='html'>A InText Mining disponibilizou no youtube vídeos de demonstração do seu software Text Mining Suite.&lt;br /&gt;Veja no canal &lt;a href="http://www.youtube.com/intextmining"&gt;www.youtube.com/intextmining&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/1615961092471704308-5070181321743501487?l=miningtext.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://miningtext.blogspot.com/feeds/5070181321743501487/comments/default' title='Postar comentários'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=1615961092471704308&amp;postID=5070181321743501487' title='0 Comentários'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/5070181321743501487'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/5070181321743501487'/><link rel='alternate' type='text/html' href='http://miningtext.blogspot.com/2010/06/demonstracao-em-videos-de-software-para.html' title='Demonstração em vídeos de software para Text Mining'/><author><name>Stanley Loh</name><uri>http://www.blogger.com/profile/03065680116154760826</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='31' height='32' src='http://3.bp.blogspot.com/_t1y-T1yvw50/SxVQ-hcRUiI/AAAAAAAAACQ/M7c9hoUC3ew/S220/Stanley+sozinho.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-1615961092471704308.post-5606295229510527507</id><published>2009-12-01T15:25:00.002-02:00</published><updated>2009-12-01T15:36:13.188-02:00</updated><title type='text'>Erros ortográficos, qualidade de textos</title><content type='html'>Um dos entraves à mineração de textos são os erros encontrados em textos.&lt;br /&gt;Todo processo de mineração envolve uma etapa inicial de preparação dos dados. Não é diferente no processo de Text Mining.&lt;br /&gt;&lt;br /&gt;Certa vez estava tentando minerar prontuários médicos de pacientes numa clínica. Eram tantos erros que distorciam os resultados. Os médicos registravam as informações com muita rapidez, sem voltar para corrigir erros (já que o trabalho deles não é este). Corretores ortográficos poderiam ajudar, mas eram erros de digitação na maioria das vezes. Tivemos que criar uma ontologia (ou thesaurus) para agrupar palavras relacionadas a um mesmo conceito, incluindo ali os erros.&lt;br /&gt;&lt;br /&gt;Em outro projeto, um sistema de recomendação para um chat, fizemos um corretor ortográfico simples, estatístico, baseado na Sabedoria das Massas (mais ou menos como o Google usa). Usando um algoritmo de similaridade entre palavras (a função de Edit Distance chamada Levenshtein), era possível comparar as palavras digitadas no chat com todas as já utilizadas em sessões anteriores. As mais similares eram levadas para análise; a grafia mais comum era considerada a correta. Tudo isto em real time.&lt;br /&gt;&lt;br /&gt;Abaixo vão alguns textos interessantes sobre este assunto de erros em textos.&lt;br /&gt;&lt;br /&gt;Text Data Quality: Mistakes and More&lt;br /&gt;Posted by Seth Grimes&lt;br /&gt;&lt;a href="http://intelligent-enterprise.informationweek.com/blog/archives/2009/11/text_data_quali.html;jsessionid=H0RZQT5Q2UZKPQE1GHPSKHWATMY32JVN"&gt;http://intelligent-enterprise.informationweek.com/blog/archives/2009/11/text_data_quali.html;jsessionid=H0RZQT5Q2UZKPQE1GHPSKHWATMY32JVN&lt;/a&gt;&lt;br /&gt;Text Data Quality&lt;br /&gt;by Seth Grimes&lt;br /&gt;&lt;a href="http://www.b-eye-network.com/channels/1394/view/12072"&gt;http://www.b-eye-network.com/channels/1394/view/12072&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;On Text Data Quality&lt;br /&gt;Posted by Manya Mayes&lt;br /&gt;&lt;a href="http://blogs.sas.com/text-mining/index.php?/archives/48-On-Text-Data-Quality.html"&gt;http://blogs.sas.com/text-mining/index.php?/archives/48-On-Text-Data-Quality.html&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;5th Text Analytics Summit SAS and Teragram Workshop&lt;br /&gt;by Manya Mayes&lt;br /&gt;&lt;a href="http://www.textanalyticsnews.com/usa/presentations/SASTeragramWorkshop.pdf"&gt;http://www.textanalyticsnews.com/usa/presentations/SASTeragramWorkshop.pdf&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/1615961092471704308-5606295229510527507?l=miningtext.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://miningtext.blogspot.com/feeds/5606295229510527507/comments/default' title='Postar comentários'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=1615961092471704308&amp;postID=5606295229510527507' title='0 Comentários'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/5606295229510527507'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/5606295229510527507'/><link rel='alternate' type='text/html' href='http://miningtext.blogspot.com/2009/12/erros-ortograficos-qualidade-de-textos.html' title='Erros ortográficos, qualidade de textos'/><author><name>Stanley Loh</name><uri>http://www.blogger.com/profile/03065680116154760826</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='31' height='32' src='http://3.bp.blogspot.com/_t1y-T1yvw50/SxVQ-hcRUiI/AAAAAAAAACQ/M7c9hoUC3ew/S220/Stanley+sozinho.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-1615961092471704308.post-1135370194276325676</id><published>2009-12-01T11:56:00.002-02:00</published><updated>2009-12-01T15:24:44.855-02:00</updated><title type='text'>Recuperação de Informações Geográficas Parte 3 - por Cleber Gouvêa</title><content type='html'>Para viabilizar a Resolução de Topônimos torna-se necessário, portanto conforme ilustrou o post anterior identificar as localidades relacionadas nos textos para posteriormente desambiguá-las visando verificar o seu sentido correto. Para viabilizar isso são utilizadas técnicas de &lt;a href="http://en.wikipedia.org/wiki/Natural_language_processing"&gt;Processamento de Linguagem Natural&lt;/a&gt; (ex: &lt;a href="http://en.wikipedia.org/wiki/Named_Entity_Recognition"&gt;REM&lt;/a&gt; ou &lt;a href="http://en.wikipedia.org/wiki/Word_sense_disambiguation"&gt;WSD&lt;/a&gt;) as quais baseiam-se na verificação de evidências (ex: termos co-ocorrentes às localidades) que possam auxiliar na identificação do sentido das localidades. Para a resolução de cada tipo de ambiguidade são utilizadas evidências específicas.&lt;br /&gt;&lt;br /&gt;Para a ambiguidade geo/não-geo são analisadas evidências (denominadas de expressões de contexto) que aparecem junto dos topônimos alvo (ex: "cidade de", "nos arredores de") que auxiliem na identificação de seu caráter geográfico. Já para a ambiguidade geo/geo torna-se necessário a verificação de entidades que auxiliem na identificação correta da posição geográfica da localidade, para isso as estratégias baseiam-se na identificação de evidências que representem o estado ou país relacionado a localidade a ser desambiguada, como ilustra o exemplo abaixo.&lt;br /&gt;&lt;br /&gt;&lt;a href="http://1.bp.blogspot.com/_t1y-T1yvw50/SxUgzpsX4jI/AAAAAAAAACE/H_c0hBpk6wg/s1600/imagem_gir4.png"&gt;&lt;img style="TEXT-ALIGN: center; MARGIN: 0px auto 10px; WIDTH: 400px; DISPLAY: block; HEIGHT: 139px; CURSOR: hand" id="BLOGGER_PHOTO_ID_5410266599092904498" border="0" alt="" src="http://1.bp.blogspot.com/_t1y-T1yvw50/SxUgzpsX4jI/AAAAAAAAACE/H_c0hBpk6wg/s400/imagem_gir4.png" /&gt;&lt;/a&gt;Exemplo Desambiguação Geo/Geo&lt;br /&gt;&lt;br /&gt;Para a desambiguação geo/geo outra estratégia comum é a utilização de heurísticas (ex: considerar como sentido correto a localidade que possuir maior número de habitantes, ou a que representa alguma capital).&lt;br /&gt;&lt;br /&gt;Para possibilitar a inferência dessas evidências nos textos estas são armazenadas em gazetteers, podendo ser incluídas nessas estruturas de forma manual (abordagem baseada em conhecimento) ou automaticamente (aprendizagem automática). O primeiro método depende de um especialista humano, já o segundo busca a obtenção automática dessas evidências utilizando pra isso análise de corpora previamente anotada.&lt;br /&gt;&lt;br /&gt;A abordagem manual é útil apenas para domínios específicos (ex: para o georreferenciamento de textos de um conjunto limitado de informações ou linguagens específicas), para viabilizar a identificação de evidências em larga escala torna-se necessário, no entanto a utilização de métodos automáticos. Para serem viáveis estes devem, contudo serem simples e extensíveis, não necessitando de anotação de grandes quantidades de textos e também permitindo o suporte a variados tipos de idiomas, o que devido às características específicas das linguagens apresenta-se como um desafio importante.&lt;br /&gt;&lt;br /&gt;Após a resolução dos topônimos encontrados nos textos estes podem ser representados com o auxílio dos gazetteers a partir de coordenadas geográficas, viabilizando assim todas as aplicações apresentadas no primeiro post.&lt;br /&gt;&lt;br /&gt;Para a identificação das coordenadas geográficas relacionadas às localidades vários serviços de geo-codificação encontram-se disponíveis, dentre os principais estão o &lt;a href="http://www.geonames.org/export/"&gt;Geonames&lt;/a&gt; e a &lt;a href="http://developer.yahoo.com/maps/rest/V1/geocode.html"&gt;Yahoo Geo-Coding API&lt;/a&gt;.&lt;br /&gt;&lt;br /&gt;Para mais informações sobre geotagging e os desafios envolvendo o georreferenciamento de textos os seguintes livros são importantes referências:&lt;br /&gt;&lt;br /&gt;&lt;a href="http://mitpress.mit.edu/catalog/item/default.asp?ttype=2&amp;amp;tid=11007&amp;amp;mode=toc"&gt;Georeferencing: The Geographic Associations of Information&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href="http://www.geospatialweb.com/"&gt;The Geospatial Web&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;Há também várias conferências e workshops sobre o assunto, os principais são o &lt;a href="http://acmgis08.cs.umn.edu/"&gt;GIS&lt;/a&gt; e o &lt;a href="http://www.geo.unizh.ch/~rsp/gir08/"&gt;GIR&lt;/a&gt; (foco acadêmico) e &lt;a href="http://en.oreilly.com/where2009/"&gt;Where 2.0&lt;/a&gt; (foco comercial).&lt;br /&gt;&lt;br /&gt;Na web utilizem algumas destas palavras-chave (em inglês porque o conteúdo em português ainda é limitado):&lt;br /&gt;&lt;br /&gt;- &lt;a href="http://www.google.com.br/search?hl=pt-BR&amp;amp;q=Geographic+Information+Systems&amp;amp;btnG=Pesquisar&amp;amp;meta="&gt;Geographic Information Systems&lt;/a&gt;&lt;br /&gt;- &lt;a href="http://www.google.com.br/search?hl=pt-BR&amp;amp;q=Geographic+Information+Retrieval&amp;amp;btnG=Pesquisar&amp;amp;meta="&gt;Geographic Information Retrieval&lt;/a&gt;&lt;br /&gt;- &lt;a href="http://www.google.com.br/search?q=Geolocation&amp;amp;btnG=Pesquisar&amp;amp;meta="&gt;Geolocation&lt;/a&gt;&lt;br /&gt;- &lt;a href="http://www.google.com.br/search?q=Geotagging&amp;amp;btnG=Pesquisar&amp;amp;meta="&gt;Geotagging&lt;/a&gt;&lt;br /&gt;- &lt;a href="http://www.google.com.br/search?q=Geobrowsers&amp;amp;btnG=Pesquisar&amp;amp;meta="&gt;Geobrowsers&lt;/a&gt;&lt;br /&gt;- &lt;a href="http://www.google.com.br/search?q=Neogeography&amp;amp;btnG=Pesquisar&amp;amp;meta="&gt;Neogeography&lt;/a&gt;&lt;br /&gt;- &lt;a href="http://www.google.com.br/search?q=Geospatial+Web&amp;amp;btnG=Pesquisar&amp;amp;meta="&gt;Geospatial Web&lt;/a&gt;&lt;br /&gt;- &lt;a href="http://www.google.com.br/search?q=Geoweb&amp;amp;btnG=Pesquisar&amp;amp;meta="&gt;Geoweb&lt;/a&gt;&lt;br /&gt;- &lt;a href="http://www.google.com.br/search?q=Georeferencing&amp;amp;btnG=Pesquisar&amp;amp;meta="&gt;Georeferencing&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/1615961092471704308-1135370194276325676?l=miningtext.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://miningtext.blogspot.com/feeds/1135370194276325676/comments/default' title='Postar comentários'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=1615961092471704308&amp;postID=1135370194276325676' title='0 Comentários'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/1135370194276325676'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/1135370194276325676'/><link rel='alternate' type='text/html' href='http://miningtext.blogspot.com/2009/12/recuperacao-de-informacoes-geograficas_01.html' title='Recuperação de Informações Geográficas Parte 3 - por Cleber Gouvêa'/><author><name>Stanley Loh</name><uri>http://www.blogger.com/profile/03065680116154760826</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='31' height='32' src='http://3.bp.blogspot.com/_t1y-T1yvw50/SxVQ-hcRUiI/AAAAAAAAACQ/M7c9hoUC3ew/S220/Stanley+sozinho.jpg'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://1.bp.blogspot.com/_t1y-T1yvw50/SxUgzpsX4jI/AAAAAAAAACE/H_c0hBpk6wg/s72-c/imagem_gir4.png' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-1615961092471704308.post-3193743293384184648</id><published>2009-12-01T11:51:00.005-02:00</published><updated>2009-12-01T15:25:14.817-02:00</updated><title type='text'>Recuperação de Informações Geográficas Parte 2 - por Cleber Gouvêa</title><content type='html'>Conforme ilustrou o post anterior, como na web não há nativamente mecanismos para a identificação do contexto geográfico das informações, a &lt;a href="http://en.wikipedia.org/wiki/Geographic_Information_Retrieval"&gt;Recuperação de Informações Geográficas&lt;/a&gt; (RIG), área surgida a partir da demanda por uma pesquisa integrada entre os Sistemas de Informação Geográfica e a Recuperação de Informações tradicional[1] tem sido alvo de intensa pesquisa, podendo integrar-se também a outras áreas específicas.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href="http://2.bp.blogspot.com/_t1y-T1yvw50/SxUgQM6yDrI/AAAAAAAAAB8/xQzJtiztvmg/s1600/imagem_gir3.png"&gt;&lt;img style="TEXT-ALIGN: center; MARGIN: 0px auto 10px; WIDTH: 370px; DISPLAY: block; HEIGHT: 237px; CURSOR: hand" id="BLOGGER_PHOTO_ID_5410265990073290418" border="0" alt="" src="http://2.bp.blogspot.com/_t1y-T1yvw50/SxUgQM6yDrI/AAAAAAAAAB8/xQzJtiztvmg/s400/imagem_gir3.png" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;Figura Áreas Relacionadas à RIG&lt;br /&gt;Fonte: &lt;a href="https://dspace.ist.utl.pt/bitstream/2295/154018/1/GeographicalR.ppt"&gt;https://dspace.ist.utl.pt/bitstream/2295/154018/1/GeographicalR.ppt&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;O foco central é lidar com todos os problemas da Recuperação de Informações que envolvam algum tipo de consciência espacial (&lt;em&gt;spatial awareness&lt;/em&gt;), ou seja, que incluam referências geográficas (georreferências), visando auxiliar dessa forma na identificação e recuperação das informações de acordo especificamente com seu contexto geográfico.&lt;br /&gt;&lt;br /&gt;O processo de identificação do contexto geográfico de textos é denominado de (&lt;a href="http://en.wikipedia.org/wiki/Geotagging"&gt;geotagging&lt;/a&gt; [2] e envolve duas etapas principais:&lt;br /&gt;&lt;br /&gt;Geo-Parsing - tem o objetivo de reconhecer as referências geográficas nos textos ignorando nomes de localidades que não possuam sentido geográfico (ex: nomes de pessoas com o mesmo nome de localidades).&lt;br /&gt;&lt;br /&gt;Geo-Coding - busca desambiguar as localidades recuperadas, ou seja, associar cada localidade a apenas uma única localização geográfica (&lt;em&gt;footprint&lt;/em&gt;). Como os textos podem possuir mais que uma localidade desambiguada torna-se necessário também definir algoritmos de ranqueamento específicos visando qualificar as localidades de acordo com o seu grau de associação com o texto.&lt;br /&gt;&lt;br /&gt;Para viabilizar a execução destas etapas os dois principais componentes utilizados são:&lt;br /&gt;&lt;br /&gt;&lt;a href="http://en.wikipedia.org/wiki/Gazetteer"&gt;Gazetteer&lt;/a&gt; / Ontologia Geográfica - Os quais buscam representar e estruturar os relacionamento semânticos entre as localidades, incluindo também outros detalhes relacionados a elas (ex: coordenadas geográficas, e outras entidades que auxiliem nos processos de georreferenciamento). Dependendo da complexidade da sua estrutura podem ser simples dicionários geográficos (gazetteers) ou complexas ontologias geográficas.&lt;br /&gt;&lt;br /&gt;Índice Espacial - O qual tem o objetivo de auxiliar no processo de recuperação de informações geográficas representando as informações georreferenciadas. Associam dessa forma os documentos às localidades representadas por eles, podendo utilizar também algum algoritmo de relevância para qualificar esse relacionamento. O objetivo é permitir com isso a recuperação de documentos de acordo com a sua relevância para determinada localidade(relevância spacial) utilizando os mesmos princípios da recuperação de informação tradicional (que utiliza, no entanto a relevância temática).&lt;br /&gt;&lt;br /&gt;Como os topônimos (ex: cidades, países, etc.) conseguem identificar precisamente determinada região espacial eles têm sido priorizados para a identificação do contexto geográfico dos textos. Esse processo denominado de Resolução de Topônimos [3] traz, contudo desafios específicos já que principalmente do ponto de vista linguístico um topônimo pode possuir variados tipos de ambiguidade. Essas ambiguidades são divididas habitualmente em [2]:&lt;br /&gt;&lt;br /&gt;Ambiguidade Geo/Não-Geo - quando uma localidade possui ambiguidade com outro tipo de entidade não-geográfica (ex: São Paulo cidade e São Paulo time de futebol).&lt;br /&gt;&lt;br /&gt;Ambiguidade Geo/Geo - ocorre quando uma localidade possui ambiguidade com outro tipo de localidade (homonímia), por ex: Belém (no Pará) e Belém (na Paraíba) ou mesmo ambiguidade entre cidades/estados por ex: Rio de Janeiro (cidade) e Rio de Janeiro (estado). Outra ambiguidade desse tipo é quando uma localidade pode ser identificada por meio de outras definições (sinonímia), ex: Rio de Janeiro e "Cidade Maravilhosa" ou "Rio".&lt;br /&gt;&lt;br /&gt;As técnicas utilizadas para a Resolução de Topônimos são apresentadas no próximo post.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Referências&lt;/strong&gt;&lt;br /&gt;&lt;br /&gt;1. Larson, R.R., Geographical information retrieval and spatial browsing. Geographical Information Systems and Libraries: Patrons, Maps, and Spatial Information. pp. 81-124. 1996.&lt;br /&gt;&lt;br /&gt;2. Amitay E., Har’el N., Sivan R., Soffer A., Web-a-where: Geotagging Web Content. In Proceedings of the 27th SIGIR, pages 273–280, 2004.&lt;br /&gt;&lt;br /&gt;3. Leidner J. L., Toponym Resolution in Text - Annotation, Evaluation and Applications of Spatial Grounding of Place Names. Edinburgh: Institute for Communicating and Collaborative Systems, 287p. 2007 (Tese, Doutorado em Ciências da Comunicação).&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/1615961092471704308-3193743293384184648?l=miningtext.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://miningtext.blogspot.com/feeds/3193743293384184648/comments/default' title='Postar comentários'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=1615961092471704308&amp;postID=3193743293384184648' title='0 Comentários'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/3193743293384184648'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/3193743293384184648'/><link rel='alternate' type='text/html' href='http://miningtext.blogspot.com/2009/12/recuperacao-de-informacoes-geograficas.html' title='Recuperação de Informações Geográficas Parte 2 - por Cleber Gouvêa'/><author><name>Stanley Loh</name><uri>http://www.blogger.com/profile/03065680116154760826</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='31' height='32' src='http://3.bp.blogspot.com/_t1y-T1yvw50/SxVQ-hcRUiI/AAAAAAAAACQ/M7c9hoUC3ew/S220/Stanley+sozinho.jpg'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://2.bp.blogspot.com/_t1y-T1yvw50/SxUgQM6yDrI/AAAAAAAAAB8/xQzJtiztvmg/s72-c/imagem_gir3.png' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-1615961092471704308.post-6889011334757233957</id><published>2009-03-02T15:48:00.010-03:00</published><updated>2009-03-02T16:35:40.656-03:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='geographical information retrieval'/><category scheme='http://www.blogger.com/atom/ns#' term='geographical information'/><category scheme='http://www.blogger.com/atom/ns#' term='georss'/><category scheme='http://www.blogger.com/atom/ns#' term='geoinfo'/><title type='text'>Recuperação de Informações Geográficas Parte I - por Cleber Gouvêa</title><content type='html'>Parte I: Contribuição do Cleber Gouvêa com revisão de Stanley Loh:&lt;br /&gt;&lt;br /&gt;A internet como um &lt;a href="http://www.brockerhoff.net/bb/viewtopic.php?t=10"&gt;mundo de pontas&lt;/a&gt; e a web, sua progênie mais famosa, compartilham características e ao mesmo tempo desafios importantes relacionados ao acesso às informações.&lt;br /&gt;Grande parte das consultas na web tem o foco geográfico [1] e com isso serviços que recuperam e analisam informações geográficas tem aproveitado a grande quantidade desse tipo de informação na web tornando-se assim parte importante da vida de milhões de pessoas.&lt;br /&gt;&lt;br /&gt;Para viabilizar o acesso e permitir a estruturação de informações geográficas, formatos específicos tem sido criados com a ajuda da OGC (Open Geospatial Consortium), sendo que os dois principais já reconhecidos são o &lt;a href="http://georss.org/"&gt;GeoRSS&lt;/a&gt; e o &lt;a href="http://www.blogger.com/code.google.com/apis/kml/documentation/"&gt;KML&lt;/a&gt;.&lt;br /&gt;&lt;br /&gt;Com o suporte dos geobrowsers (&lt;a href="http://maps.google.com/"&gt;Google Maps&lt;/a&gt;, &lt;a href="http://maps.live.com/"&gt;Live Local&lt;/a&gt;, &lt;a href="http://maps.yahoo.com/"&gt;Yahoo Maps&lt;/a&gt;) a esses arquivos e com a possibilidade da sobreposição das informações diretamente nos mapas, estes formatos tem sido apontados como núcleo da Web Semântica Geoespacial[2] (definida por &lt;cite&gt;Max J. Egenhofer&lt;/cite&gt;) a qual tem por "objetivo a definição semântica e a consequente viabilização do consumo de informações geográficas".&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href="http://2.bp.blogspot.com/_t1y-T1yvw50/Sawr87YsjbI/AAAAAAAAABk/IyUaTXc5bw0/s1600-h/imagem_gir1.png"&gt;&lt;img id="BLOGGER_PHOTO_ID_5308666386496392626" style="WIDTH: 342px; CURSOR: hand; HEIGHT: 66px" alt="" src="http://2.bp.blogspot.com/_t1y-T1yvw50/Sawr87YsjbI/AAAAAAAAABk/IyUaTXc5bw0/s400/imagem_gir1.png" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Novo Desafio para os sistemas de busca &lt;/strong&gt;&lt;br /&gt;&lt;br /&gt;Naturalmente que as possibilidades da identificação do contexto geográfico das informações não se restringem aos geobrowsers. Dispositivos móveis com acesso a web e integrados com serviços de geo-localização (ex: GPS) podem realmente levar os motores de busca na web para uma terceira geração [3] (alguém já pensou em desambiguar e consequentemente direcionar as informações de acordo com a localidade do usuário?), o &lt;a href="http://code.google.com/intl/pt-BR/android/"&gt;Google Android&lt;/a&gt;, o &lt;a href="http://www.t-mobileg1.com/"&gt;G1&lt;/a&gt; e as &lt;a href="http://programmableweb.com/"&gt;APIs semânticas&lt;/a&gt; estão aí...&lt;br /&gt;&lt;br /&gt;Informações mobile-like ultrapassam assim em relevância as acessíveis através de nossos desktops. A consideração do contexto (temporal, local) do usuário torna-se, portanto um &lt;a href="http://googlebrasilblog.blogspot.com/2008/09/o-futuro-da-pesquisa.html"&gt;fator crucial para aumentar a importância e a facilidade da pesquisa no futuro&lt;/a&gt;.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href="http://1.bp.blogspot.com/_t1y-T1yvw50/SawsQxPL4zI/AAAAAAAAABs/dohUYIbWQJU/s1600-h/imagem_gir2.png"&gt;&lt;img id="BLOGGER_PHOTO_ID_5308666727369532210" style="WIDTH: 400px; CURSOR: hand; HEIGHT: 73px" alt="" src="http://1.bp.blogspot.com/_t1y-T1yvw50/SawsQxPL4zI/AAAAAAAAABs/dohUYIbWQJU/s400/imagem_gir2.png" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;blockquote&gt;“Onde quer que você esteja ou vá, obtenha informações relevantes à sua localização.”&lt;/blockquote&gt;&lt;br /&gt;&lt;strong&gt;RSS X GeoRSS&lt;/strong&gt;&lt;br /&gt;&lt;br /&gt;Se fizermos uma pesquisa entre os principais portais e blogs do mundo veremos uma alta adoção do formato RSS ou Atom para a estruturação das informações e uma pequena ou talvez ínfima utilização de GeoRSS ou KML. Por quê ?&lt;br /&gt;Infelizmente a anotação semântica de informações geográficas é um processo dispendioso, mesmo com o buzz da colaboração na web. O fato é que muitas vezes para o resposável pelo conteúdo pode ser inviável essa anotação particular das informações. Métodos automáticos estão consequentemente ganhando popularidade.&lt;br /&gt;&lt;br /&gt;Nesse sentido as &lt;a href="http://www.readwriteweb.com/archives/the_top-down_semantic_web.php"&gt;estratégias top-down&lt;/a&gt;, ou seja o reconhecimento do contexto geográfico dos textos (processo definido como geotagging) utilizando pra isso métodos automáticos têm se apresentado como os mais viáveis.&lt;br /&gt;&lt;br /&gt;O processo de geotagging é estudado pela RIG (Recuperação de Informações Geográficas), a qual será o foco do próximo post.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Referências&lt;/strong&gt;&lt;br /&gt;&lt;br /&gt;1. Sanderson M., Kohler J. Analyzing geographic queries. In SIGIR Workshop on GIR, 2004.&lt;br /&gt;2. Egenhofer, M. J., Toward the Semantic Geospatial Web. National Center for Geographic Information and Analysis. Department of Spatial Information Science and Engineering. Department of Computer Science. Main. 2002.&lt;br /&gt;3. Andrei Broder, “The Next Generation Web Search and the Demise of the Classic IR model “, ECIR 2007, Roma, Itália, Abril 2007.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/1615961092471704308-6889011334757233957?l=miningtext.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://miningtext.blogspot.com/feeds/6889011334757233957/comments/default' title='Postar comentários'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=1615961092471704308&amp;postID=6889011334757233957' title='2 Comentários'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/6889011334757233957'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/6889011334757233957'/><link rel='alternate' type='text/html' href='http://miningtext.blogspot.com/2009/03/recuperacao-de-informacoes-geograficas.html' title='Recuperação de Informações Geográficas Parte I - por Cleber Gouvêa'/><author><name>Stanley Loh</name><uri>http://www.blogger.com/profile/03065680116154760826</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='31' height='32' src='http://3.bp.blogspot.com/_t1y-T1yvw50/SxVQ-hcRUiI/AAAAAAAAACQ/M7c9hoUC3ew/S220/Stanley+sozinho.jpg'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://2.bp.blogspot.com/_t1y-T1yvw50/Sawr87YsjbI/AAAAAAAAABk/IyUaTXc5bw0/s72-c/imagem_gir1.png' height='72' width='72'/><thr:total>2</thr:total></entry><entry><id>tag:blogger.com,1999:blog-1615961092471704308.post-1567699365976153847</id><published>2008-11-26T10:28:00.004-02:00</published><updated>2009-03-17T17:35:01.508-03:00</updated><title type='text'>Listas de stopwords - stoplist (portugues, ingles, espanhol)</title><content type='html'>Palavras muito frequentes e com pouco significado (tais como artigos, preposições, algumas conjunções), geralmente são desconsideradas nas minerações de texto.&lt;br /&gt;&lt;br /&gt;Neste link há 3 &lt;a href="http://paginas.ucpel.tche.br/~loh/stoplists.zip"&gt;listas de stopwords ou stoplists&lt;/a&gt;: para Português, Inglês e Espanhol.&lt;br /&gt;&lt;br /&gt;As listas foram criadas com base em análises estatísticas de vários autores.&lt;br /&gt;Portanto, talvez precisem ser calibradas para diferentes aplicações.&lt;br /&gt;Um exemplo de calibragem: se você está minerando textos sobre casos médicos, é possível que palavras como "médico", "paciente" e "doença" apareçam em todos os textos. Estas palavras poderiam então ser acrescentadas na lista de stopwords para serem desconsideradas das análises.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/1615961092471704308-1567699365976153847?l=miningtext.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://miningtext.blogspot.com/feeds/1567699365976153847/comments/default' title='Postar comentários'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=1615961092471704308&amp;postID=1567699365976153847' title='2 Comentários'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/1567699365976153847'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/1567699365976153847'/><link rel='alternate' type='text/html' href='http://miningtext.blogspot.com/2008/11/listas-de-stopwords-stoplist-portugues.html' title='Listas de stopwords - stoplist (portugues, ingles, espanhol)'/><author><name>Stanley Loh</name><uri>http://www.blogger.com/profile/03065680116154760826</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='31' height='32' src='http://3.bp.blogspot.com/_t1y-T1yvw50/SxVQ-hcRUiI/AAAAAAAAACQ/M7c9hoUC3ew/S220/Stanley+sozinho.jpg'/></author><thr:total>2</thr:total></entry><entry><id>tag:blogger.com,1999:blog-1615961092471704308.post-2313998174205364197</id><published>2008-11-25T16:30:00.001-02:00</published><updated>2009-06-16T18:01:58.549-03:00</updated><title type='text'>Stemming e Análise Sintática</title><content type='html'>Aqui vão duas dicas de sistemas online que podem ajudar em processos de preparação de textos:&lt;br /&gt;&lt;br /&gt;- Stemming: é um processo de reduzir palavras a seus radicais&lt;br /&gt;(exemplo: casamento ==&gt; cas, carro ==&gt; carr).&lt;br /&gt;Isto permite encontrar mais textos sobre um mesmo assunto sem precisar usar variações linguísticas (plurais, aumentativo, masculino/feminino).&lt;br /&gt;Siga o link para utilizar um serviço online de &lt;a href="http://gpsi.ucpel.tche.br/~cleber/evandro/stemming/stem.php"&gt;stemming para a língua portuguesa&lt;/a&gt;&lt;br /&gt;(link alternativo = &lt;a href="http://gpsi.ucpel.tche.br/~evandro/stemming/stem.php"&gt;http://gpsi.ucpel.tche.br/~evandro/stemming/stem.php&lt;/a&gt;).&lt;br /&gt;&lt;br /&gt;- Análise Sintática: é um processo de quebrar textos em partes (parser), analisando as relações entre as palavras (sujeito, verbo, complemento, etc) e tb inclui análise léxico-morfológica (função da palavra na frase, tipo adjetivo, substantivo, etc.)&lt;br /&gt;Siga o link para utilizar um serviço online de &lt;a href="http://visl.sdu.dk/visl/pt/parsing/automatic/"&gt;análise sintática para o português&lt;/a&gt;.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/1615961092471704308-2313998174205364197?l=miningtext.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://miningtext.blogspot.com/feeds/2313998174205364197/comments/default' title='Postar comentários'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=1615961092471704308&amp;postID=2313998174205364197' title='2 Comentários'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/2313998174205364197'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/2313998174205364197'/><link rel='alternate' type='text/html' href='http://miningtext.blogspot.com/2008/11/stemming-e-anlise-sinttica.html' title='Stemming e Análise Sintática'/><author><name>Stanley Loh</name><uri>http://www.blogger.com/profile/03065680116154760826</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='31' height='32' src='http://3.bp.blogspot.com/_t1y-T1yvw50/SxVQ-hcRUiI/AAAAAAAAACQ/M7c9hoUC3ew/S220/Stanley+sozinho.jpg'/></author><thr:total>2</thr:total></entry><entry><id>tag:blogger.com,1999:blog-1615961092471704308.post-711599103291200595</id><published>2008-11-25T14:51:00.001-02:00</published><updated>2009-03-17T17:32:05.119-03:00</updated><title type='text'>Text Mining e Information Retrieval (IR) - e outras áreas relacionadas</title><content type='html'>Text Mining é uma evolução (ou uma especialização) da área de Information Retrieval - IR.&lt;br /&gt;IR está relacionada a processos de encontrar fontes de informações, ou seja, documentos ou textos que podem contar a informação desejada. Veja neste link mais detalhes sobre técnicas de &lt;a href="http://paginas.ucpel.tche.br/~loh/ex-qual.pdf"&gt;Information Retrieval &lt;/a&gt;(incluindo técnicas de indexação, modelos de match e tipos de organizações de arquivos e índices).&lt;br /&gt;Outra área relacionada é a Information Extraction (Extração de Informações), cujo objetivo é extrair dados a partir de textos (encontrar valores para atributos). Por exemplo, num texto que fale sobre uma pessoa, encontrar seu nome, endereço, idade, sexo, etc.&lt;br /&gt;Também há relações de Text Mining com as seguintes áreas:&lt;br /&gt;- Resumos de textos (sumarização)&lt;br /&gt;- &lt;a href="http://paginas.ucpel.tche.br/~loh/buscaweb.pdf"&gt;Busca de Informações na Web&lt;/a&gt;&lt;br /&gt;- além é claro de &lt;a href="http://paginas.ucpel.tche.br/~loh/dm-ppt.pdf"&gt;Data Mining&lt;/a&gt;.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/1615961092471704308-711599103291200595?l=miningtext.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://miningtext.blogspot.com/feeds/711599103291200595/comments/default' title='Postar comentários'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=1615961092471704308&amp;postID=711599103291200595' title='2 Comentários'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/711599103291200595'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/711599103291200595'/><link rel='alternate' type='text/html' href='http://miningtext.blogspot.com/2008/11/text-mining-e-information-retrieval-ir.html' title='Text Mining e Information Retrieval (IR) - e outras áreas relacionadas'/><author><name>Stanley Loh</name><uri>http://www.blogger.com/profile/03065680116154760826</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='31' height='32' src='http://3.bp.blogspot.com/_t1y-T1yvw50/SxVQ-hcRUiI/AAAAAAAAACQ/M7c9hoUC3ew/S220/Stanley+sozinho.jpg'/></author><thr:total>2</thr:total></entry><entry><id>tag:blogger.com,1999:blog-1615961092471704308.post-8695874407355326864</id><published>2008-11-25T13:34:00.000-02:00</published><updated>2008-11-25T16:39:19.900-02:00</updated><title type='text'>Exemplo de Text Mining (análise de textos)</title><content type='html'>&lt;a href="http://3.bp.blogspot.com/_t1y-T1yvw50/SSwdm6ldpNI/AAAAAAAAAA0/5XI59rAOLTg/s1600-h/tag+cloud+discurso+2003.jpg"&gt;&lt;img id="BLOGGER_PHOTO_ID_5272621818142631122" style="DISPLAY: block; MARGIN: 0px auto 10px; WIDTH: 400px; CURSOR: hand; HEIGHT: 215px; TEXT-ALIGN: center" alt="" src="http://3.bp.blogspot.com/_t1y-T1yvw50/SSwdm6ldpNI/AAAAAAAAAA0/5XI59rAOLTg/s400/tag+cloud+discurso+2003.jpg" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;div&gt;&lt;a href="http://4.bp.blogspot.com/_t1y-T1yvw50/SSwdiJHV0fI/AAAAAAAAAAs/vNy3h7qt3Pg/s1600-h/tag+cloud+discurso+2007.jpg"&gt;&lt;img id="BLOGGER_PHOTO_ID_5272621736143475186" style="DISPLAY: block; MARGIN: 0px auto 10px; WIDTH: 400px; CURSOR: hand; HEIGHT: 187px; TEXT-ALIGN: center" alt="" src="http://4.bp.blogspot.com/_t1y-T1yvw50/SSwdiJHV0fI/AAAAAAAAAAs/vNy3h7qt3Pg/s400/tag+cloud+discurso+2007.jpg" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;div&gt;&lt;div&gt;&lt;div&gt;&lt;a href="http://1.bp.blogspot.com/_t1y-T1yvw50/SSwdJbDZhbI/AAAAAAAAAAk/gdmpZDyJHUs/s1600-h/tag+cloud+discurso+2007.jpg"&gt;&lt;/a&gt;&lt;a href="http://1.bp.blogspot.com/_t1y-T1yvw50/SSwdJbDZhbI/AAAAAAAAAAk/gdmpZDyJHUs/s1600-h/tag+cloud+discurso+2007.jpg"&gt;&lt;/a&gt;Este é um exemplo de análise utilizando ferramentas de Text Mining. A análise foi feita sobre palavras. &lt;/div&gt;&lt;div&gt;&lt;br /&gt;&lt;/div&gt;&lt;div&gt;Foram comparados os discursos de posse do Presidente Lula (2003 x 2007). &lt;/div&gt;&lt;div&gt;&lt;br /&gt;&lt;/div&gt;&lt;div&gt;As minerações dos textos foram feitas utilizando o software &lt;a href="http://www.intext.com.br/produtos-desc.php?id_produto=1"&gt;Text Mining Suite &lt;/a&gt;da empresa &lt;a href="http://www.intext.com.br/"&gt;InText Mining Ltda&lt;/a&gt;.&lt;/div&gt;&lt;div&gt;&lt;br /&gt;&lt;/div&gt;&lt;div&gt;As Tag Clouds foram criadas com a ferramenta &lt;a href="http://www.wordle.net/"&gt;http://www.wordle.net/&lt;/a&gt;&lt;/div&gt;&lt;div&gt;&lt;/div&gt;&lt;div&gt;&lt;/div&gt;&lt;div&gt;A 1a Tag Cloud é referente ao Discurso de 2003 e a 2a Tag Cloud refere-se ao discurso de 2007.&lt;/div&gt;&lt;div&gt;&lt;/div&gt;&lt;div&gt;&lt;/div&gt;&lt;div&gt;Abaixo, segue a lista das principais palavras (mais frequentes) utilizadas em ambos os discursos (comuns aos 2 discursos). Ao lado da palavra, a frequência relativa dela no texto.&lt;/div&gt;&lt;div&gt;&lt;/div&gt;&lt;div&gt;mais 0,01364&lt;/div&gt;&lt;div&gt;brasil 0,01190&lt;/div&gt;&lt;div&gt;país 0,01066&lt;/div&gt;&lt;div&gt;ser 0,00570&lt;/div&gt;&lt;div&gt;desenvolvimento 0,00570&lt;/div&gt;&lt;div&gt;mundo 0,00546&lt;/div&gt;&lt;div&gt;governo 0,00546&lt;/div&gt;&lt;div&gt;povo 0,00545&lt;/div&gt;&lt;div&gt;social 0,00545&lt;/div&gt;&lt;div&gt;hoje 0,00521&lt;/div&gt;&lt;div&gt;nacional 0,00520&lt;/div&gt;&lt;div&gt;política 0,00496&lt;/div&gt;&lt;div&gt;crescimento 0,00422&lt;/div&gt;&lt;div&gt;vamos 0,00397&lt;/div&gt;&lt;div&gt;fome 0,00396&lt;/div&gt;&lt;div&gt;anos 0,00348&lt;/div&gt;&lt;div&gt;nação 0,00347&lt;/div&gt;&lt;div&gt;bem 0,00273&lt;/div&gt;&lt;div&gt;brasileiro 0,00272&lt;/div&gt;&lt;div&gt;políticas 0,00248&lt;/div&gt;&lt;div&gt;energia 0,00248&lt;/div&gt;&lt;div&gt;milhões 0,00248&lt;/div&gt;&lt;div&gt;vida 0,00248&lt;/div&gt;&lt;div&gt;projeto 0,00248&lt;/div&gt;&lt;div&gt;sul 0,00248&lt;/div&gt;&lt;div&gt;brasileiros 0,00248&lt;/div&gt;&lt;div&gt;investimento 0,00224&lt;/div&gt;&lt;div&gt;igual 0,00224&lt;/div&gt;&lt;div&gt;educação 0,00224&lt;/div&gt;&lt;div&gt;qualidade 0,00224&lt;/div&gt;&lt;div&gt;sou 0,00224&lt;/div&gt;&lt;div&gt;capaz 0,00223&lt;/div&gt;&lt;div&gt;renda 0,00223&lt;/div&gt;&lt;div&gt;deus 0,00223&lt;/div&gt;&lt;div&gt;dar 0,00223&lt;/div&gt;&lt;div&gt;brasileira 0,00223&lt;/div&gt;&lt;div&gt;mudar 0,00223&lt;/div&gt;&lt;div&gt;mudança 0,00223&lt;/div&gt;&lt;div&gt;segurança 0,00223&lt;/div&gt;&lt;div&gt;novo 0,00223&lt;/div&gt;&lt;div&gt;maior 0,00223&lt;/div&gt;&lt;div&gt;acesso 0,00199&lt;/div&gt;&lt;div&gt;forma 0,00198&lt;/div&gt;&lt;div&gt;trabalho 0,00198&lt;/div&gt;&lt;div&gt;sociedade 0,00198&lt;/div&gt;&lt;div&gt;países 0,00198&lt;/div&gt;&lt;div&gt;dia 0,00198&lt;/div&gt;&lt;div&gt;reforma 0,00198&lt;/div&gt;&lt;div&gt;econômico 0,00198&lt;/div&gt;&lt;div&gt;novos 0,00174&lt;/div&gt;&lt;div&gt;setores 0,00174&lt;/div&gt;&lt;div&gt;instituições 0,00174&lt;/div&gt;&lt;div&gt;popular 0,00174&lt;/div&gt;&lt;div&gt;instrumento 0,00174&lt;/div&gt;&lt;div&gt;tempo 0,00174&lt;/div&gt;&lt;div&gt;pública 0,00174&lt;/div&gt;&lt;div&gt;estados 0,00174&lt;/div&gt;&lt;div&gt;presidente 0,00173&lt;/div&gt;&lt;div&gt;internacional 0,00173&lt;/div&gt;&lt;div&gt;meio 0,00173&lt;/div&gt;&lt;div&gt;momento 0,00173&lt;/div&gt;&lt;div&gt;criar 0,00173&lt;/div&gt;&lt;div&gt;&lt;/div&gt;&lt;div&gt;&lt;br /&gt;Abaixo segue a lista das principais palavras exclusivas do discurso de 2003 (ou seja, que aparecem somente no Discurso de 2003).&lt;br /&gt;&lt;/div&gt;&lt;div&gt;tragam 0,00300&lt;/div&gt;&lt;div&gt;américa 0,00300&lt;/div&gt;&lt;div&gt;venceu 0,00250&lt;/div&gt;&lt;div&gt;tantas 0,00250&lt;/div&gt;&lt;div&gt;capacidade 0,00250&lt;/div&gt;&lt;div&gt;riqueza 0,00250&lt;/div&gt;&lt;div&gt;exmo 0,00200&lt;/div&gt;&lt;div&gt;sr 0,00200&lt;/div&gt;&lt;div&gt;medo 0,00200&lt;/div&gt;&lt;div&gt;diante 0,00200&lt;/div&gt;&lt;div&gt;sabe 0,00200&lt;/div&gt;&lt;div&gt;terras 0,00200&lt;/div&gt;&lt;div&gt;pacto 0,00200&lt;/div&gt;&lt;div&gt;base 0,00200&lt;/div&gt;&lt;div&gt;srs 0,00150&lt;/div&gt;&lt;div&gt;modelo 0,00150&lt;/div&gt;&lt;div&gt;andar 0,00150&lt;/div&gt;&lt;div&gt;rio 0,00150&lt;/div&gt;&lt;div&gt;campo 0,00150&lt;/div&gt;&lt;div&gt;produtivo 0,00150&lt;/div&gt;&lt;div&gt;unidos 0,00150&lt;/div&gt;&lt;div&gt;vai 0,00150&lt;/div&gt;&lt;div&gt;conselho 0,00150&lt;/div&gt;&lt;div&gt;consigo 0,00150&lt;/div&gt;&lt;div&gt;contribuição 0,00150&lt;/div&gt;&lt;div&gt;humano 0,00150&lt;/div&gt;&lt;div&gt;desenvolvidos 0,00150&lt;/div&gt;&lt;div&gt;membros 0,00150&lt;/div&gt;&lt;div&gt;cultural 0,00150&lt;/div&gt;&lt;div&gt;coração 0,00150&lt;/div&gt;&lt;div&gt;amar 0,00150&lt;/div&gt;&lt;div&gt;&lt;/div&gt;&lt;div&gt;&lt;/div&gt;&lt;div&gt;&lt;/div&gt;&lt;div&gt;&lt;/div&gt;&lt;div&gt;&lt;/div&gt;&lt;div&gt;&lt;/div&gt;&lt;div&gt;Abaixo segue a lista das principais palavras exclusivas do discurso de 2007 (ou seja, que aparecem somente no Discurso de 2007).&lt;br /&gt;&lt;/div&gt;&lt;div&gt;diferente 0,00500&lt;/div&gt;&lt;div&gt;melhor 0,00450&lt;/div&gt;&lt;div&gt;deu 0,00350&lt;/div&gt;&lt;div&gt;expansão 0,00300&lt;/div&gt;&lt;div&gt;projetos 0,00300&lt;/div&gt;&lt;div&gt;pedi 0,00300&lt;/div&gt;&lt;div&gt;precisamos 0,00250&lt;/div&gt;&lt;div&gt;opção 0,00250&lt;/div&gt;&lt;div&gt;tenho 0,00200&lt;/div&gt;&lt;div&gt;novas 0,00200&lt;/div&gt;&lt;div&gt;cidadania 0,00200&lt;/div&gt;&lt;div&gt;desafio 0,00200&lt;/div&gt;&lt;div&gt;pessoas 0,00200&lt;/div&gt;&lt;div&gt;programas 0,00200&lt;/div&gt;&lt;div&gt;área 0,00200&lt;/div&gt;&lt;div&gt;atrás 0,00150&lt;/div&gt;&lt;div&gt;parte 0,00150&lt;/div&gt;&lt;div&gt;primeira 0,00150&lt;/div&gt;&lt;div&gt;alto 0,00150&lt;/div&gt;&lt;div&gt;difícil 0,00150&lt;/div&gt;&lt;div&gt;consumo 0,00150&lt;/div&gt;&lt;div&gt;distribuição 0,00150&lt;/div&gt;&lt;div&gt;problemas 0,00150&lt;/div&gt;&lt;div&gt;interesses 0,00150&lt;/div&gt;&lt;div&gt;escolha 0,00150&lt;/div&gt;&lt;div&gt;consolidar 0,00150&lt;/div&gt;&lt;div&gt;voz 0,00150&lt;/div&gt;&lt;div&gt;segundo 0,00150&lt;/div&gt;&lt;div&gt;dificuldades 0,00150&lt;/div&gt;&lt;div&gt;privado 0,00150&lt;/div&gt;&lt;div&gt;capazes 0,00150&lt;/div&gt;&lt;div&gt;medidas 0,00150&lt;/div&gt;&lt;div&gt;dez 0,00150&lt;/div&gt;&lt;div&gt;empresas 0,00150&lt;/div&gt;&lt;div&gt;inovação 0,00150&lt;/div&gt;&lt;div&gt;universidade 0,00150&lt;/div&gt;&lt;div&gt;formação 0,00150&lt;/div&gt;&lt;div&gt;fortalecimento 0,00150&lt;/div&gt;&lt;div&gt;sistema 0,00150&lt;/div&gt;&lt;div&gt;resolver 0,00150&lt;/div&gt;&lt;div&gt;exige 0,00150&lt;br /&gt;&lt;br /&gt;&lt;/div&gt;&lt;p&gt;&lt;/p&gt;&lt;div&gt;&lt;br /&gt;Uma aplicação semelhante mas analisando os debates das eleições presidenciais nos Estados Unidos (ano de 2008) pode ser encontrada em &lt;a href="http://mkweb.bcgsc.ca/debates/"&gt;http://mkweb.bcgsc.ca/debates/&lt;/a&gt; (dica do Luis Fernando Garcia).&lt;/div&gt;&lt;div&gt; &lt;/div&gt;&lt;div&gt;&lt;/div&gt;&lt;/div&gt;&lt;/div&gt;&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/1615961092471704308-8695874407355326864?l=miningtext.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://miningtext.blogspot.com/feeds/8695874407355326864/comments/default' title='Postar comentários'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=1615961092471704308&amp;postID=8695874407355326864' title='3 Comentários'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/8695874407355326864'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/8695874407355326864'/><link rel='alternate' type='text/html' href='http://miningtext.blogspot.com/2008/11/exemplo-de-text-mining-anlise-de-textos.html' title='Exemplo de Text Mining (análise de textos)'/><author><name>Stanley Loh</name><uri>http://www.blogger.com/profile/03065680116154760826</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='31' height='32' src='http://3.bp.blogspot.com/_t1y-T1yvw50/SxVQ-hcRUiI/AAAAAAAAACQ/M7c9hoUC3ew/S220/Stanley+sozinho.jpg'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://3.bp.blogspot.com/_t1y-T1yvw50/SSwdm6ldpNI/AAAAAAAAAA0/5XI59rAOLTg/s72-c/tag+cloud+discurso+2003.jpg' height='72' width='72'/><thr:total>3</thr:total></entry><entry><id>tag:blogger.com,1999:blog-1615961092471704308.post-7286945640086372789</id><published>2008-11-25T13:21:00.001-02:00</published><updated>2009-03-17T17:34:38.820-03:00</updated><title type='text'>Técnicas de Text Mining</title><content type='html'>Nos links abaixo, podem ser encontradas descrições detalhadas sobre técnicas de Text Mining.&lt;br /&gt;&lt;br /&gt;&lt;a href="http://paginas.ucpel.tche.br/~loh/tm-tutor.pdf"&gt;Text Mining – tutorial de técnicas&lt;/a&gt;&lt;br /&gt;&lt;a href="http://paginas.ucpel.tche.br/~loh/tm-aplicacoes.zip"&gt;Text Mining – exemplos de aplicações&lt;/a&gt;&lt;br /&gt;&lt;a href="http://paginas.ucpel.tche.br/~loh/kdt_resu.htm"&gt;Text Mining - Descoberta de Conhecimento em Textos (resumo)&lt;/a&gt;&lt;br /&gt;&lt;a href="http://paginas.ucpel.tche.br/~loh/kdt_comp.htm"&gt;Text Mining - Descoberta de Conhecimento em Textos (completo)&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;ou&lt;br /&gt;&lt;br /&gt;&lt;a href="http://www.ulbra.tche.br/~loh/tm-tutor.pdf"&gt;Text Mining – tutorial de técnicas&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www.ulbra.tche.br/~loh/tm-aplicacoes.zip"&gt;Text Mining – exemplos de aplicações&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www.ulbra.tche.br/~loh/kdt_resu.htm"&gt;Text Mining - Descoberta de Conhecimento em Textos (resumo)&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www.ulbra.tche.br/~loh/kdt_comp.htm"&gt;Text Mining - Descoberta de Conhecimento em Textos (completo)&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/1615961092471704308-7286945640086372789?l=miningtext.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://miningtext.blogspot.com/feeds/7286945640086372789/comments/default' title='Postar comentários'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=1615961092471704308&amp;postID=7286945640086372789' title='0 Comentários'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/7286945640086372789'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/7286945640086372789'/><link rel='alternate' type='text/html' href='http://miningtext.blogspot.com/2008/11/tcnicas-de-text-mining.html' title='Técnicas de Text Mining'/><author><name>Stanley Loh</name><uri>http://www.blogger.com/profile/03065680116154760826</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='31' height='32' src='http://3.bp.blogspot.com/_t1y-T1yvw50/SxVQ-hcRUiI/AAAAAAAAACQ/M7c9hoUC3ew/S220/Stanley+sozinho.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-1615961092471704308.post-1624547976600325967</id><published>2008-11-25T13:12:00.000-02:00</published><updated>2008-11-25T13:21:47.273-02:00</updated><title type='text'>Definição de Text Mining</title><content type='html'>Text Mining ou Mineração de Textos ou Descoberta de Conhecimento em Textos (KDT) é um processo de análise de textos, geralmente utilizando técnicas estatísticas, para encontrar informações ou conhecimentos implícitos em textos.&lt;br /&gt;O termo é derivado de Data Mining (Descoberta de Conhecimento em Bancos de Dados - KDD). A diferença é que em Data Mining as técnicas de mineração são aplicadas sobre dados estruturados (células de planilhas ou linhas/colunas de tabelas), enquanto que Text Mining aplica técnicas de mineração sobre dados em formato de textos (dados não-estruturados).&lt;br /&gt;As informações que podem ser mineradas estão codificadas nos textos através da chamada linguagem natural (livre, irrestrita, não padronizada).&lt;br /&gt;A grande dificuldade do processo de Text Mining é justamente aplicar técnicas sobre características ou informações textuais, sendo que estão são representadas por palavras.&lt;br /&gt;Palavras geram problemas de compreensão (ambiguidades, polisemias, sinonímias, contexto, etc.).&lt;br /&gt;O processo de Text Mining pode ser aplicado sobre palavras, mas sem muita precisão. O ideal é identifiar informações (significados ou conceitos) nas palavras e então aplicar as técnicas de mineração sobre estas informações (processo em duas etapas).&lt;br /&gt;Este tipo de abordagem é melhor explicado no artigo "&lt;a href="http://portal.acm.org/citation.cfm?doid=360402.360414"&gt;Concept-based knowledge discovery in texts extracted from the Web&lt;/a&gt;".  As citações deste artigo podem ser encontradas &lt;a href="http://scholar.google.com.br/scholar?hl=pt-BR&amp;amp;lr=&amp;amp;cites=6204445595077405676"&gt;aqui&lt;/a&gt;.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/1615961092471704308-1624547976600325967?l=miningtext.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://miningtext.blogspot.com/feeds/1624547976600325967/comments/default' title='Postar comentários'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=1615961092471704308&amp;postID=1624547976600325967' title='1 Comentários'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/1624547976600325967'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/1624547976600325967'/><link rel='alternate' type='text/html' href='http://miningtext.blogspot.com/2008/11/definio-de-text-mining.html' title='Definição de Text Mining'/><author><name>Stanley Loh</name><uri>http://www.blogger.com/profile/03065680116154760826</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='31' height='32' src='http://3.bp.blogspot.com/_t1y-T1yvw50/SxVQ-hcRUiI/AAAAAAAAACQ/M7c9hoUC3ew/S220/Stanley+sozinho.jpg'/></author><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-1615961092471704308.post-1729106404586449215</id><published>2008-11-25T10:51:00.001-02:00</published><updated>2008-11-25T10:52:46.151-02:00</updated><title type='text'>Início do blog</title><content type='html'>Este é o início do blog "Mining Text", que tratará de assuntos relativos a Text Mining (Mineração de Textos).&lt;br /&gt;A idéia é apresentar e discutir técnicas, ferramentas e aplicações de Text Mining.&lt;br /&gt;Começamos indicando o site da &lt;a href="http://www.intext.com.br/"&gt;InText Mining e suas ferramentas.&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/1615961092471704308-1729106404586449215?l=miningtext.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://miningtext.blogspot.com/feeds/1729106404586449215/comments/default' title='Postar comentários'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=1615961092471704308&amp;postID=1729106404586449215' title='0 Comentários'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/1729106404586449215'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/1615961092471704308/posts/default/1729106404586449215'/><link rel='alternate' type='text/html' href='http://miningtext.blogspot.com/2008/11/incio-do-blog.html' title='Início do blog'/><author><name>Stanley Loh</name><uri>http://www.blogger.com/profile/03065680116154760826</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='31' height='32' src='http://3.bp.blogspot.com/_t1y-T1yvw50/SxVQ-hcRUiI/AAAAAAAAACQ/M7c9hoUC3ew/S220/Stanley+sozinho.jpg'/></author><thr:total>0</thr:total></entry></feed>
