terça-feira, 25 de novembro de 2008

Definição de Text Mining

Text Mining ou Mineração de Textos ou Descoberta de Conhecimento em Textos (KDT) é um processo de análise de textos, geralmente utilizando técnicas estatísticas, para encontrar informações ou conhecimentos implícitos em textos.
O termo é derivado de Data Mining (Descoberta de Conhecimento em Bancos de Dados - KDD). A diferença é que em Data Mining as técnicas de mineração são aplicadas sobre dados estruturados (células de planilhas ou linhas/colunas de tabelas), enquanto que Text Mining aplica técnicas de mineração sobre dados em formato de textos (dados não-estruturados).
As informações que podem ser mineradas estão codificadas nos textos através da chamada linguagem natural (livre, irrestrita, não padronizada).
A grande dificuldade do processo de Text Mining é justamente aplicar técnicas sobre características ou informações textuais, sendo que estão são representadas por palavras.
Palavras geram problemas de compreensão (ambiguidades, polisemias, sinonímias, contexto, etc.).
O processo de Text Mining pode ser aplicado sobre palavras, mas sem muita precisão. O ideal é identifiar informações (significados ou conceitos) nas palavras e então aplicar as técnicas de mineração sobre estas informações (processo em duas etapas).
Este tipo de abordagem é melhor explicado no artigo "Concept-based knowledge discovery in texts extracted from the Web". As citações deste artigo podem ser encontradas aqui.

Um comentário:

Jogador disse...

Olá Stanley,

Muito bom o seu blog.

Você citou seu artigo "Concept-based knowledge discovery in texts extracted from the Web", porém, ao clicar no link fui direcionado para o portal ACM, e o acesso ao artigo é restrito.

Você poderia disponibilizar este artigo aqui no blog ou em algum outro lugar acessível?

Obrigado,

Daniel