Text Mining ou Mineração de Textos ou Descoberta de Conhecimento em Textos (KDT) é um processo de análise de textos, geralmente utilizando técnicas estatísticas, para encontrar informações ou conhecimentos implícitos em textos.
O termo é derivado de Data Mining (Descoberta de Conhecimento em Bancos de Dados - KDD). A diferença é que em Data Mining as técnicas de mineração são aplicadas sobre dados estruturados (células de planilhas ou linhas/colunas de tabelas), enquanto que Text Mining aplica técnicas de mineração sobre dados em formato de textos (dados não-estruturados).
As informações que podem ser mineradas estão codificadas nos textos através da chamada linguagem natural (livre, irrestrita, não padronizada).
A grande dificuldade do processo de Text Mining é justamente aplicar técnicas sobre características ou informações textuais, sendo que estão são representadas por palavras.
Palavras geram problemas de compreensão (ambiguidades, polisemias, sinonímias, contexto, etc.).
O processo de Text Mining pode ser aplicado sobre palavras, mas sem muita precisão. O ideal é identifiar informações (significados ou conceitos) nas palavras e então aplicar as técnicas de mineração sobre estas informações (processo em duas etapas).
Este tipo de abordagem é melhor explicado no artigo "Concept-based knowledge discovery in texts extracted from the Web". As citações deste artigo podem ser encontradas aqui.
terça-feira, 25 de novembro de 2008
Assinar:
Postar comentários (Atom)
Um comentário:
Olá Stanley,
Muito bom o seu blog.
Você citou seu artigo "Concept-based knowledge discovery in texts extracted from the Web", porém, ao clicar no link fui direcionado para o portal ACM, e o acesso ao artigo é restrito.
Você poderia disponibilizar este artigo aqui no blog ou em algum outro lugar acessível?
Obrigado,
Daniel
Postar um comentário