Palavras muito frequentes e com pouco significado (tais como artigos, preposições, algumas conjunções), geralmente são desconsideradas nas minerações de texto.
Neste link há 3 listas de stopwords ou stoplists: para Português, Inglês e Espanhol.
As listas foram criadas com base em análises estatísticas de vários autores.
Portanto, talvez precisem ser calibradas para diferentes aplicações.
Um exemplo de calibragem: se você está minerando textos sobre casos médicos, é possível que palavras como "médico", "paciente" e "doença" apareçam em todos os textos. Estas palavras poderiam então ser acrescentadas na lista de stopwords para serem desconsideradas das análises.
quarta-feira, 26 de novembro de 2008
Assinar:
Postar comentários (Atom)
4 comentários:
Oi, Stanley
Parabéns pelo blog. Espero que consiga tempo para fazer posts com mais frequência.
Apesar de não trabalhar com text mining, e só fazer essa cadeira mais na frente da pós de BI, gosto muito do que ela propõe e estou começando a fazer algum trabalho em torno do tema.
Como sugestão seria bacana se você descrevesse, se for possível, sobre situações que acontecem no dia-a-dia com o trabalho de text mining e não falo só de sucessos mas de dúvidas, contratempos e frustrações com ferramentas também.
abraços!
obrigado, Gevã, pelas sugestões.
Vou tentar planejar um post deste tipo sugerido por ti.
Abraço.
Muito obrigado! Utilizei a lista na cadeira do Mestrado de Engenharia da Computação UEMA.
Reuni-as com as palavras default da oracle e as de um projeto chamado snowball para formar uma stoplist para o TCE.
Quem sabe consigo fazer funcionar toda a pesquisa da biblioteca do TCE apenas com ferramentas nativas do oracle?
Postar um comentário