quarta-feira, 26 de novembro de 2008

Listas de stopwords - stoplist (portugues, ingles, espanhol)

Palavras muito frequentes e com pouco significado (tais como artigos, preposições, algumas conjunções), geralmente são desconsideradas nas minerações de texto.

Neste link há 3 listas de stopwords ou stoplists: para Português, Inglês e Espanhol.

As listas foram criadas com base em análises estatísticas de vários autores.
Portanto, talvez precisem ser calibradas para diferentes aplicações.
Um exemplo de calibragem: se você está minerando textos sobre casos médicos, é possível que palavras como "médico", "paciente" e "doença" apareçam em todos os textos. Estas palavras poderiam então ser acrescentadas na lista de stopwords para serem desconsideradas das análises.

4 comentários:

Gevã Schaefer disse...

Oi, Stanley

Parabéns pelo blog. Espero que consiga tempo para fazer posts com mais frequência.

Apesar de não trabalhar com text mining, e só fazer essa cadeira mais na frente da pós de BI, gosto muito do que ela propõe e estou começando a fazer algum trabalho em torno do tema.

Como sugestão seria bacana se você descrevesse, se for possível, sobre situações que acontecem no dia-a-dia com o trabalho de text mining e não falo só de sucessos mas de dúvidas, contratempos e frustrações com ferramentas também.

abraços!

Stanley Loh disse...

obrigado, Gevã, pelas sugestões.
Vou tentar planejar um post deste tipo sugerido por ti.
Abraço.

Ribamar disse...

Muito obrigado! Utilizei a lista na cadeira do Mestrado de Engenharia da Computação UEMA.

Ed.Londero disse...

Reuni-as com as palavras default da oracle e as de um projeto chamado snowball para formar uma stoplist para o TCE.
Quem sabe consigo fazer funcionar toda a pesquisa da biblioteca do TCE apenas com ferramentas nativas do oracle?