Blog do Stanley Loh: Listas de stopwords - stoplist (portugues, ingles, espanhol)

quarta-feira, 26 de novembro de 2008

Listas de stopwords - stoplist (portugues, ingles, espanhol)

Palavras muito frequentes e com pouco significado (tais como artigos, preposições, algumas conjunções), geralmente são desconsideradas nas minerações de texto.

Neste link há 3 listas de stopwords ou stoplists: para Português, Inglês e Espanhol.

As listas foram criadas com base em análises estatísticas de vários autores.
Portanto, talvez precisem ser calibradas para diferentes aplicações.
Um exemplo de calibragem: se você está minerando textos sobre casos médicos, é possível que palavras como "médico", "paciente" e "doença" apareçam em todos os textos. Estas palavras poderiam então ser acrescentadas na lista de stopwords para serem desconsideradas das análises.

4 comentários:

Gevã Schaefer disse...: Oi, Stanley

Parabéns pelo blog. Espero que consiga tempo para fazer posts com mais frequência.

Apesar de não trabalhar com text mining, e só fazer essa cadeira mais na frente da pós de BI, gosto muito do que ela propõe e estou começando a fazer algum trabalho em torno do tema.

Como sugestão seria bacana se você descrevesse, se for possível, sobre situações que acontecem no dia-a-dia com o trabalho de text mining e não falo só de sucessos mas de dúvidas, contratempos e frustrações com ferramentas também.

abraços!; 27 de dezembro de 2008 às 19:27
Stanley Loh disse...: obrigado, Gevã, pelas sugestões.
Vou tentar planejar um post deste tipo sugerido por ti.
Abraço.; 11 de março de 2009 às 15:53
Ribamar disse...: Muito obrigado! Utilizei a lista na cadeira do Mestrado de Engenharia da Computação UEMA.; 2 de maio de 2015 às 09:03
Ed.Londero disse...: Reuni-as com as palavras default da oracle e as de um projeto chamado snowball para formar uma stoplist para o TCE.
Quem sabe consigo fazer funcionar toda a pesquisa da biblioteca do TCE apenas com ferramentas nativas do oracle?; 25 de maio de 2016 às 14:53

Postar um comentário

Blog do Stanley Loh

quarta-feira, 26 de novembro de 2008

Listas de stopwords - stoplist (portugues, ingles, espanhol)

4 comentários:

Seguidores

Arquivo do blog

Quem sou eu