quarta-feira, 26 de novembro de 2008

Listas de stopwords - stoplist (portugues, ingles, espanhol)

Palavras muito frequentes e com pouco significado (tais como artigos, preposições, algumas conjunções), geralmente são desconsideradas nas minerações de texto.

Neste link há 3 listas de stopwords ou stoplists: para Português, Inglês e Espanhol.

As listas foram criadas com base em análises estatísticas de vários autores.
Portanto, talvez precisem ser calibradas para diferentes aplicações.
Um exemplo de calibragem: se você está minerando textos sobre casos médicos, é possível que palavras como "médico", "paciente" e "doença" apareçam em todos os textos. Estas palavras poderiam então ser acrescentadas na lista de stopwords para serem desconsideradas das análises.

4 comentários:

  1. Oi, Stanley

    Parabéns pelo blog. Espero que consiga tempo para fazer posts com mais frequência.

    Apesar de não trabalhar com text mining, e só fazer essa cadeira mais na frente da pós de BI, gosto muito do que ela propõe e estou começando a fazer algum trabalho em torno do tema.

    Como sugestão seria bacana se você descrevesse, se for possível, sobre situações que acontecem no dia-a-dia com o trabalho de text mining e não falo só de sucessos mas de dúvidas, contratempos e frustrações com ferramentas também.

    abraços!

    ResponderExcluir
  2. obrigado, Gevã, pelas sugestões.
    Vou tentar planejar um post deste tipo sugerido por ti.
    Abraço.

    ResponderExcluir
  3. Muito obrigado! Utilizei a lista na cadeira do Mestrado de Engenharia da Computação UEMA.

    ResponderExcluir
  4. Reuni-as com as palavras default da oracle e as de um projeto chamado snowball para formar uma stoplist para o TCE.
    Quem sabe consigo fazer funcionar toda a pesquisa da biblioteca do TCE apenas com ferramentas nativas do oracle?

    ResponderExcluir