Palavras muito frequentes e com pouco significado (tais como artigos, preposições, algumas conjunções), geralmente são desconsideradas nas minerações de texto.
Neste link há 3 listas de stopwords ou stoplists: para Português, Inglês e Espanhol.
As listas foram criadas com base em análises estatísticas de vários autores.
Portanto, talvez precisem ser calibradas para diferentes aplicações.
Um exemplo de calibragem: se você está minerando textos sobre casos médicos, é possível que palavras como "médico", "paciente" e "doença" apareçam em todos os textos. Estas palavras poderiam então ser acrescentadas na lista de stopwords para serem desconsideradas das análises.
Oi, Stanley
ResponderExcluirParabéns pelo blog. Espero que consiga tempo para fazer posts com mais frequência.
Apesar de não trabalhar com text mining, e só fazer essa cadeira mais na frente da pós de BI, gosto muito do que ela propõe e estou começando a fazer algum trabalho em torno do tema.
Como sugestão seria bacana se você descrevesse, se for possível, sobre situações que acontecem no dia-a-dia com o trabalho de text mining e não falo só de sucessos mas de dúvidas, contratempos e frustrações com ferramentas também.
abraços!
obrigado, Gevã, pelas sugestões.
ResponderExcluirVou tentar planejar um post deste tipo sugerido por ti.
Abraço.
Muito obrigado! Utilizei a lista na cadeira do Mestrado de Engenharia da Computação UEMA.
ResponderExcluirReuni-as com as palavras default da oracle e as de um projeto chamado snowball para formar uma stoplist para o TCE.
ResponderExcluirQuem sabe consigo fazer funcionar toda a pesquisa da biblioteca do TCE apenas com ferramentas nativas do oracle?