terça-feira, 1 de dezembro de 2009

Erros ortográficos, qualidade de textos

Um dos entraves à mineração de textos são os erros encontrados em textos.
Todo processo de mineração envolve uma etapa inicial de preparação dos dados. Não é diferente no processo de Text Mining.

Certa vez estava tentando minerar prontuários médicos de pacientes numa clínica. Eram tantos erros que distorciam os resultados. Os médicos registravam as informações com muita rapidez, sem voltar para corrigir erros (já que o trabalho deles não é este). Corretores ortográficos poderiam ajudar, mas eram erros de digitação na maioria das vezes. Tivemos que criar uma ontologia (ou thesaurus) para agrupar palavras relacionadas a um mesmo conceito, incluindo ali os erros.

Em outro projeto, um sistema de recomendação para um chat, fizemos um corretor ortográfico simples, estatístico, baseado na Sabedoria das Massas (mais ou menos como o Google usa). Usando um algoritmo de similaridade entre palavras (a função de Edit Distance chamada Levenshtein), era possível comparar as palavras digitadas no chat com todas as já utilizadas em sessões anteriores. As mais similares eram levadas para análise; a grafia mais comum era considerada a correta. Tudo isto em real time.

Abaixo vão alguns textos interessantes sobre este assunto de erros em textos.

Text Data Quality: Mistakes and More
Posted by Seth Grimes
http://intelligent-enterprise.informationweek.com/blog/archives/2009/11/text_data_quali.html;jsessionid=H0RZQT5Q2UZKPQE1GHPSKHWATMY32JVN
Text Data Quality
by Seth Grimes
http://www.b-eye-network.com/channels/1394/view/12072

On Text Data Quality
Posted by Manya Mayes
http://blogs.sas.com/text-mining/index.php?/archives/48-On-Text-Data-Quality.html

5th Text Analytics Summit SAS and Teragram Workshop
by Manya Mayes
http://www.textanalyticsnews.com/usa/presentations/SASTeragramWorkshop.pdf

Nenhum comentário: