segunda-feira, 2 de março de 2009

Recuperação de Informações Geográficas Parte I - por Cleber Gouvêa

Parte I: Contribuição do Cleber Gouvêa com revisão de Stanley Loh:

A internet como um mundo de pontas e a web, sua progênie mais famosa, compartilham características e ao mesmo tempo desafios importantes relacionados ao acesso às informações.
Grande parte das consultas na web tem o foco geográfico [1] e com isso serviços que recuperam e analisam informações geográficas tem aproveitado a grande quantidade desse tipo de informação na web tornando-se assim parte importante da vida de milhões de pessoas.

Para viabilizar o acesso e permitir a estruturação de informações geográficas, formatos específicos tem sido criados com a ajuda da OGC (Open Geospatial Consortium), sendo que os dois principais já reconhecidos são o GeoRSS e o KML.

Com o suporte dos geobrowsers (Google Maps, Live Local, Yahoo Maps) a esses arquivos e com a possibilidade da sobreposição das informações diretamente nos mapas, estes formatos tem sido apontados como núcleo da Web Semântica Geoespacial[2] (definida por Max J. Egenhofer) a qual tem por "objetivo a definição semântica e a consequente viabilização do consumo de informações geográficas".





Novo Desafio para os sistemas de busca

Naturalmente que as possibilidades da identificação do contexto geográfico das informações não se restringem aos geobrowsers. Dispositivos móveis com acesso a web e integrados com serviços de geo-localização (ex: GPS) podem realmente levar os motores de busca na web para uma terceira geração [3] (alguém já pensou em desambiguar e consequentemente direcionar as informações de acordo com a localidade do usuário?), o Google Android, o G1 e as APIs semânticas estão aí...

Informações mobile-like ultrapassam assim em relevância as acessíveis através de nossos desktops. A consideração do contexto (temporal, local) do usuário torna-se, portanto um fator crucial para aumentar a importância e a facilidade da pesquisa no futuro.






“Onde quer que você esteja ou vá, obtenha informações relevantes à sua localização.”

RSS X GeoRSS

Se fizermos uma pesquisa entre os principais portais e blogs do mundo veremos uma alta adoção do formato RSS ou Atom para a estruturação das informações e uma pequena ou talvez ínfima utilização de GeoRSS ou KML. Por quê ?
Infelizmente a anotação semântica de informações geográficas é um processo dispendioso, mesmo com o buzz da colaboração na web. O fato é que muitas vezes para o resposável pelo conteúdo pode ser inviável essa anotação particular das informações. Métodos automáticos estão consequentemente ganhando popularidade.

Nesse sentido as estratégias top-down, ou seja o reconhecimento do contexto geográfico dos textos (processo definido como geotagging) utilizando pra isso métodos automáticos têm se apresentado como os mais viáveis.

O processo de geotagging é estudado pela RIG (Recuperação de Informações Geográficas), a qual será o foco do próximo post.

Referências

1. Sanderson M., Kohler J. Analyzing geographic queries. In SIGIR Workshop on GIR, 2004.
2. Egenhofer, M. J., Toward the Semantic Geospatial Web. National Center for Geographic Information and Analysis. Department of Spatial Information Science and Engineering. Department of Computer Science. Main. 2002.
3. Andrei Broder, “The Next Generation Web Search and the Demise of the Classic IR model “, ECIR 2007, Roma, Itália, Abril 2007.

2 comentários:

Jefferson disse...

Muito bom o seu blog. Estou fazendo meu projeto final da faculdade, implementando text mining e você já me ajudou muito.

Você conhece fontes de arquivos usados para o Text Mining? Stoplists, Sinonimos e etc.
Vlw!

Stanley Loh disse...

Jefferson, há um post antigo meu que tem link para lista de stopwords em português, inglês e espanhol.