terça-feira, 1 de dezembro de 2009

Recuperação de Informações Geográficas Parte 2 - por Cleber Gouvêa

Conforme ilustrou o post anterior, como na web não há nativamente mecanismos para a identificação do contexto geográfico das informações, a Recuperação de Informações Geográficas (RIG), área surgida a partir da demanda por uma pesquisa integrada entre os Sistemas de Informação Geográfica e a Recuperação de Informações tradicional[1] tem sido alvo de intensa pesquisa, podendo integrar-se também a outras áreas específicas.




Figura Áreas Relacionadas à RIG
Fonte: https://dspace.ist.utl.pt/bitstream/2295/154018/1/GeographicalR.ppt

O foco central é lidar com todos os problemas da Recuperação de Informações que envolvam algum tipo de consciência espacial (spatial awareness), ou seja, que incluam referências geográficas (georreferências), visando auxiliar dessa forma na identificação e recuperação das informações de acordo especificamente com seu contexto geográfico.

O processo de identificação do contexto geográfico de textos é denominado de (geotagging [2] e envolve duas etapas principais:

Geo-Parsing - tem o objetivo de reconhecer as referências geográficas nos textos ignorando nomes de localidades que não possuam sentido geográfico (ex: nomes de pessoas com o mesmo nome de localidades).

Geo-Coding - busca desambiguar as localidades recuperadas, ou seja, associar cada localidade a apenas uma única localização geográfica (footprint). Como os textos podem possuir mais que uma localidade desambiguada torna-se necessário também definir algoritmos de ranqueamento específicos visando qualificar as localidades de acordo com o seu grau de associação com o texto.

Para viabilizar a execução destas etapas os dois principais componentes utilizados são:

Gazetteer / Ontologia Geográfica - Os quais buscam representar e estruturar os relacionamento semânticos entre as localidades, incluindo também outros detalhes relacionados a elas (ex: coordenadas geográficas, e outras entidades que auxiliem nos processos de georreferenciamento). Dependendo da complexidade da sua estrutura podem ser simples dicionários geográficos (gazetteers) ou complexas ontologias geográficas.

Índice Espacial - O qual tem o objetivo de auxiliar no processo de recuperação de informações geográficas representando as informações georreferenciadas. Associam dessa forma os documentos às localidades representadas por eles, podendo utilizar também algum algoritmo de relevância para qualificar esse relacionamento. O objetivo é permitir com isso a recuperação de documentos de acordo com a sua relevância para determinada localidade(relevância spacial) utilizando os mesmos princípios da recuperação de informação tradicional (que utiliza, no entanto a relevância temática).

Como os topônimos (ex: cidades, países, etc.) conseguem identificar precisamente determinada região espacial eles têm sido priorizados para a identificação do contexto geográfico dos textos. Esse processo denominado de Resolução de Topônimos [3] traz, contudo desafios específicos já que principalmente do ponto de vista linguístico um topônimo pode possuir variados tipos de ambiguidade. Essas ambiguidades são divididas habitualmente em [2]:

Ambiguidade Geo/Não-Geo - quando uma localidade possui ambiguidade com outro tipo de entidade não-geográfica (ex: São Paulo cidade e São Paulo time de futebol).

Ambiguidade Geo/Geo - ocorre quando uma localidade possui ambiguidade com outro tipo de localidade (homonímia), por ex: Belém (no Pará) e Belém (na Paraíba) ou mesmo ambiguidade entre cidades/estados por ex: Rio de Janeiro (cidade) e Rio de Janeiro (estado). Outra ambiguidade desse tipo é quando uma localidade pode ser identificada por meio de outras definições (sinonímia), ex: Rio de Janeiro e "Cidade Maravilhosa" ou "Rio".

As técnicas utilizadas para a Resolução de Topônimos são apresentadas no próximo post.

Referências

1. Larson, R.R., Geographical information retrieval and spatial browsing. Geographical Information Systems and Libraries: Patrons, Maps, and Spatial Information. pp. 81-124. 1996.

2. Amitay E., Har’el N., Sivan R., Soffer A., Web-a-where: Geotagging Web Content. In Proceedings of the 27th SIGIR, pages 273–280, 2004.

3. Leidner J. L., Toponym Resolution in Text - Annotation, Evaluation and Applications of Spatial Grounding of Place Names. Edinburgh: Institute for Communicating and Collaborative Systems, 287p. 2007 (Tese, Doutorado em Ciências da Comunicação).

Nenhum comentário: