terça-feira, 1 de dezembro de 2009

Recuperação de Informações Geográficas Parte 3 - por Cleber Gouvêa

Para viabilizar a Resolução de Topônimos torna-se necessário, portanto conforme ilustrou o post anterior identificar as localidades relacionadas nos textos para posteriormente desambiguá-las visando verificar o seu sentido correto. Para viabilizar isso são utilizadas técnicas de Processamento de Linguagem Natural (ex: REM ou WSD) as quais baseiam-se na verificação de evidências (ex: termos co-ocorrentes às localidades) que possam auxiliar na identificação do sentido das localidades. Para a resolução de cada tipo de ambiguidade são utilizadas evidências específicas.

Para a ambiguidade geo/não-geo são analisadas evidências (denominadas de expressões de contexto) que aparecem junto dos topônimos alvo (ex: "cidade de", "nos arredores de") que auxiliem na identificação de seu caráter geográfico. Já para a ambiguidade geo/geo torna-se necessário a verificação de entidades que auxiliem na identificação correta da posição geográfica da localidade, para isso as estratégias baseiam-se na identificação de evidências que representem o estado ou país relacionado a localidade a ser desambiguada, como ilustra o exemplo abaixo.

Exemplo Desambiguação Geo/Geo

Para a desambiguação geo/geo outra estratégia comum é a utilização de heurísticas (ex: considerar como sentido correto a localidade que possuir maior número de habitantes, ou a que representa alguma capital).

Para possibilitar a inferência dessas evidências nos textos estas são armazenadas em gazetteers, podendo ser incluídas nessas estruturas de forma manual (abordagem baseada em conhecimento) ou automaticamente (aprendizagem automática). O primeiro método depende de um especialista humano, já o segundo busca a obtenção automática dessas evidências utilizando pra isso análise de corpora previamente anotada.

A abordagem manual é útil apenas para domínios específicos (ex: para o georreferenciamento de textos de um conjunto limitado de informações ou linguagens específicas), para viabilizar a identificação de evidências em larga escala torna-se necessário, no entanto a utilização de métodos automáticos. Para serem viáveis estes devem, contudo serem simples e extensíveis, não necessitando de anotação de grandes quantidades de textos e também permitindo o suporte a variados tipos de idiomas, o que devido às características específicas das linguagens apresenta-se como um desafio importante.

Após a resolução dos topônimos encontrados nos textos estes podem ser representados com o auxílio dos gazetteers a partir de coordenadas geográficas, viabilizando assim todas as aplicações apresentadas no primeiro post.

Para a identificação das coordenadas geográficas relacionadas às localidades vários serviços de geo-codificação encontram-se disponíveis, dentre os principais estão o Geonames e a Yahoo Geo-Coding API.

Para mais informações sobre geotagging e os desafios envolvendo o georreferenciamento de textos os seguintes livros são importantes referências:

Georeferencing: The Geographic Associations of Information

The Geospatial Web

Há também várias conferências e workshops sobre o assunto, os principais são o GIS e o GIR (foco acadêmico) e Where 2.0 (foco comercial).

Na web utilizem algumas destas palavras-chave (em inglês porque o conteúdo em português ainda é limitado):

- Geographic Information Systems
- Geographic Information Retrieval
- Geolocation
- Geotagging
- Geobrowsers
- Neogeography
- Geospatial Web
- Geoweb
- Georeferencing

Nenhum comentário: