Aspectos temporais da pesquisa de informação
Ao longo dos últimos anos a pesquisa de informação temporal tornou-se uma área de investigação bastante ativa levando ao aparecimento de inúmeras aplicações. Uma das primeiras foi o projeto Internet Archive[1] que tem por objetivo compilar várias versões dos websites, evitando assim o seu eventual desaparecimento. Muita investigação tem sido também desenvolvida, no uso da informação temporal, com o objetivo de melhorar os atuais sistemas de pesquisa, nomeadamente através de novas formas de visualizar os dados (e.g. Simile Timeline[2]), no acesso a bases de conhecimento espaço-temporais (e.g. Yago2[3]), no desenvolvimento de aplicações que seguem a evolução dos tópicos ao longo do tempo (e.g. Google nGram[4]) ou na disponibilização de ferramentas que tentam perspetivar o futuro (e.g. RecordedFuture[5]).
Não obstante estes desenvolvimentos, não é difícil encontrar exemplos onde os atuais sistemas de pesquisa retornam resultados de fraca qualidade devido a problemas de natureza temporal. De facto, na maioria dos casos, os sistemas limitam-se a oferecer ao utilizador a possibilidade de restringir a pesquisa a um determinado intervalo de tempo. Se o utilizador não for explícito nas suas intenções temporais, o sistema devolverá, muito provavelmente, a informação mais recente acerca do tópico. A maioria dos motores de busca disponibilizam também sugestões à medida que o utilizador vai escrevendo a sua pesquisa, no entanto são raros os casos em que essas sugestões incluem aspectos temporais. Permanecem por outro lado alheios ao facto de um tópico pesquisado poder ter várias dimensões dificultando assim a disponibilização de uma perspetiva histórica do tópico.
Os exemplos aqui descritos mostram que um motor de busca de cariz efetivamente temporal ainda se encontra por desenvolver. Um tal sistema deve oferecer ao utilizador uma perspectiva histórica da pesquisa disponibilizando a informação temporal mais relevante. Por exemplo, para a pesquisa “Eusébio” seria interessante mostrar um conjunto de clusters temporais (e.g. {1942, 1961, 1966, 2014}) capazes de sublinhar os períodos de tempo mais importantes do jogador recentemente falecido (data de nascimento, data em que se tornou profissional do Benfica, participação no mundial e a data do seu falecimento).
O tema da minha tese de doutoramento centra-se nesta perspetiva. O trabalho desenvolvido em conjunto com o Professor Alipio Jorge (LIAAD/INESC TEC) e o Professor Gaël Dias (Universidade de Caen Basse-Normandie) aborda conceitos tão diversos como a pesquisa de informação temporal, o entendimento das necessidades de informação do utilizador, a análise e o processamento de dados, a implementação de sistemas de informação, a análise estatística, entre outros, levando à cooperação entre pessoas de diferentes áreas. A ligação ao LIAAD/INESC TEC foi fundamental ao possibilitar a minha participação em várias conferências de prestígio internacional. No decurso do doutoramento, desenvolvemos também dois web services, GTE-Cluster[6] e o GTE-Rank[7]. Uma demo do primeiro foi recentemente aceite para apresentação no ECIR 2014 (36th European Conference on Information Retrieval).
Considero que fazer parte da equipa do LIAAD/INESC TEC continuará certamente a ser bastante importante no desenvolvimento de trabalhos futuros. Como recém-doutorado espero poder continuar a dar o meu contributo para o enriquecimento do LIAAD/INESC TEC.
Por Ricardo Campos, Colaborador no Laboratório de Inteligência Artificial e Apoio à Decisão (LIAAD)
[1] https://archive.org/
[2] http://www.simile-widgets.org/timeline/
[3] http://www.mpi-inf.mpg.de/yago-naga/yago/demo.html
[4] http://books.google.com/ngrams
[5] https://www.recordedfuture.com/
[6] http://wia.info.unicaen.fr/GTEAspNetFlatTempCluster_Server
[7] http://wia.info.unicaen.fr/GTERankAspNet_Server