Investigadora do INESC TEC conquista prémio em conferência internacional
Tratou-se de uma competição sobre o tratamento de tabelas em documentos pdf, tendo a investigadora vencido a sub-competição sobre localização de tabelas, tema que havia abordado na sua tese de Mestrado, supervisionada por Alípio Jorge e Luís Torgo, respetivamente coordenador e investigador do LIAAD. Este tema foi depois estendido ao longo da sua tese de doutoramento.
A investigadora destacou-se na competição por utilizar um método descendente para a localização de tabelas, ao contrário dos restantes participantes que apresentaram métodos ascendentes focando somente a informação contida na própria página. Pelo contrário, a investigadora desenvolveu um modelo para localizar, além das tabelas, elementos como gráficos, títulos, notas de rodapé, números de página, texto dividido em duas colunas. Isto porque todos estes elementos são facilmente confundidos como parte de uma tabela quando não se segue uma abordagem descendente. Utilizando este input, Ana Costa e Silva conseguiu melhorar a sua classificação de tabelas.
O objetivo da tese da investigadora era ensinar o computador não só a localizar, mas também a interpretar tabelas, tais como aquelas presentes em relatórios e contas, e a captar a informação aí contida diretamente para bases de dados, o que implica fazer corresponder o conteúdo da tabela e o conteúdo de taxonomias de contexto.
Este trabalho é útil para facilitar a leitura automática de tabelas em voz alta por um computador, facilitando a compreensão por invisuais. Os sistemas atuais leem estas tabelas linha a linha, como se de texto corrido se tratasse, ou coluna a coluna. Isto é vantajoso não só para entidades financeiras, fiscais e estatísticas, mas também para as seguradoras que diariamente recebem grandes volumes de liquidações médicas para processamento manual. O mesmo se aplica a empresas como a Boeing, que têm grandes manuais de instruções com tabelas e imagens que um computador não consegue ler. Finalmente, o processo de localização e interpretação de tabelas pode ainda facilitar a conversão de tabelas publicadas na Internet para sua facilitar a sua integração na Semantic Web.
Licenciada em Gestão pela Faculdade de Economia da Universidade do Porto (FEP), Ana Costa e Silva concluiu o seu mestrado em Análise de Dados e Sistemas de Apoio à Decisão na FEP, e o doutoramento em Inteligência Artificial na Universidade de Edimburgo, na Escócia.
Os investigadores com ligação ao INESC TEC referidos nesta notícia têm vínculo às seguintes entidades parceiras do Laboratório Associado: INESC Porto e FCUP.