Bayesian and neural ranking approaches for supporting schema references in keyword queries over relational databases

dc.contributor.advisor1Silva, Altigran Soares da
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/3405503472010994eng
dc.contributor.advisor1orcidhttps://orcid.org/0000-0002-8992-495Xeng
dc.contributor.referee1Almeida, Eduardo Cunha de
dc.contributor.referee2Moura, Edleno Silva
dc.contributor.referee3Cavalcanti, João Marcos Bastos
dc.contributor.referee4Silva, Johny Moreira da
dc.creatorMartins, Paulo Rodrigo Oliveira
dc.creator.Latteshttps://lattes.cnpq.br/5060411621848198eng
dc.creator.orcidhttps://orcid.org/0000-0003-3995-2167eng
dc.date.issued2024-08-16
dc.description.abstractRelational Keyword Search (R-KwS) systems enable naive/informal users to explore and retrieve information from relational databases without knowing schema details or query languages. These systems take the keywords from the input query, locate the elements of the target database that correspond to these keywords, and look for ways to “connect” these elements using information on referential integrity constraints, i.e., key/foreign key pairs. Although several such systems have been proposed in the literature, most of them only support queries whose keywords refer to the contents of the target database. Very few support queries in which keywords refer to elements of the database schema. In this work, we propose Lathe, a novel R-KwS designed to support such queries. To this end, we first generalize the well-known concepts of Query Matches (QMs) and Candidate Joining Networks (CJNs) to handle keywords referring to schema elements and propose new algorithms to generate them. Then, we introduce an approach to automatically select the CJNs that are more likely to represent the user intent when issuing a keyword query. Our key contributions are a novel Bayesian-based QM ranking algorithm that prioritizes relevant QMs, avoiding the processing of less likely answers, an effective Bayesian CJN ranking algorithm leveraging QM rankings to prioritize and evaluate relevant CJNs, an eager CJN evaluation strategy that discards spurious CJNs early, and a novel transformer-based neural approach for QM ranking and CJN ranking, leading to improved results on metrics such as recall and R@k. We present a comprehensive set of experiments performed with query sets and datasets previously used in experiments with state-of-the-art R-KwS systems and methods. Our results indicate that Lathe can handle a wider variety of keyword queries while remaining highly effective, even for large databases with intricate schemas. Additionally, we developed PyLatheDB, a Python library for Relational Keyword Search that implements Lathe.eng
dc.description.resumoSistemas de Busca por Palavra-Chave em Banco de Dados Relacional (R-KwS) permitem que usuários leigos ou informais explorem e recuperem informações de bancos de dados relacionais sem precisar conhecer detalhes do esquema ou linguagens de consulta. Esses sistemas utilizam as palavras-chave da consulta de entrada, localizam os elementos do banco de dados que correspondem a essas palavras-chave e buscam maneiras de “conectar” esses elementos usando informações sobre restrições de integridade referencial, isto é, o par chave/chave estrangeira. Embora vários desses sistemas tenham sido propostos na literatura, a maioria deles suporta apenas consultas cujas palavras-chave se referem ao conteúdo do banco de dados. Poucos sistemas oferecem suporte a consultas em que as palavras-chave se referem a elementos do esquema do banco de dados. Neste trabalho, propomos o Lathe, um novo R-KwS projetado para suportar esse tipo de consulta. Para isso, primeiro generalizamos os conceitos conhecidos de Query Matches (QMs) e Candidate Joining Networks (CJNs) para lidar com palavras-chave que se referem a elementos do esquema e propomos novos algoritmos para gerá-los. Em seguida, introduzimos uma abordagem para selecionar automaticamente as CJNs que têm maior probabilidade de representar a intenção do usuário ao fazer uma consulta por palavras-chave. Nossas principais contribuições incluem um novo algoritmo de ranqueamento de QMs bayesiano, que prioriza QMs relevantes, evitando o processamento de respostas menos prováveis; um algoritmo de ranqueamento de CJNs também bayesiano que utiliza o ranqueamento de QMs para priorizar e avaliar CJNs relevantes; uma estratégia de eager evaluation que descarta CJNs espúrias logo que são criadas; e uma nova abordagem neural baseada em transformers para ranqueamento de QMs e CJNs, resultando em melhorias em métricas como recall e R@k. Apresentamos um conjunto abrangente de experimentos realizados com conjuntos de consultas e dados previamente utilizados em experimentos com sistemas e métodos de R-KwS de última geração. Nossos resultados indicam que o Lathe é capaz de lidar com uma variedade maior de consultas por palavras-chave, mantendo-se altamente eficaz, mesmo para grandes bancos de dados com esquemas complexos. Além disso, desenvolvemos o PyLatheDB, uma biblioteca Python para Busca por Palavra-Chave em Banco de Dados Relacional que implementa o Lathe.eng
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superioreng
dc.formatapplication/pdf*
dc.identifier.citationMARTINS, Paulo Rodrigo Oliveira. Bayesian and neural ranking approaches for supporting schema references in keyword queries over relational databases. 2024. 112 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus, 2024.eng
dc.identifier.urihttps://tede.ufam.edu.br/handle/tede/10468
dc.languageengeng
dc.publisherUniversidade Federal do Amazonaseng
dc.publisher.countryBrasileng
dc.publisher.departmentInstituto de Computaçãoeng
dc.publisher.initialsUFAMeng
dc.publisher.programPrograma de Pós-graduação em Informáticaeng
dc.rightsAcesso Aberto
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectInformática - Banco de dadospor
dc.subjectBanco de dados relacionaispor
dc.subjectRecuperação da informaçãopor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAO: METODOLOGIA E TECNICAS DA COMPUTACAO: BANCO DE DADOSeng
dc.subject.userKeyword searcheng
dc.subject.userDatabase systemspor
dc.subject.userSchema mappingpor
dc.subject.userKeyword search over relation databasespor
dc.subject.userSchema graphpor
dc.thumbnail.urlhttps://tede.ufam.edu.br/retrieve/78859/Tese_PauloMartins_PPGI.pdf.jpg*
dc.titleBayesian and neural ranking approaches for supporting schema references in keyword queries over relational databaseseng
dc.title.alternativeAbordagens de ranqueamento bayesianas e neurais para suporte a referências de esquemas em consultas por palavra-chave sobre bancos de dados relacionaispor
dc.typeTeseeng

Arquivos

Pacote original

Agora exibindo 1 - 4 de 4
Carregando...
Imagem de Miniatura
Nome:
FolhaAprovação_PauloMartins_PPGI.pdf
Tamanho:
52.51 KB
Formato:
Documentos internos
Descrição:
Folha de aprovação
Carregando...
Imagem de Miniatura
Nome:
AtaDefesa_PauloMartins_PPGI.pdf
Tamanho:
61.7 KB
Formato:
Documentos internos
Descrição:
Ata de Defesa Pública
Carregando...
Imagem de Miniatura
Nome:
CartaOrientador_PauloMartins_PPGI.pdf
Tamanho:
290.83 KB
Formato:
Documentos internos
Descrição:
Carta de Encaminhamento para Autodepósito
Carregando...
Imagem de Miniatura
Nome:
Tese_PauloMartins_PPGI.pdf
Tamanho:
2.59 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.23 KB
Formato:
Item-specific license agreed upon to submission
Descrição: