Applying machine learning to relevance evidence fusion at indexing time

Resumo

O principal objetivo das máquinas de busca é produzir resultados de ranking de alta qualidade. Um aspecto importante das máquinas de busca modernas é o uso de um grande número de distintas fontes de evidência de relevância para construir um modelo de learning to rank (L2R). Essas evidências coletivamente ajudam a estimar se o documento é relevante ou não para a consulta. O ranking com os resultados da consulta é calculado por meio da fusão de todas as fontes de evidência em um único score do documento, para cada documento que compõe o ranking final. Nas últimas décadas vários trabalhos sobre fusão de evidências tem sido feito com a implementação de métodos de L2R. Os métodos de L2R usam exemplos de consultas com os seus respectivos resultados para treinar modelos de aprendizagem supervisionada que determinam a posição relativa do documento na lista final de resultados. Uma vez treinado, o modelo pode ser usado durante o processamento da consulta para determinar o ranking final. Esta abordagem, entretanto, inadvertidamente adiciona custos computacionais para o processamento da consulta, o que pode levar a uma queda no desempenho do tempo de processamento. Para mitigar este problema, foi proposto na literatura uma abordagem alternativa - Learning to Precompute Evidence Fusion (LePrEF), baseada em uma técnica de aprendizagem supervisionada com PG (Programação Genética). O modelo LePrEF propõe implementar a fusão de um conjunto de evidências em tempo de indexação, gerando um único índice invertido contendo entradas unificadas representando todas as fontes de evidências. Esses termos unificados são chamados de Unified Term Impacts (UTIs). Cada UTI substitui vários atributos por um único valor no índice de documentos, reduzindo assim o esforço para calcular os scores dos documentos em tempo de processamento da consulta porque o sistema busca e processa menos valores. A adoção de valores de UTI produz resultados de ranking competitivos. Entretanto, a ausência dos atributos que não estão disponíveis em tempo de consulta pode levar a uma perda de acurácia. Nesta tese estudamos e propomos uma modificação no LambdaMART, que passamos a chamar de UTI-LambdaMART, um algorítimo de gradiente boosting para gerar valores unificados de impactos do termo em tempo de indexação. Também, propomos e avaliamos um modelo híbrido que utiliza valores de UTI com atributos dependentes da consulta. Demonstramos que o nosso método híbrido por entregar resultados com alta qualidade, equivalente aos modelos neurais atuais estado da arte. Os resultados dos experimentos mostram que o nosso melhor modelo híbrido, HLambdaMART,alcança um NDCG@10 igual 0,495 usando apenas 36 atributos em tempo de processamento da consulta, enquanto o melhor baseline alcança 0,490 usando um conjunto maior de atributos em tempo de processamento da consulta. O uso do nosso framework híbrido reduz o tempo de execução do LambdaMART em cerca de 35% do tempo que seria executá-lo sem a nossa proposta. Adicionalmente, estudamos e propomos um método simples para obter ganhos significativos na compressão do índice de UTI sem perda na qualidade dos resultados das buscas. Nossa abordagem foi capaz de alcançar 79% de taxa de compressão do índice, enquanto manteve a qualidade dos resultados equivalentes aos métodos que não usam compressão. Conduzimos também experimentos demonstrando o uso do UTI-LambdaMART como um base ranker.

Descrição

Citação

SILVA, Sheila da Nóbrega. Applying machine learning to relevance evidence fusion at indexing time. 2020. 106 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus, 2020.

Avaliação

Revisão

Suplementado Por

Referenciado Por