Uma abordagem para detectar relatórios de defeitos duplicados baseada em aprendizagem profunda

Rocha, Thiago Marques

Uma abordagem para detectar relatórios de defeitos duplicados baseada em aprendizagem profunda

dc.contributor.advisor1	Carvalho, André Luiz da Costa
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/4863447798119856	por
dc.contributor.advisor1orcid	https://orcid.org/0000-0002-7903-6705	por
dc.contributor.referee1	Colonna, Juan Gabriel
dc.contributor.referee1Lattes	http://lattes.cnpq.br/9535853909210803	por
dc.contributor.referee2	Giusti, Rafael
dc.contributor.referee2Lattes	http://lattes.cnpq.br/0613781010575440	por
dc.contributor.referee2orcid	https://orcid.org/0000-0002-1288-7126	por
dc.contributor.referee3	Marinho, Leandro Balby
dc.contributor.referee3Lattes	http://lattes.cnpq.br/3728312501032061	por
dc.creator	Rocha, Thiago Marques
dc.creator.Lattes	http://lattes.cnpq.br/2186173819661694	por
dc.creator.orcid	https://orcid.org/0000-0001-5083-2989	por
dc.date.issued	2020-08-31
dc.description.abstract	In large-scale software development environments, defect reports are maintained through bug tracking systems and analyzed by domain experts. Since different users may create bug reports in a non-standard manner, each user can report a particular problem with a unique set of words. Therefore, different reports may describe the same problem, generating duplication. In order to avoid redundant tasks for the development team, an expert needs to look at all new reports while trying to label possible duplicates. However, this approach is neither trivial nor scalable and has a direct impact on bug fix correction time. Recent efforts to find duplicate bug reports tend to focus on deep neural approaches that consider hybrid information from bug reports as textual and categorical features. However, these approaches ignore that a single bug can have multiple previously identified duplicates and, therefore, multiple textual descriptions, titles, and categorical information. In this work, we propose SiameseQAT, a duplicate bug report detection method that considers not only information on individual bugs, but also collective information from bug clusters. The SiameseQAT combines context and semantic learning on textual and categorical features, as also topic-based features, with a novel loss function called Quintet Loss, which considers the centroid of duplicate clusters and their contextual information. We validated our approach on the well-known open-source software repositories Eclipse, Netbeans, and Open Office, that comprises more than 500 thousand bug reports. We evaluated both retrieval and classification of duplicates, reporting a Recall@25 mean of 71% for retrieval, and 99% AUROC for classification tasks, results that were significantly superior to related works.	eng
dc.description.resumo	Em ambientes de desenvolvimento de software em larga escala, os relatórios de defeitos são mantidos por meio de sistemas de rastreamento de problemas e analisados por especialistas de domínio. Nesses sistemas, os usuários podem criar relatórios de defeitos de maneira despadronizada, ou seja, cada usuário pode relatar um problema específico com um conjunto exclusivo de palavras. Portanto, relatórios diferentes podem descrever o mesmo problema, gerando duplicação. Para evitar tarefas redundantes para a equipe de desenvolvimento, um especialista precisa examinar todos os novos relatórios enquanto rotula possíveis duplicatas. No entanto, essa abordagem não é trivial, nem escalável e impacta diretamente o tempo de correção dos defeitos. Esforços recentes para detectar relatórios de defeitos duplicados tendem a se concentrar em abordagens que utilizam redes neurais profundas que consideram as informações híbridas dos relatórios como recursos textuais e categóricos. Entretanto, essas abordagens ignoram que um único relatório pode ter várias duplicatas identificadas anteriormente e, portanto, várias descrições textuais, títulos e informações categóricas. Neste trabalho, propusemos o SiameseQAT, um método para detecção de relatórios de defeitos duplicados que considera não apenas informações sobre relatórios individuais, mas também informações coletivas de grupos de defeitos. O SiameseQAT combina aprendizado contextual e semântico com recursos textuais e categóricos, além de recursos baseados em extração de tópicos, utilizando a Quintet Loss uma nova função de perda introduzida por este trabalho, que considera o centroide de grupos duplicados e suas informações contextuais. Validamos nossa abordagem nos repositórios de software de código aberto Eclipse, Netbeans e Open Office, que incluem mais de 500 mil relatórios de defeitos. Avaliamos a recuperação e a classificação de duplicatas, relatando uma média de Recall@25 de 71% para recuperação e 99% de AUROC para tarefas de classificação, resultados superiores aos apresentados por trabalhos relacionados.	por
dc.format	application/pdf	*
dc.identifier.citation	ROCHA, Thiago Marques. Uma abordagem para detectar relatórios de defeitos duplicados baseada em aprendizagem profunda. 2020. 129 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2020.	por
dc.identifier.uri	https://tede.ufam.edu.br/handle/tede/7946
dc.language	por	por
dc.publisher	Universidade Federal do Amazonas	por
dc.publisher.country	Brasil	por
dc.publisher.department	Instituto de Computação	por
dc.publisher.initials	UFAM	por
dc.publisher.program	Programa de Pós-graduação em Informática	por
dc.rights	Acesso Aberto	por
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/
dc.subject	Aprendizagem profunda - Computação	por
dc.subject	Aprendizado do computador	por
dc.subject	Sistemas de rastreamento de problemas	por
dc.subject	Quintet Loss	eng
dc.subject	Relatórios de defeitos duplicados	por
dc.subject.cnpq	CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO	por
dc.subject.user	Relatórios de defeito duplicado	por
dc.subject.user	Aprendizagem profunda	por
dc.subject.user	Redes neurais profundas	por
dc.subject.user	Aprendizagem semântica baseada em contexto	por
dc.subject.user	Função de perda	por
dc.subject.user	Quinteto	por
dc.subject.user	Terceto	por
dc.subject.user	Mecanismo de atenção	por
dc.subject.user	BERT	por
dc.subject.user	MLP	por
dc.subject.user	LDA	por
dc.subject.user	Modelagem em tópicos	por
dc.thumbnail.url	https://tede.ufam.edu.br//retrieve/41010/Disserta%c3%a7%c3%a3o_ThiagoMarques_PPGI.pdf.jpg	*
dc.title	Uma abordagem para detectar relatórios de defeitos duplicados baseada em aprendizagem profunda	por
dc.type	Dissertação	por