Uma abordagem para detectar relatórios de defeitos duplicados baseada em aprendizagem profunda

dc.contributor.advisor1Carvalho, André Luiz da Costa
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4863447798119856por
dc.contributor.advisor1orcidhttps://orcid.org/0000-0002-7903-6705por
dc.contributor.referee1Colonna, Juan Gabriel
dc.contributor.referee1Latteshttp://lattes.cnpq.br/9535853909210803por
dc.contributor.referee2Giusti, Rafael
dc.contributor.referee2Latteshttp://lattes.cnpq.br/0613781010575440por
dc.contributor.referee2orcidhttps://orcid.org/0000-0002-1288-7126por
dc.contributor.referee3Marinho, Leandro Balby
dc.contributor.referee3Latteshttp://lattes.cnpq.br/3728312501032061por
dc.creatorRocha, Thiago Marques
dc.creator.Latteshttp://lattes.cnpq.br/2186173819661694por
dc.creator.orcidhttps://orcid.org/0000-0001-5083-2989por
dc.date.issued2020-08-31
dc.description.abstractIn large-scale software development environments, defect reports are maintained through bug tracking systems and analyzed by domain experts. Since different users may create bug reports in a non-standard manner, each user can report a particular problem with a unique set of words. Therefore, different reports may describe the same problem, generating duplication. In order to avoid redundant tasks for the development team, an expert needs to look at all new reports while trying to label possible duplicates. However, this approach is neither trivial nor scalable and has a direct impact on bug fix correction time. Recent efforts to find duplicate bug reports tend to focus on deep neural approaches that consider hybrid information from bug reports as textual and categorical features. However, these approaches ignore that a single bug can have multiple previously identified duplicates and, therefore, multiple textual descriptions, titles, and categorical information. In this work, we propose SiameseQAT, a duplicate bug report detection method that considers not only information on individual bugs, but also collective information from bug clusters. The SiameseQAT combines context and semantic learning on textual and categorical features, as also topic-based features, with a novel loss function called Quintet Loss, which considers the centroid of duplicate clusters and their contextual information. We validated our approach on the well-known open-source software repositories Eclipse, Netbeans, and Open Office, that comprises more than 500 thousand bug reports. We evaluated both retrieval and classification of duplicates, reporting a Recall@25 mean of 71% for retrieval, and 99% AUROC for classification tasks, results that were significantly superior to related works.eng
dc.description.resumoEm ambientes de desenvolvimento de software em larga escala, os relatórios de defeitos são mantidos por meio de sistemas de rastreamento de problemas e analisados por especialistas de domínio. Nesses sistemas, os usuários podem criar relatórios de defeitos de maneira despadronizada, ou seja, cada usuário pode relatar um problema específico com um conjunto exclusivo de palavras. Portanto, relatórios diferentes podem descrever o mesmo problema, gerando duplicação. Para evitar tarefas redundantes para a equipe de desenvolvimento, um especialista precisa examinar todos os novos relatórios enquanto rotula possíveis duplicatas. No entanto, essa abordagem não é trivial, nem escalável e impacta diretamente o tempo de correção dos defeitos. Esforços recentes para detectar relatórios de defeitos duplicados tendem a se concentrar em abordagens que utilizam redes neurais profundas que consideram as informações híbridas dos relatórios como recursos textuais e categóricos. Entretanto, essas abordagens ignoram que um único relatório pode ter várias duplicatas identificadas anteriormente e, portanto, várias descrições textuais, títulos e informações categóricas. Neste trabalho, propusemos o SiameseQAT, um método para detecção de relatórios de defeitos duplicados que considera não apenas informações sobre relatórios individuais, mas também informações coletivas de grupos de defeitos. O SiameseQAT combina aprendizado contextual e semântico com recursos textuais e categóricos, além de recursos baseados em extração de tópicos, utilizando a Quintet Loss uma nova função de perda introduzida por este trabalho, que considera o centroide de grupos duplicados e suas informações contextuais. Validamos nossa abordagem nos repositórios de software de código aberto Eclipse, Netbeans e Open Office, que incluem mais de 500 mil relatórios de defeitos. Avaliamos a recuperação e a classificação de duplicatas, relatando uma média de Recall@25 de 71% para recuperação e 99% de AUROC para tarefas de classificação, resultados superiores aos apresentados por trabalhos relacionados.por
dc.formatapplication/pdf*
dc.identifier.citationROCHA, Thiago Marques. Uma abordagem para detectar relatórios de defeitos duplicados baseada em aprendizagem profunda. 2020. 129 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2020.por
dc.identifier.urihttps://tede.ufam.edu.br/handle/tede/7946
dc.languageporpor
dc.publisherUniversidade Federal do Amazonaspor
dc.publisher.countryBrasilpor
dc.publisher.departmentInstituto de Computaçãopor
dc.publisher.initialsUFAMpor
dc.publisher.programPrograma de Pós-graduação em Informáticapor
dc.rightsAcesso Abertopor
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subjectAprendizagem profunda - Computaçãopor
dc.subjectAprendizado do computadorpor
dc.subjectSistemas de rastreamento de problemaspor
dc.subjectQuintet Losseng
dc.subjectRelatórios de defeitos duplicadospor
dc.subject.cnpqCIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃOpor
dc.subject.userRelatórios de defeito duplicadopor
dc.subject.userAprendizagem profundapor
dc.subject.userRedes neurais profundaspor
dc.subject.userAprendizagem semântica baseada em contextopor
dc.subject.userFunção de perdapor
dc.subject.userQuintetopor
dc.subject.userTercetopor
dc.subject.userMecanismo de atençãopor
dc.subject.userBERTpor
dc.subject.userMLPpor
dc.subject.userLDApor
dc.subject.userModelagem em tópicospor
dc.thumbnail.urlhttps://tede.ufam.edu.br//retrieve/41010/Disserta%c3%a7%c3%a3o_ThiagoMarques_PPGI.pdf.jpg*
dc.titleUma abordagem para detectar relatórios de defeitos duplicados baseada em aprendizagem profundapor
dc.typeDissertaçãopor

Arquivos

Pacote original

Agora exibindo 1 - 3 de 3
Carregando...
Imagem de Miniatura
Nome:
Carta de Autorização de Encaminhamento.pdf
Tamanho:
39.06 KB
Formato:
Documentos internos
Descrição:
Carta de Encaminhamento
Carregando...
Imagem de Miniatura
Nome:
Dissertação_ThiagoMarques_PPGI.pdf
Tamanho:
2.61 MB
Formato:
Adobe Portable Document Format
Descrição:
Dissertação_ThiagoMarques_PPGI
Carregando...
Imagem de Miniatura
Nome:
360 Folha de Aprovação - Thiago Rocha - assinada.pdf
Tamanho:
781.49 KB
Formato:
Documentos internos
Descrição:
Folha de aprovação

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.32 KB
Formato:
Item-specific license agreed upon to submission
Descrição: