Liardetector: a linguistic-based approach for identifying fake news

Almeida, Thais Gomes de

Liardetector: a linguistic-based approach for identifying fake news

dc.contributor.advisor-co1	Nakamura, Fabiola Guerra
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/9615041048900531	por
dc.contributor.advisor1	Nakamura, Eduardo Freire
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/1448696292042915	por
dc.contributor.referee1	Silva, Altigran Soares da
dc.contributor.referee1Lattes	http://lattes.cnpq.br/3405503472010994	por
dc.contributor.referee2	Freire, Juliana
dc.creator	Almeida, Thais Gomes de
dc.creator.Lattes	http://lattes.cnpq.br/5141073637181801	por
dc.date.issued	2019-04-18
dc.description.abstract	Due to the existing Web infrastructure and the popularity of social media platforms, it is easy to share information in large scale. Although this online scenario brings benefits to the society, it also favors malicious groups that propagate misinformation (e.g., alternative facts, fake news) on the Web, causing damages that range from affecting the reputation of public entities (companies, celebrities) to interfering on political process. In this work, we propose a novel classification approach based on linguistic patterns for identifying fake news. Our approach reduces the dimensionality of the feature space by encoding probability distributions of tokens (e.g., words) as Shannon entropy and Jensen-Shannon divergence values. We report experimental results using multiple data sets, which show that our approach is a win-win solution that improves efficacy and efficiency. Compared to the baseline, our approach uses four orders of magnitude less features, and achieve a gain up to 74.3% of F1-score.	eng
dc.description.info	Fiz mestrado sanduíche na Universidade de Nova Iorque	por
dc.description.resumo	Devido à infraestrutura da Web existente e à popularidade das plataformas de mídia sociais, é fácil compartilhar informações de forma massiva. Embora esse cenário online traga benefícios para a sociedade, ele também favorece que grupos maliciosos propaguem desinformação (notícias falsas) na Web, causando danos que vão desde afetar a reputação de entidades públicas (empresas, celebridades) a interferir em processos políticos. Neste trabalho, propomos uma nova abordagem de classificação baseada em padrões linguísticos para identificar notícias falsas. Tal abordagem reduz a dimensionalidade do espaço de características ao codificar distribuições de probabilidade de tokens (por exemplo, palavras) como valores de divergência e entropia. Nós descrevemos resultados experimentais, usando vários conjuntos de dados, que mostram que nossa abordagem é uma solução que melhora tanto a eficácia, quanto eficiência de modelos de aprendizagem. Em comparação com o \textit{baseline}, nossa abordagem usa quatro ordens de magnitude menos atributos e obtém um ganho de até 74,3% de eficácia (Medida-F).	por
dc.description.sponsorship	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior	por
dc.format	application/pdf	*
dc.identifier.citation	ALMEIDA, Thais Gomes de. Liardetector: a linguistic-based approach for identifying fake news. 2019. 86 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2019.	por
dc.identifier.uri	https://tede.ufam.edu.br/handle/tede/7686
dc.language	eng	por
dc.publisher	Universidade Federal do Amazonas	por
dc.publisher.country	Brasil	por
dc.publisher.department	Instituto de Computação	por
dc.publisher.initials	UFAM	por
dc.publisher.program	Programa de Pós-graduação em Informática	por
dc.rights	Acesso Aberto	por
dc.subject	Fake news	por
dc.subject	Aprendizado de máquina	por
dc.subject.cnpq	CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO	por
dc.subject.user	Notícias falsas	por
dc.subject.user	Classificação	por
dc.subject.user	Representação de dados	por
dc.subject.user	Aprendizagem supervisionada	por
dc.thumbnail.url	https://tede.ufam.edu.br//retrieve/37432/Disserta%c3%a7%c3%a3o_ThaisAlmeida_PPGI.pdf.jpg	*
dc.title	Liardetector: a linguistic-based approach for identifying fake news	por
dc.title.alternative	Liardetector: uma abordagem baseada em aspectos linguísticos para identificar notícias falsas	por
dc.type	Dissertação	por