Use este identificador para citar ou linkar para este item: http://repositorio.uem.br:8080/jspui/handle/1/5905
Autor(es): Portolese, Giuseppe
Orientador: Feltrim, Valéria Delisandra
Título: Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português
Banca: Domingues, Marcos Aurélio
Banca: Paetzold, Gustavo Henrique
Palavras-chave: Processamento da linguagem;Base de dados;Gêneros cinematográficos
Data do documento: 2019
Editor: Universidade Estadual de Maringá
Citação: PORTOLESE, Giuseppe. Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português. 2019. 99 f. Dissertação (mestrado em Ciência da Computação) - Universidade Estadual de Maringá, 2019, Maringá, PR.
Abstract: RESUMO: Devido ao progresso tecnológico observado recentemente e a disponibilidade de grandes quantidades de dados, a necessidade da classificação automática de mídias digitais tem aumentado pois em muitos casos uma anotação manual é inviável devido ao tamanho de bases de tais dados. A classificação multirrótulo, na qual cada instância contida na base estudada pode ser classificada com diversos rótulos não-exclusivos, já é uma área estudada na literatura atual com diversos estudos avaliando problemas como a classificação de gêneros cinematográficos, no qual é comum que características audiovisuais sejam utilizadas para rotular filmes em gêneros pré-estabelecidos. No entanto, a análise de sinopses ainda é uma área pouco explorada nesse domínio, com o problema específico do estudo de sinopses na língua portuguesa recebendo pouca atenção. Neste trabalho são apresentadas três novas bases de dados de sinopses em português, sendo uma delas extraída de uma base internacional de filmes e as demais derivadas por rebalanceamento. Um total de 85 experimentos são conduzidos avaliando o uso de características provenientes de 9 grupos distintos em conjunto com 4 classificadores multirrótulo presentes na literatura, explorando técnicas de fusão tardia e imediata em experimentos individuais e combinatoriais. Valores de medida-F de 0,478 para a base originalmente estudada, e 0,611 para bases derivadas por rebalanceamento são obtidos, mostrando que os métodos utilizados são condizentes com aqueles encontrados no estado da arte da literatura.
ABSTRACT: Due to the recent technological progress in recent years and to the availability of large data quantities, the need for the automatic classification of digital media has been increased as a result of the fact that a manual approach to such classification is unviable considering the size of such databases. Multi-label classification, in which each instance in a dataset can be classified as belonging to several non-exclusive labels is a domain that is already studied in the current literature, with several studies assessing the performance of tasks such as film genre classification, in which audiovisual features are commonly used to label films with a set of preestablished genres. Studies using approaches based on synopsis analysis are, however, much rarer in the current literature, with even fewer publications dedicated specifically to the study of Portuguese language synopses. In this work we present three new Portuguese language synopses datasets, with one of them extracted from an international movie database and the remaining two being resampled versions of the original one. A total of 85 experiments were conducted, assessing the performance of features from 9 different groups when used in combination with 4 multi-label classifiers, exploring early and late fusion techniques in individual and combinatorial experiments. Results from the conducted experiments present F-measure scores of up to 0,478 for the original dataset and 0,611 for the resampled datasets, demonstrating that the implemented methods have similar performance to those found in the state of the art of the movie genre classification task.
Descrição: Orientadora: Profª. Drª. Valéria Delisandra Feltrim
Dissertação (mestrado em Ciência da Computação) - Universidade Estadual de Maringá, 2019
URI: http://repositorio.uem.br:8080/jspui/handle/1/5905
Aparece nas coleções:2.4 Dissertação - Ciências de Tecnologia (CTC)

Arquivos associados a este item:
Arquivo TamanhoFormato 
Giuseppe Portolese_2019.pdf1,52 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.