Use este identificador para citar ou linkar para este item:
http://repositorio.uem.br:8080/jspui/handle/1/8427
Autor(es): | Paulino, Marco Aurélio Deoldoto |
Orientador: | Feltrim, Valéria Delisandra |
Título: | Classificação multimodal de gêneros cinematográficos com aprendizado profundo |
Banca: | Gonçalves, Diego Bertolini |
Banca: | Pereira, Rodolfo Miranda |
Palavras-chave: | Representação multimodal;Gêneros cinematográficos;Classificação multirrótulo |
Data do documento: | 2022 |
Editor: | Universidade Estadual de Maringá |
Citação: | PAULINO, Marco Aurélio Deoldoto. Classificação multimodal de gêneros cinematográficos com aprendizado profundo. 2022. 99 f. Dissertação (mestrado em Ciência da Computação)-Universidade Estadual de Maringá, 2022, Maringá, PR. |
Abstract: | RESUMO: O aprendizado de representac¸ ˜ao multimodal visa obter um conhecimento mais amplo de um dom'?nio combinando informac¸ ˜oes oriundas de m'ultiplas fontes. Na literatura, a fus˜ao de dados prematura e tardia s˜ao estrat'egias populares para incorporar m'ultiplas modalidades. No entanto, essas estrat'egias possuem limitac¸ ˜oes, por exemplo, s˜ao inaptas a capturar correlac¸ ˜oes complexas entre as modalidades. Como soluc¸ ˜ao, trabalhos na literatura introduziram abordagens de fus˜ao de dados com aprendizado profundo. A escolha pelo aprendizado profundo ocorre devido a sua habilidade em obter representac¸ ˜oes robustas com m'ultiplos n'?veis de abstrac¸ ˜ao. Baseado nesse contexto, este trabalho explora o uso de aprendizado profundo na tarefa de classificac¸ ˜ao de gˆeneros cinematogr'aficos empregando uma abordagem multimodal. A classificac¸ ˜ao de gˆeneros cinematogr'aficas 'e uma tarefa que pode ser resolvida utilizando m'ultiplas fontes de dados. Devido aos filmes serem, normalmente, associados a m'ultiplos gˆeneros, a tarefa foi tratada como um problema multirr'otulo. A base utilizada nos estudos cont'em legenda, pˆoster, sinopse e trailer de 10.594 filmes, associados a 18 r'otulos poss'?veis. Para resolver a tarefa, inicialmente, foram constru'?das redes profundas para cada modalidade. Posteriormente, essas redes foram combinadas utilizando dois modelos profundos multimodais. O primeiro modelo, nomeado Fus˜ao Multimodal Intermedi'aria, combina as redes unimodais com uma camada compartilhada. J'a o segundo modelo, nomeado Fus˜ao Multimodal Densa, utiliza m'ultiplas camadas compartilhadas para incorporar as modalidades em diferentes pontos e assim capturar correlac¸ ˜oes entre elas com diferentes n'?veis de complexidade. Al'em dos modelos profundos multimodais, os resultados obtidos pelas redes unimodais tamb'em foram combinados utilizando trˆes operac¸ ˜oes de fus˜ao tardia: regra da soma, produto e m'aximo. A fus˜ao tardia com a regra da soma superou os modelos profundos multimodais e obteve os melhores resultados com 0,649 de F-Score ao combinar pˆoster, legenda, sinopse e frames de trailers e, 0,626 de AUC-PR ao combinar pˆoster, legenda, sinopse e 'audio de trailers. A ocorrˆencia de m'ultiplas modalidades nos melhores resultados comprova a existˆencia da complementaridade entre elas. Esse trabalho se diferencia dos demais trabalhos ao englobar aprendizado profundo, classificac¸ ˜ao multirr'otulo e o aprendizado de representac¸ ˜ao multimodal com m'ultiplas modalidades em uma mesma abordagem ABSTRACT: Multimodal representation learning aims to obtain more reliable knowledge about a domain combining information collected from multiple sources. In the literature, the most popular strategies are early and late fusion. However, these strategies have some limitations to capturing complex relations among the modalities. Some studies proposed deep learning models to overcome these restrictions. Deep learning is known for its ability to capture powerful representations with multiple levels of abstraction. Given this context, we accomplished the movie genre classification using deep models. The movie genre classification can be solved using different media. As films are associated with numerous genres, we treat the task as multi- label classification. We used a dataset composed of posters, synopses, subtitles, and trailers of 10,594 movies associated with 18 genres. Firstly, we built unimodal networks for each modality. Then, we selected two deep multimodal models to combine those networks. The first model, called Intermediate Fusion Model, connected the unimodal nets using a shared layer. On the other hand, the second model, named Dense Fusion Model, employed more than one shared layer to fuse the modalities at distinct positions to capture different levels of correlation. In addition to the deep multimodal models, we combined the results of the unimodal nets using three late fusion operations: sum, product, and max rules. Despite its simplicity, the late fusion strategies reached better performances than the deep models. The sum rule achieved 0.649 F- Score combining poster, synopsis, subtitle, and trailer frames. The sum rule also obtained 0.626 of AUC-PR combining poster, synopsis, subtitle, and trailer audios. These results confirmed the complementarity among the modalities. This work differs from other works by employing deep learning, multi-label classification, and multimodal representation learning with multiple modalities in the same approach |
Descrição: | Orientador: Prof.ª Dr.ª Valéria Delisandra Feltrim Coorientador: Prof. Dr. Yandre Maldonado e Gomes da Costa Dissertação (mestrado em Ciência da Computação)-Universidade Estadual de Maringá, 2022 |
URI: | http://repositorio.uem.br:8080/jspui/handle/1/8427 |
Aparece nas coleções: | 2.4 Dissertação - Ciências de Tecnologia (CTC) |
Arquivos associados a este item:
Arquivo | Tamanho | Formato | |
---|---|---|---|
Marco Aurelio Deoldoto Paulino_2022.pdf | 2,3 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.