Aumento de dados inspirado em um modelo cognitivo para a identificação de escritores usando o protocolo Document Filter

Pignelli, Fabio

Use este identificador para citar ou linkar para este item: http://repositorio.uem.br:8080/jspui/handle/1/7594

Autor(es):	Pignelli, Fabio
Orientador:	Gonçalves, Diego Bertolini
Título:	Aumento de dados inspirado em um modelo cognitivo para a identificação de escritores usando o protocolo Document Filter
Banca:	Amaral, Aline Maria Malachini Miotto
Banca:	Foleis, Juliano Henrique
Palavras-chave:	Document Filter (Protocolo);Padrões (Informática) - Sistema de reconhecimento;Inteligência artificial
Data do documento:	2021
Editor:	Universidade Estadual de Maringá
Citação:	PIGNELLI, Fabio. Aumento de dados inspirado em um modelo cognitivo para a identificação de escritores usando o protocolo Document Filter. 2021. 73 f. Dissertação (mestrado em Ciência da Computação)--Universidade Estadual de Maringá, 2021, Maringá, PR.
Abstract:	Resumo: Textos manuscritos são utilizados na perícia forense, entre outras aplicações, para a identificação de indivíduos. Essa tarefa pode ser realizada com o auxílio de sistemas de identificação automática de escritores, por meio de documentos manuscritos digitalizados. Nesse contexto, o presente trabalho apresenta contribuições em cenários nos quais é pequena a quantidade de imagens de manuscritos por escritor. Ao longo do trabalho, foram utilizadas as bases de dados Institut für Informatik und Angewandte Mathematik (IAM), Brazilian Forensic Letter (BFL) e Computer Vision Lab (CVL), e os descritores Binarized Statistical Image Features (BSIF), Elongated Quinary Pattern (EQP), Local Binary Pattern (LBP), Local Directional Number (LDN), Locally Encoded Transform Feature Histogram (LETRIST), Local Phase Quantization (LPQ), Oriented Basic Image Features (oBIF), Speed Up Robust Features (SURF). Além disso, foi utilizado o classificador Support Vector Machine (SVM). Em um primeiro momento, foi investigado o impacto da utilização de partes de um mesmo documento manuscrito simultaneamente nos conjuntos de treinamento e teste, o que motivou a proposta de um protocolo chamado Document Filter. Posteriormente, foi avaliado o uso de uma técnica de aumento de dados inspirada no processo cognitivo, descrita como Duplicator. Os experimentos foram realizados a nível de blocos, linhas e palavras, e todos eles superaram os respectivos baselines, que consistia do uso de unicamente amostras genuínas. Em destaque, os resultados com a adição de 15 duplicatas de 3 linhas genuínas mostraram melhorias de até 32 pontos percentuais em relação a baseline, e apontam o Duplicator como uma possível solução para cenários com poucas amostras de documentos manuscritos. Abstrat: Handwriting samples are used by forensic experts to identify individuals. This task can be performed with the aid of automatic writer identification systems, using digital images of handwritten documents. In this context, this work presents contributions in scenarios in which are few samples per writer. In our experiments, we used the following databases: Institut für Informatik und Angewandte Mathematik (IAM), Brazilian Forensic Letter (BFL) and Computer Vision Lab (CVL), and the descriptors Binarized Statistical Image Features (BSIF), Elongated Quinary Pattern (EQP), Local Binary Pattern (LBP), Local Directional Number (LDN), Locally Encoded Transform Feature Histogram (LETRIST), Local Phase Quantization (LPQ), Oriented Basic Image Features (oBIF), Speed Up Robust Features (SURF). In all experiments, Support Vector Machine (SVM) was used as classifier. At first, we investigated the impact of using non-overlapping parts of the same handwritten document simultaneously on the training and test sets, which motivated the proposal of a protocol called Document Filter. Posteriorly, we evaluated the use of a data augmentation technique inspired by a cognitive model, called Duplicator. Experiments were carried out at the level of blocks, lines, and words, and they all overcome the respective baselines, in which only genuine samples were used. In the best case, the rates obtained by adding 15 duplicates from three genuine lines raised 32 percentage points. In general, the results obtained show that Duplicator can be used as an effective strategy to mitigate the lack of handwritten samples.
Descrição:	Orientador: Prof. Dr. Diego Bertolini Gonçalves Coorientador: Prof. Dr. Yandre Maldonado e Gomes da Costa Dissertação (mestrado em Ciência da Computação)--Universidade Estadual de Maringá, 2021
URI:	http://repositorio.uem.br:8080/jspui/handle/1/7594
Aparece nas coleções:	2.4 Dissertação - Ciências de Tecnologia (CTC)

Arquivos associados a este item:

Arquivo	Tamanho	Formato
Fabio Pignelli_2021.pdf	8,47 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas

REPOSITÓRIO INSTITUCIONAL DA UNIVERSIDADE ESTADUAL DE MARINGÁ (RI-UEM)

A missão do Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) é reunir, preservar e permitir o acesso à memória institucional (científica, técnica, artística e administrativa) da Universidade Estadual de Maringá em formato digital.