Resumo:
Um problema muito recorrente em praticamente todos os tipos de empresas ou
instituições públicas é a necessidade de tratamento e gestão de documentos físicos
impressos, em fotos ou escaneados, a verificação, de forma manual por um agente
humano, da consistência, completude e validade das informações preenchidas, e
muitas das vezes, a leitura com posterior inserção no computador, por digitação
manual, tarefa esta que poderia ser muito mais rápida se automatizada. Tendo em
vista este contexto, o objetivo deste trabalho é propor um modelo automático de
extração de informações preenchidas à mão nos formulários de requerimento
acadêmico da UEPB, que possa fazer a extração automática das informações
preenchidas e o devido armazenamento no computador, gerando um arquivo JSON
representativo de um requerimento acadêmico. Tal modelo, foi proposto a partir da
concepção de um pipeline especificamente voltado para esta tarefa, consistindo de:
padronização das imagens dos formulários, aplicação de um algoritmo de alinhamento
das imagens com o template, repartição dos campos dos formulários nas imagens,
aplicação de OCR nos campos particionados, e associação do formulário com o aluno,
de uma base de dados de alunos sintética, que possuir os dados mais similares ao
resultado do OCR. O modelo proposto foi testado e executado numa base de trinta
formulários reais dos estudantes, e para o problema de detecção do aluno pelo OCR
no formulário de requerimento, pelo pipeline proposto, foi obtida uma acurácia de
86,67%. Ao final, foram sugeridas, para trabalhos futuros, possíveis medidas para
aperfeiçoar a acurácia do modelo.
Descrição:
MINERVINO, C. V. A. Um modelo para extração automática de informações em formulários de requerimento acadêmico da UEPB. 2021. 61 f. Trabalho de Conclusão de Curso (Graduação em Computação) - Centro de Ciências Exatas e Sociais Aplicadas, Universidade Estadual da Paraíba, Patos, PB, 2021.