Modelo de indexación semi-automática de manuscritos históricos usando Wavelets de Gabor

Loayza Cruz, Kristel Gisselle

Modelo de indexación semi-automática de manuscritos históricos usando Wavelets de Gabor

Files

LOAYZA_CRUZ_KRI_IND.pdf (7.94 MB)

Date

2014

Authors

Loayza Cruz, Kristel Gisselle

Publisher

Universidad Católica San Pablo

Abstract

Desde la última década se ha propuesto en la literatura diversos métodos para buscar información en manuscritos históricos que no se restrinjan únicamente al autor, año de publicación, o tema; sino que también se pueda tener un índice similar al índice de la parte trasera de un libro para encontrar información relevante en los manuscritos históricos. Uno de los enfoques más usados para lograr dicho propósito es el enfoque Word Spotting el cual consta de cuatro etapas: segmentación de líneas de texto, segmentación de palabras, extracción de características y agrupamiento. La etapa más determinante de dicho enfoque es la extracción de características, siendo la técnica de perfiles la más utilizada en la literatura. Sin embargo, el modelo de indexación semiautomática de manuscritos históricos al aplicar dicha técnica, muestra un error de 38% para la colección de George Washington (GW), mientras que, para la colección de Ejecutoria y Certificación del Escudo de armas, muestra un error de 42%. Por lo que, se propone usar la técnica de Wavelets de Gabor para extraer características de las imágenes de las palabras, de modo que, se pueda reducir el error Word Error Rate (WER) actualmente obtenido del modelo de indexación semi-automática de la colección de manuscritos históricos George Washington (GW) a un 34% y de la colección de manuscritos históricos Ejecutoria y Certificación del Escudo de armas (ECA) a un 38%.