Imagen de portada

Los problemas de identificación de caracteres OCR para la recuperación de texto en el libro antiguo: un análisis de caso en el Fondo Antiguo de la Biblioteca Central, UNAM

Silvia Socorro Ballesteros Estrada, Guillermo Morales Romero, Pavel Alfredo Cedillo Pérez

Resumen


El presente artículo describe de manera general los problemas enfrentados para lograr una correcta recuperación de texto por medio del reconocimiento óptico de caracteres (OCR) en el libro antiguo, tomando una muestra de las obras de los siglos XV al XVIII que resguarda el Fondo Antiguo de la Biblioteca Central de la Universidad Nacional Autónoma de México (UNAM), digitalizadas por la Dirección General de Bibliotecas (DGB). Se presenta, en primer lugar, la exposición teórica conceptual del OCR y su aplicación en la recuperación de texto para continuar con la ejemplificación de los factores que determinan la correcta o incorrecta identificación de los grafemas en estos libros mediante las pruebas aplicadas con el software Adobe Acrobat 8 Professional® y, por último, muestra algunos hallazgos obtenidos como producto del análisis e interpretación de los datos correspondientes a las variables.

Palabras clave


Reconocimiento de texto, OCR, libro antiguo, digitalización de obras antiguas

Texto completo:

PDF


DOI: http://dx.doi.org/10.22201/dgb.0187750xp.2012.1.39

Enlaces refback

  • No hay ningún enlace refback.


Publicación semestral de la Dirección General de Bibliotecas. http://dgb.unam.mx
Este obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional.

Licencia de Creative Commons