1. INTRODUCCIÓN

1.1 Antecedentes

La revolución provocada por la computación ha permitido que la sociedad actual produzca cantidades crecientes de información. Actualmente es común almacenar datos del orden de Terabytes, con una gran cantidad de información, distribuida en conversaciones(sonido), gráficas, imágenes y documentos impresos, como la forma básica para las comunicaciones [Meadows, 89]. Lo anterior ha provocado el desarrollo de sistemas de información cada vez más complejos y de mayor alcance en servicios[Fox y Marchinioni, 98].

La necesidad de aprovechar la información disponible para el desarrollo tecnológico de las naciones, a través de bibliotecas digitales que apoyen la educación y la investigación es ineludible e impostergable[Lesk et al, 92]. Las bibliotecas digitales en su esfuerzo por integrar la información en bases de datos computarizadas requieren extraer la información textual de imágenes, e indexarla, para facilitar su acceso a los usuarios [Birmingham et al, 94][Brewer, 96][Pérez, 98].

Dado que la cantidad de información requerida es muy grande, para compilarla manualmente, se ha desarrollado tecnología de análisis de imágenes basada en el Reconocimiento Óptico de Caracteres (OCR). Esta tecnología ha logrado avances significativos en texto impreso a máquina sobre superficies limpias y claras[Bokser, 92][Mori et al, 92]; sin embargo, enfrenta problemas ante algunas situaciones diferentes [Witten et al, 94], que pueden enumerarse:

Los problemas anteriores han intentado ser corregidos, con un proceso previo o posterior, desde diferentes aproximaciones: manual con base en información semántica [Srihari, 86] [Paoli et al, 91], información sintáctica con aprendizaje[Dimauro et al, 91], basada en aplicación de probabilidad[Taghva et al, 94][Mittendorf et al, 95], con apoyo en diccionario[Zhao y Srihari, 95], por medio de redes neuronales [Chiang y Fu, 91][Kuhnke et al, 95], manual con entrenamiento[Srihari et al, 97], basadas en descripciones sintácticas[Ravela y Manmatha, 97] y segmentación por textura con métodos heurísticos[Wu et al, 97].

1.2 Definición del Problema

Los problemas mencionados, compartidos por los diseñadores de bibliotecas digitales, se viven en el jardín Botánico de San Luis Missouri, donde se tiene actualmente un archivo de más 350,000 imágenes, de fichas de la Dra. Hu Shiu-Ying's, sobre la Flora de China almacenadas en Harvard, pendientes de ser integradas a la Biblioteca Digital Florística (FDL). Las imágenes contienen información mecanografiada con diferentes fuentes, anotaciones manuscritas, recortes adheridos y algunas imágenes no son nítidas.

Ante esta situación, de manejo de información, es útil distinguir dos aspectos: el tecnológico, que abarca la representación y manipulación para hacerla accesible, y la utilidad al usuario, que tiene que ver con la facilidad y relevancia obtenida[Salton, 89].

1.3 Objetivo

Esta tesis esta enfocada al aspecto tecnológico, esto es, obtener de la información textual de la imagen, una representación apropiada e indexarla a nivel palabra simple [Salton, 89], para integrarse en su momento al sistema de la Biblioteca Digital Florística. El objetivo es el reconocimiento del texto, no el reconocimiento de los caracteres por si mismos, ya que se requiere conservar la imagen del documento, para buscarla y recuperarla por su contenido posteriormente.

En este trabajo se ha buscado una representación que permita manipular la ambigüedad, debido a la falta de nitidez en la captura de las imágenes, para lograr un reconocimiento aproximado de la información contenida en las imágenes textuales.

1.5 Alcance

El prototipo se desarrolla, prueba y evalúa con una muestra aleatoria de fichas, con información textual mecanografiada de la Dra. Hu, en el ambiente de bibliotecas digitales florísticas. La evaluación del prototipo permite visualizar las acciones necesarias en la adecuación del sistema para producción, lo que permitirá tener una utilidad inicial inmediata, para agilizar la captura de la información textual mecanografiada. En función de las pruebas obtenidas se podrá ampliar posteriormente para la extracción de texto manuscrito.

Regresar