UNIVERSIDAD DE LAS AMÉRICAS –PUEBLA
DEPARTAMENTO DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
"SERGEN: SERVIDOR GENERAL PARA LA BIBLIOTECA DIGITAL DE LA
UNIVERSIDAD DE LAS AMÉRICAS – PUEBLA"
Propuesta Formal de Tesis para obtener el grado de Licenciatura que presenta:
Héctor Cocoletzi Moreno
I.D. 097632
Asesor:Dr. J. Alfredo Sánchez H.
Otoño ’99
_______________________________________________________________
Propuesta Formal de Tesis:
"SERGEN: SERVIDOR GENERAL PARA LA BIBLIOTECA DIGITAL DE LA
UNIVERSIDAD DE LAS AMÉRICAS - PUEBLA"
1. Introducción
Actualmente en la Biblioteca de la Universidad de las Américas - Puebla se
estádesarrollando un proyecto que consiste en la creación de una Biblioteca Digital
que facilite a los usuarios la obtención de información dentro y fuera del campus. El
personal de la Biblioteca de la UDLA está creado un acervo digital para esta Biblioteca
Digital, y en adición a esto un grupo de investigadores y tesistas de licenciatura y
maestría de la carrera de Ingeniería en Sistemas Computacionales estádesarrollando
diversas aplicaciones y ambientes para la misma. Todo esto con el objetivo de
permitir el uso y facilitar la información a los usuarios. Entre las aplicaciones y
ambientes que se están desarrollando se encuentran algunas para recuperación de
información por medio de agentes, espacios colaborativos, espacios personalizables
entre otros.
Con el objeto de ubicar el proyecto dentro del contexto de la arquitectura de la
Biblioteca Digital de la UDLA, ésta arquitectura se ilustra en la figura 1.
Figura 1. Arquitectura de la Biblioteca Digital
Como puede apreciarse, en esta arquitectura se divide en principalmente en dos
bloques: el cliente y el servidor de la Biblioteca Digital, dentro de estos bloques se
pueden observar los diferentes niveles que posee esta arquitectura. El nivel físico
almacena los datos de la Biblioteca Digital, el nivel de manejo de datosusa los datos
de forma genérica. Posteriormente encontramos el nivel de abstracción, en los que
pueden utilizarse algunos de los estándares para metadatos (como XML o Dublin
Core). Ya más específicamente relacionado con este proyecto, una Biblioteca Digital
ofrece un nivel de servicios en el que se hace disponible funcionalidad de uso general
para diversas aplicaciones, interfaces y tipos de usuarios; es en este nivel de
servicios donde este proyecto se enfoca, éste permitirála creación de diversos
servicios para la operabilidad de la Biblioteca Digital. Finalmente, en el nivel de
interfaces de usuario (generalmente ubicado físicamente en un cliente remoto) se
encuentran disponibles diversas interfaces y ambientes que utilizan los servicios
existentes y presentan el contenido de las colecciones digitales a los usuarios.
Las Bibliotecas Digitales son grandes depósitos de colecciones hetereogéneas, estas
incluye grandes cantidades de información multimedios y manejan datos de diversos
tamaños y formatos, bajo este esquema es importante contar con métodos
automáticos que recuperen y filtren esa información. La mayoría de las aplicaciones
y/o ambientes que hacen uso de los servicios de esta biblioteca requieren de una
eficiente y rápida recuperación de información, para esto se planea implementar dos
técnicas: Espacios Vectoriales [López, 1997], [Pérez, 1998] & [Cabrera, 1997] y
Búsqueda Booleana Extendida. [Salton, 1983] citado en [Pérez, 1998].
La técnica de Espacios Vectoriales representa documentos en una matriz
bidimensional donde los renglones se refieren a los documentos y las columnas a los
términos contenidos en los documentos. Los términos pueden ser sinónimos, palabras
o frases relevantes de los documentos. Para este trabajo los términos representan
los valores de las características. Un vector de términos de consulta es la entrada al
algoritmo y éste se compara con los términos considerados como relevantes en la
base de datos. El resultado de la comparación se establece de acuerdo a un ángulo
de diferencia entre el vector de términos relevantes de la base de datos y el vector
de términos de la consulta. Si el ángulo es de 0 grados significa que el documento de
consulta y el de términos relevantes son muy semejantes. Conforme aumenta el
ángulo aumenta la diferencia, esto es, un ángulo de 90 grados significa que los
documentos no tienen similitud alguna.
Búsqueda Booleana Extendida es una técnica que se aplica a las consultas que
incluyen conectivos lógicos and y or, ésta técnica toma en cuenta tanto consultas
con peso como términos del documento con peso. Haciendo uso de unos criterios
matemáticos de complejidad media se determina el grado de similitud de los términos
relevantes de la base de datos con los términos de consulta, esto se realiza dándoles
peso a las operaciones lógicas realizadas entre los términos relevantes con los
términos de consulta.
Un servicio más de la Biblioteca Digital de la UDLA es la navegación taxonómica. Los
documentos en las colecciones digitales podrán organizarse y clasificarse
dinámicamente de acuerdo a las necesidades de los usuarios. Sin embargo, para
facilitar el recorrido (o navegación) de las estructuras definidas en los esquemas de
bases de datos se desarrollarán servicios que se podrán utilizar desde cualesquiera de
las interfaces y ambientes de usuario que utilicen los acervos digitales [Sánchez et
al. 1999a, 1999b].
En conclusión, este proyecto planea diseñar en implementar servicios robustos y
eficientes para la Biblioteca Digital de la UDLA.
2. Problema
- Se tiene un acervo digital centralizado y por lo mismo una caída del sitio
donde se encuentre éste provocaría una falla en toda la Biblioteca Digital.
- Se tienen diversas aplicaciones a desarrollar cuya operación fundamental
depende totalmente del acervo digital.
- Cada aplicación requiere de ciertos protocolos para comunicarse con el
acervo, y si cada aplicación define su propio protocolo de intercomunicación
pueden existir diversos problemas como duplicación de información, de
servicios, e incluso inconsistencia de datos pues mientras una aplicación
desea una información determinada, otra aplicación está modificando esa
misma afirmación, por lo que la primera aplicación obtiene información
desactualizada y eso es un problema tanto para el usuario como para las
aplicaciones que manejan esta información.
- Además del protocolo de comunicación, las aplicaciones tienen en común
algunas funcionalidades. Ejemplos de funcionalidad común entre aplicaciones
y/o ambientes incluyen mecanismos de recuperación de información y
navegación taxonómica. Algunas de las aplicaciones que la utilizan son
Reserva Digital, Sistema de Recomendaciones, Agentes Móviles por citar
algunas. Si cada una de éstas realizara las suyas se caería en una
redundancia de funcionalidad, lo cual provocaría desperdicio de espacio y de
esfuerzo.
3. Objetivos Generales
- Analizar y aplicar el Marco de Comunicación Interagentes en una Biblioteca
Digital (MICK) descrito en [Barceinas, 1998]
- Diseñar e implementar un servidor general que provea servicios comunes a
aplicaciones y/o ambientes en desarrollo para la Biblioteca Digital de la
Universidad de las Américas - Puebla
4. Objetivos Específicos
- Implementar MICK [Barceinas, 1998]
- Implementar técnicas de búsqueda y recuperación de información como
Espacios Vectoriales descritas en [Salton, 1983], [López, 1997], [Pérez,
1998] & [Cabrera, 1997] y Búsqueda Booleana Extendida planteada en
[Salton et. al, 1983] & [Pérez, 1998].
- Diseñar e Implementar el servicio de recorrido o navegación taxonómica de la
biblioteca digital, necesario para la clasificación y organización dinámica de
las colecciones digitales de acuerdo a las necesidades de los usuarios.
- Una vez terminado el análisis de los servicios requeridos por la Biblioteca
Digital, numerosos servicios serán requeridos, algunos de estos se
implementarán de tal forma que sean robustos y confiables.
5. Alcances y Limitaciones
Alcances.-
- El software será evaluado por medio de aplicaciones y/o ambientes que
requieren de este tipo de servicios, esto demostrará la eficiencia y
funcionalidad del sistema.
- El software desarrollado permitiráa las aplicaciones y/o ambientes recuperar
información la solicitada de una manera ágil y eficiente.
- El software será independiente de la plataforma de cómputo a usar.
- El software podrá estar disponible y trabajar en Internet para un mejor uso
de los usuarios fuera del campus.
- El software proporcionará servicios comunes y un protocolo de comunicación
inter-agentes a las aplicaciones y/o ambientes para facilitar su desempeño y
funcionalidad.
- El software poseerá una interfaz para el servicio de navegación.
- El protocolo de Comunicación Inter-agentes se implementará como se
describe en [Barceinas, 1998].
- Las técnicas de búsqueda y recuperación de información se implementarán
como se describe en [López 1997]
Limitaciones.-
- Las pruebas del sistema se realizarán en un ambiente que aun no se
encuentra operando en su totalidad.
- Las aplicaciones y/o ambientes que harán uso del software aun están en
desarrollo.
- Las herramientas de desarrollo del sistema imponen algunas limitantes, por
ejemplo, para que se despliegue el servicio de navegación se requerirá un
navegador de Internet que soporte Java 1.2 como Netscape 4.7 o Internet
Explorer 5.0
6. Requerimientos
Hardware.-
- Equipo de Cómputo para las plataformas PC, UNIX, MacOS y JavaOS para
pruebas diversas.
- Equipo PC y SUN para desarrollo del servidor
- Impresora y material de oficina diverso para apoyo al desarrollo
Software:
- Lenguaje de Programación Java 1.2
- Informix Universal Server
- Java JDBC
- Java API?s
- CORBA
- KQML
- JINI
- Servidor http
- Línea de Productos Microsoft (Word, Power Point, Excel, Front Page, etc.)
- Línea de Productos Adobe (Page Mill, Photoshop, Illustrator, etc.)
- Navegadores (Netscape 4.X, Internet Explorer 4.X, HotJava y versiones
superiores)
- Otro software que pueda surgir al momento del desarrollo.
7. Bibliografía Comentada
- Barceinas, A. 1998. MICK: Un Marco de Comunicación Interagentes en una
Biblioteca Digital. Laboratorio de Tecnologías Interactivas y Cooperativas,
Universidad de las Américas - Puebla. Cholula, Pue. 72820, México.
Tesis referente a la comunicación entre los componentes de una biblioteca digital
altamente distribuida. Uno de los aspectos más importantes radica en la
comunicación entre un director de agentes y los agentes de usuario y entre el
mismo director de agentes y los servicios de biblioteca activa.
- Cabrera, J. 1997. Integración de Servicios y Agentes de Usuario en la
Recuperación de Información en una Biblioteca Digital. Tech. Rep. No. ICT-
97-2. Laboratorio de Tecnologías Interactivas y Cooperativas, Universidad
de las Américas-Puebla, Cholula, Pue. 72820, Mexico.
Tesis referente al estudio de agentes de usuario para la recuperación de
información y la integración de servicios de una Biblioteca Digital
- Emmerich, W. 1997. An Introduction to OMG / CORBA Proceedings of the
1997 international conference on Software engineering. 641 - 642.
Una breve descripción de CORBA, donde se plantea desde los problemas de
distribución hasta el desarrollo futuro de CORBA.
- Lowe, H. 1998. CORBA and the world Srtandards. Standardview 6. 1, 27-29,
marzo.
Explica las características generales de CORBA y su eficiencia con los estándares de
programación y computación mundiales. Da ejemplos de estándares que son
compatibles con CORBA.
- Waldo, J. 1999. The Jini architecture for network-centric computing.
Communications of the ACM. Vol. 42 No. 7, 76-82, julio.
Breve descripción de la Arquitectura de Jini, ventajas y comparaciones con Java.
Descripción de los diferentes módulos y capacidades de Jini y su relación con Java.
8. Bibliografía por Revisar
- Arnold, K. 1999. The Jini Architecture: Dynamic Services in a Flexible
Network. Proceedings of the 36th ACM/IEEE conference on Design
automation conference. 157 - 162
- Balen, H. 1997. CORBA and the WWW. Addendum to the 1997 ACM SIGPLAN
conference on Object-oriented programming, systems, languages, and
applications128-132.
- Barceinas, A., Sánchez, J. A., Schnase, J. L. 1998. MICK: A KQML inter-
agent communication framework in a digital library. Memorias del Simposium
Internacional de Computación (CIC'98, Ciudad de México, Nov.). 66-79.
- Brewer A., Ding W. , Hahn K., y Komlodi A.; 1996. The role of intermediary
services in emerging digital libraries; Proceedings of the 1st ACM
international conference on Digital libraries; 29-35.
- Dircio, R. 1998. Consultas a bibliotecas digitales con imágenes textuales.
Tech. Rep. No. ICT-98-2. Laboratorio de Tecnologías Interactivas y
Cooperativas, Universidad de las Américas-Puebla, Cholula, Pue. 72820,
Mexico. (Disponible también en http://ict.udlap.mx/pubs).
- Finin, T., Labrou, Y., Mayfield, J. 1995. KQML as an agent communication
language. Tech. Rep. Computer Science Department, University of Maryland
Baltimore County. Baltimore, Md. (Disponible en
http://www.cs.umbc.edu/kqml/papers).
- Flores, C. A. 1998. Agentes de usuario como guías en bibliotecas digitales.
Tech. Rep. No. ICT-97-4. Laboratorio de Tecnologías Interactivas y
Cooperativas, Universidad de las Américas-Puebla, Cholula, Pue. 72820,
Mexico. (Also available from http://ict.udlap.mx/pubs).
- Fox, E., Eaton, J. y McMillan, G. 1999. Networked Digital Library of Theses
and Dissertations
(NDLTD). Virginia Tech. http://www.ndltd.org/info/index.htm.
- Lagoze C., Fielding D., y Payette S.; 1998. Making global digital libraries
work
collection services, connectivity regions, and collection views; Proceedings
of the third ACM Conference on Digital libraries , 134 - 143 .
- Lange, D., Oshima, M., Mitsuru, O. 1998. Programming and Deploying Java
Mobile Agents With Aglets.Addison-Wesley, Reading, Mass.
- López, C. A. 1997. Agentes de Usuario en la Construcción de Bibliotecas
Digitales. Tech. Rep. ICT-97-2. Laboratorio de Tecnologías Interactivas y
Cooperativas. Universidad de las Américas - Puebla, Cholula, Pue. 72820
México.
- Pérez, C. V. 1998. Agentes móviles en bibliotecas digitales. Tech. Rep. No.
ICT-98-8. Laboratorio de Tecnologías Interactivas y Cooperativas,
Universidad de las Américas-Puebla, Cholula, Pue. 72820, Mexico. (Disponible
en http://ict.udlap.mx/pubs).
- Salton, G. y McGill, M. J. 1983. Introduction to Modern Information Retrieval.
Mc. Graw Hill, Estados Unidos.
- Salton, G. Fox, E. A. Wu, H. 1983. Extended Boolean information retrieval.
Communications of the ACM 26, 12 (Diciembre), 1022- 1035.
- Sánchez, J. A., Leggett, J. A. 1997. AGS: Introducing agents as services
provided by digital libraries. Proceedings of the 2nd ACM international
conference on Digital libraries , 75-82.
- Sánchez, J. A., Leggett, J. A. 1997. Agent services for users of digital
libraries. Journal of Networks and Computer Applications, 21, 1, 45-58.
- Sánchez, J. A. 1996. Agent Services. Ph.D. Dissertation. Department of
Computer Science, Texas A&M University, College Station, Tex., Agosto.
- UDLA. 1998. Reglamento de Tesis y Exámenes Profesionales. Fundación
Universidad de las Américas - Puebla. (disponible
enhttp://www.pue.udlap.mx/caso_est/mnpest11.htm, y también
enhttp://biblio.udlap.mx/iid/tesis/reglamento.html).
- Walter, J. 1991. Providing distributed services in a small college setting or
surviving as a user services generalist. Proceedings of the 19th ACM
SIGUCCS conference on User services. p. 417.
9. Calendario de Actividades
|
|