Este documento presenta una ponencia sobre las entidades y conceptos que sirven para organizar el conocimiento en la Web. Explica que las entidades y conceptos tienen diferentes significados para los humanos y las máquinas, y cómo los sistemas de clasificación han evolucionado para adaptarse a la organización de la información digital, pasando de sistemas jerárquicos a sistemas facetados. También analiza cómo las entidades y conceptos son utilizados en los sistemas de recuperación de información para representar y recuperar el conocimiento de manera efectiva tanto para humanos como
1. Encuentro de Catalogación, Bogotá 20-23 octubre de 2009
Ponencia ECBogota09.doc
Un punto de vista teórico de las entidades y conceptos que sirven para
organizar el conocimiento en la Web
Ariel Alejandro Rodríguez García
Centro Universitario de Investigaciones Bibliotecológicas
Universidad Nacional Autónoma de México
Torre II Humanidades piso 12,
04510 Ciudad Universitaria, México DF.
E-mail: ariel@cuib.unam.mx
Resumen
La finalidad de la ponencia es exponer algunas reflexiones en torno a las
entidades y conceptos que sirve para organizar el conocimiento en la Web y
explicar cómo los hombres y las máquinas analizan los mensajes para recuperar
información. Desde la perspectiva de la categorización se explica el sentido que
tiene una entidad y un concepto para ser utilizado en un sistema de recuperación
de información y cómo éstos crea un modelo genérico de acceso y uso de los
datos en el ambiente Web.
Introducción
Agradezco a los organizadores de este Primer Encuentro Nacional de
Catalogación la oportunidad de dirigirme a ustedes este día y visitar por primera
vez Colombia.
Esta ponencia tiene como objetivo explicar, desde el punto de vista de los
sistemas categóricos, la función que tienen las entidades y los conceptos en la
organización del conocimiento de los sitios Web. A través de los pasos de la
exposición, se hará hincapié en las dificultades que se tiene para resolver los
2. Encuentro de Catalogación, Bogotá 20-23 octubre de 2009
Ponencia ECBogota09.doc
problemas y desafíos de los sistemas de recuperación de información
contemporáneos.
En primer lugar, a través de un breve recorrido por lo que es la organización del
conocimiento y los sistemas categóricos, pretendemos explicar grosso modo los
cambios significativos que se las personas han realizado al buscar, usar y acceder
a la información puesta en los sitios Web.
En segundo lugar, pero muy ligado al anterior y dentro del propósito general de la
ponencia, consideramos relevante hablar de la perspectiva teórica que asume una
entidad y concepto en la indización y cómo estos conceptos tiene un significado
diferente para las personas y las computadoras.
La información digital y su organización
Mucho ha cambiado la historia moderna de la clasificación, algunos de esos
cambios se pueden observar en el desarrollo de los lenguajes artificiales como son
los tesauros, listas de encabezamientos de materia y esquemas de clasificación.
Cada un se construye y mantiene dentro de un campo específico de las
actividades humanas, pero todos coinciden en la inclusión de un vocabulario
controlado que ayude a sus usuarios a realizar búsquedas mejor dirigidas y más
precisas.
3. Encuentro de Catalogación, Bogotá 20-23 octubre de 2009
Ponencia ECBogota09.doc
Permítanme iniciar con un breve repaso sobre los cambios que han ocurrido en la
presentación de la información. Actualmente parece sencillo señalar que la
información digital es registrada en una hiperestructura que decir que la
información impresa sigue un proceso de edición. Asimismo, la mayoría de las
personas entiende que por medio de un “clic” en el teclado o mouse de su
computadora puede comunicarse y compartir sus recursos de información digital,
que solicitarle redactar una carta y enviarla por corre postal.
Perales Ojeda1 señala que con la creación del catálogo se aventajó mucho en la
consideración de libro como medio de comunicación, las fichas, que se manejaron
independientemente, fueron la unidad representativa del texto. Los catálogos así
pensados fueron funcionales hasta que el volumen informativo fue insuperable y la
metodología de la investigación transformada.
Para la época que vivimos, lo anteriormente dicho nos permite señalar que los
métodos tradicionales que usaron para organizar el conocimiento ha cambiado y
mejorado en mucho sus cualidades y características, de ahí que se llegue a
derivaciones que permitan actuar en ambientes creados por las nuevas
necesidades impuestas por las propiedades de la información digital.
1
Alicia Perales Ojeda. De la informática. 51.
4. Encuentro de Catalogación, Bogotá 20-23 octubre de 2009
Ponencia ECBogota09.doc
En el ambiente digital, de acuerdo con Chu2 el contenido de un documento cambia
constantemente debido a la disponibilidad tecnológica que se utilice para su
creación y acceso. Cualquiera que sea la sofisticación, las personas que usan el
Internet y la Web, como un todo, están en búsqueda de alguna cosa: información.
Más y más es la información digital y la Web permite el acceso de manera más
sencilla. Sin embargo, este boom ha cambiado significativamente el campo de
estudio de la representación y recuperación de la información. Al respecto, Chu 3
refiere que la representación de la información es esencial por dos motivos: el
primero porque la información deberá ser representada antes de que esta pueda
recuperarse y, el segundo porque la calidad de la representación afecta
directamente al desempeño de la recuperación.
Por lo tanto, nosotros generalmente basamos nuestras representaciones en los
atributos de los objetos, es decir, el autor, idioma, lugar y fecha de publicación
más que en los detalles del contenido temático. Lo anterior hace suponer que la
representación de la información este centrada más en los cambios físicos que en
los cambios del contenido.
La organización del conocimiento de la información digital tiene un tratamiento
global, esto es, debe analizarse externa e internamente para que las bases de
2
Henting Chu. Information representation and retrieval in the digital age. 40
3
Idem. 45
5. Encuentro de Catalogación, Bogotá 20-23 octubre de 2009
Ponencia ECBogota09.doc
datos consideren los elementos suficientes para desarrollar los procesos,
productos y servicios que permitirán el acceso y uso de toda la información.
De ahí que la recuperación un mensaje, texto y documento vía una base de datos
deben tener en cuenta dos formas, una que responda a la manera en que los
humanos revisan la base de datos y otra, a través de los algoritmos elaborados
para las máquinas. Una y otra responden y se articulan en torno a diferentes
mecanismos. Si reconocemos que la información digital difiere en la manera en
que se accede al conocimiento en términos de interés y estilos, nos debemos
preguntar en qué cambian los sistemas de clasificación.
Los sistemas facetados y la Web
A finales del siglo XX, los sistemas de clasificación comenzarían a presentar fallas
debido a dos razones, una correspondiente a su base de análisis, el libro como
una entidad física y la otra causada por las limitaciones que se han venido
desarrollando debido al crecimiento de las propiedades en los sistemas de
clasificación jerárquica. Estas dos razones pueden considerarse como limitantes
para que los sistemas de clasificación no sean efectivos en la organización del
conocimiento de la información digital.
Aunque, en la práctica de la clasificación actual es posible afirmar que existen dos
maneras de orden en las bibliotecas, una que describe el arreglo de los libros en
las estanterías y la otra que responde a un sistema de organización de contenidos.
6. Encuentro de Catalogación, Bogotá 20-23 octubre de 2009
Ponencia ECBogota09.doc
Ambos sistemas son utilizados en beneficio del usuario ya que su conjunción
potencia la obtención de información, no solamente material sino también
inmaterial.
En este orden de ideas, la clasificación bibliográfica no solamente debe
entenderse como la memorización de los esquemas, aunque es fundamental
hacerlo porque mucha de la teoría esta cifrada en estos términos, sino que debe
entenderse como un sistema de números que alterna con la legitimidad de un
recurso.
Es decir, Hunter4 señala que la clasificación permite el fácil acceso y uso de un
sistema de información porque es la que tiende a establecer un orden y secuencia
en un universo de información heterogéneo. Sin embargo, la relación que puede
existir entre clasificación y bases de datos no garantiza que la información se
pueda emplear eficientemente. Es por eso que la tecnología de las bases de datos
ha desarrollado diversos modelos y tecnologías emergentes que determinan,
verifican y codifican los datos para varios sistemas de información o usos.
Varios autores como Person5, Castells,6 Paling, y MacLennan7 han dicho que el
mayor problema en los servicios de información y las bibliotecas aparece con la
organización de los materiales fuera de los mismos. Es decir, si un recurso de
4
Erik Hunter. Classification made simple. Aldershot. Gower, 1988. 5
5
Jeffrey Person. On the relevance of classification theory to databases design. Advance in
classification research. Vol. V (1994): 131-140.
6
Pablo Castells. La web semántica.
7
Alan McLennan. Classification and the Internet. In. Rita Marcella and Arthut Maltby. The future of
classification. Vermont: Gower, 2000. 59.
7. Encuentro de Catalogación, Bogotá 20-23 octubre de 2009
Ponencia ECBogota09.doc
información digital no puede organizarse con los métodos tradicionales, esto es
motivo para considerarse como un recurso que tiene una cantidad de datos
desorganizado y se encuentra en Internet.
De ahí que las nuevas ideas de organizar el conocimiento, como lo refiere Roe 8
están proporcionando nuevas formas y medios diferentes para que las personas
entiendan mejor el contenido digital de la Web. La mayoría de estas novedades
están sustentándose en la teoría del análisis facetado.
Para muchos de los bibliotecólogos es conocido que las facetas son estructuras,
creadas por un método y no son particularmente un esquema de clasificación. De
acuerdo con lo establecido por Ranganathan en el sistema de clasificación
facetada, todos los conceptos dentro de una categoría siguen el principio de
exclusión muta. Al respecto, Vickery citado por Roe9 señala que las categorías no
están bloqueadas como suele pasar en un esquema enumerativo, por el contrario
permiten desarrollar libremente las entidades en diversas combinaciones o
conceptos que en que pueda ser expresado.
Estas apreciaciones que provienen de las generalidades del propio campo de la
teoría de la clasificación bibliográfica dejan ver, que su paradigma entro en crisis,
por la incorporación de lineamientos generado por el diseño de bases de datos.
8
Sandra K. Roe. “Faceted subject Access: the challenge.” In: II Encuentro internacional de
catalogación: tendencias en la teoría y práctica de la catalogación bibliográfica. México: UNAM,
CUIB; IIB, Library Outsoursing, 2007. 25.
9
Ibid
8. Encuentro de Catalogación, Bogotá 20-23 octubre de 2009
Ponencia ECBogota09.doc
Hay un cambio que se presenta significativamente en el interior de los sistemas
categóricos, el cual marca nuevas etapas sin que, a nuestro juicio, indiquen
ruptura con el paradigma de la clasificación. Esta se refiere a la interpretación que
se hace de las entidades y conceptos, tanto por el conocimiento humano como la
manera en que los objetos reales o virtuales se interrelacionan dentro de la
realidad de la información digital.
Las entidades y los conceptos en la organización del conocimiento
Las entidades y los conceptos nacen concomitantemente con la categoría, es
decir parten de las características del objeto y los mecanismos que se desarrollan
en el sistema categórico. Diversos autores han abordado el asunto desde distintas
perspectivas, por ejemplo, Foucault10 las distingue como la formación de los
objetos, las cuales tiene origen en un conjunto de relaciones establecidas entre
instancias de emergencia, de delimitación y de especificación. Donde se resaltan
que las características de una forma discursiva se define del establecimiento de
conjuntos semejantes.
Desde el punto de vista de la teoría y la práctica de la clasificación, Richardson 11
señala que las ideas como cosas solamente viene en la mente del hombre y las
cosas reales solamente existen dentro de su propia definición. Es decir, nosotros
tenemos ideas permanentes guardadas en los libros, objetos, pinturas, imágenes
fijas y en movimiento, las cuales para los científicos se les reconocen como
10
Michael Focault. La arqueología del saber. 65, 72.
11
Ernest Cushing Richardson. Classification: theoretical and practical. 26-27.
9. Encuentro de Catalogación, Bogotá 20-23 octubre de 2009
Ponencia ECBogota09.doc
animales fósiles. Lo cual quiere decir que el orden de las ciencias es el orden de
las cosas; que los objetos incluyen el pasado así como el presente y, que las
cosas pasadas o presentes incluyen las ideas, así como la naturaleza del arte.
Ahora bien, desde el terreno de la semántica y la semiótica. Las entidades y los
conceptos se identifican como signos. Para Schaff12
Los hombres se comunican de diferentes maneras, y el origen de las varias
manifestaciones concretas del proceso también es diverso, especialmente
en los niveles superiores del proceso de la comunicación, en que los
motivos de la comunicación no se limitan a materias biológicas, a
exigencias de la producción, etc., sino que comprenden la necesidad de
intercambiar ideas abstractas, de estimular emociones, etc. Pero los
hombres se comunican siempre por medio de signos en diferentes formas.
De ahí la importancia práctica y teórica de los signos y la necesidad de una
teoría definida acerca de ellos.
En la semiótica Eco13 nos dice que el término información tiene dos sentido
fundamentales: a) significa una propiedad estadística de la fuente, es decir, que
designa la cantidad de información que puede transmitirse; b) significa una
cantidad precisa de información seleccionada que se ha transmitido y recibido
efectivamente.
Así pues, lo que le interesa a la semiótica es proporcionar categorías utilizables en
el dominio sintagmático, por ejemplo, el modo en que los códigos pasan a ser el
plano del contenido en otro sistema del mismo tipo y usar categorías como
„significado‟ y „contenido‟.
12
Adam Schaff. Introducción a la semántica. 163.
13
Umberto Eco. Tratado de semiótica general. 90-95
10. Encuentro de Catalogación, Bogotá 20-23 octubre de 2009
Ponencia ECBogota09.doc
Como hemos visto, las entidades y los conceptos en distintas disciplinas son
fundamentales para su teorización y aun falta observar las aplicaciones y uso en el
análisis facetado, donde los aspectos de orden y creación de categorías consisten
de alguna manera en una cierta redirección y ajuste en la administración de la
organización del conocimiento.
Esto lo advertiremos en forma clara en algunas explicaciones, como las que
proporciona Jacob14 respecto a las diferencias que hacen las diferencias entre
clasificación y categorización, quien señala que la categorización es un proceso
que divide al mundo en grupos de entidades en el cual cada uno de sus miembros
tiene una similitud que el otro; se reconocen por medio de algún elemento
parecido entre las entidades y sus subsecuentes agregaciones.
Entonces, la categorización entendida como proceso, crea una síntesis basada en
el contexto de las entidades o similitudes percibidas. Observada desde sus límites
de pertenencia nos dice que cualquier grupo no es vinculante, debido a que sus
límites son difusos. Analizada desde sus membrecía, nos dice que es flexible
debido a que cada membrecía categórica está sustentada en las generalidades
del conocimiento y/o contexto inmediato. Estudiada desde sus criterios de
asignación, se puede revisar desde ambos contextos, el dependiente y el
independiente.
14
Elin K. Jacob. “Classification and categorization: a difference that makes a difference.” Library
trends. Vol. 52, no. 3 (winter, 2004): 507-514
11. Encuentro de Catalogación, Bogotá 20-23 octubre de 2009
Ponencia ECBogota09.doc
Típicamente las membrecías individuales pueden posicionarse dentro de una
estructura de clasificación y la estructura permite desarrollar formas jerárquicas de
acuerdo con las agrupaciones de las entidades.
En general, podemos decir que los esfuerzo por analizar las relaciones entre las
entidades y los conceptos están en su auge, resaltando todo aquello que tiene que
ver con las tecnologías15 que hacen posible que la Web experimente una rápida
evolución. Desde las primeras como son el “html” y el “http” hasta las que tiene
que ver como el “php” “Java” “flash”, “XML”, por citar algunas de las más
conocidas.
La Web hoy responde de manera “casi transparente” a un buen usuario, quien con
la ayuda de un buscador potente el permite encontrar información sobre casa
cualquier cosa que necesite. Según Castells16 la Web está cerca de convertirse en
una enciclopedia universal del conocimiento humano.
Sin moverse de casa el usuario realiza cualquier actividad económica, laboral,
comercial, cultural y de entretenimiento y como lo comenta Rifkin,17 los principales
cambios estructurales que se dan en esta era del acceso sustituyen los mercados
por redes y de la propiedad por el acceso, la marginación de la propiedad física, el
15
Pablo Castells. Op cit.
16
Ibid.
17
Jeremy Rifkin. La era del acceso, la revolución de la nueva economía. Barcelona. Paidós, 2002.
21
12. Encuentro de Catalogación, Bogotá 20-23 octubre de 2009
Ponencia ECBogota09.doc
ascenso de la propiedad intelectual, así como el incremento de la mercantilización
de las relaciones humanas.
Hoy en día para la mayoría de los profesionales dedicados al estudio de la
información es habitual referirse a la Web semántica. Entre sus características
puede encontrarse el estudio de la confluencia de la Inteligencia Artificial y las
tecnologías web que propone introducir descripciones explicitas sobre el
significado de los recursos, con el firme propósito de permitir a las computadoras
un nivel de comprensión de las actividades que realiza actualmente el usuario.
Según Parson18 la moderna tecnología de información permite organizar un gran
volumen de datos acerca de sus diversas operaciones. Sin embargo, la sola
colección de datos no garantiza que esta pueda ser eficientemente utilizada.
Para que el usuario de los sitios Web sobreviva, se adapte e intente entender y
explicar la naturaleza de los conceptos (categorías/clases) en este nuevo entorno,
debe pensar que el significado de los mismos tiene dos funciones primordiales: la
primera es que se llega a una economía cognitiva que significa que los conceptos
reducen su carga cognitiva para asociar con la clasificación y organización del
conocimiento. Es decir, una entidad por abstracta que sea tiene la misma
importancia que cualquiera de sus miembros.
18
Jeffrey Parsons. Op cit. 131.
13. Encuentro de Catalogación, Bogotá 20-23 octubre de 2009
Ponencia ECBogota09.doc
La segunda función es la inferencia que significa que las conclusiones a que se
lleguen pueden dibujarse sobre las propiedades no observadas de un objeto. Esto
es, los objetos materiales del mundo son percibidos por medio de la alta
correlación que existe entre la estructura. De ahí que si un objeto solamente tiene
ciertas propiedades, éste podrá contener propiedades adicionales de interés que
permitan la especificidad del concepto.
Finalmente, hay que señalar que los creadores de los sistemas categóricos ponen
mucha atención en las funciones anteriormente señaladas porque la organización
del conocimiento de los sitios Web debe crear un clima de libertad total para que el
usuario navegue sin complicaciones en el entorno de la información digital.
14. Encuentro de Catalogación, Bogotá 20-23 octubre de 2009
Ponencia ECBogota09.doc
Obras consultadas
Anderson, James D., José Pérez-Carballo. The nature of indexing: how human
and machines analyze message and texts for retrieval. Part I: research, and
the nature of human indexing. Information processing and management. Vol.
37 (2001): 231-254.
Anderson, James D., José Pérez-Carballo. The nature of indexing: how human
and machines analyze message and texts for retrieval. Part II: machine
indexing, and the allocation of human versus machine effort. Information
processing and management. Vol. 37 (2001): 255-277.
Bean, Carol and Rebecca Green, ed. Relationships in the organization of
knowledge. Dordrecht: Kluwer Academic Publishers, 2001.
Chowdhury, G.G. Knowledge organization or information organization? A key
component of knowledge management activities.
Chu, Heting. Information representation and retrieval in the digital age. New
Jersey: Information Today,
Dumais, Susan and Hao Chen. Hierachical classification of web content.
Denton, William. How to make a faceted classification and put it on the web. URL:
http://www.miskatonic.org/library/facet-web-howto.html. (Consultado: dic,
2008)
Eco, Umberto. Tratado de semiótica general. México: Nueva imagen; Lumen,
1978.
Floridi, Luciano. What is the philosphy of information? Metaphilosophy. Vol. 33, no.
½ (January, 2002): 123-145.
Focault, Michael. La arqueología del saber. 22ª reimp. México: Siglo XXI, 2005.
Focault, Michael. Las palabras y las cosas: una arqueología de las ciencias
humanas. 33 reimp. México: Siglo XXI, 2008.
González Pérez, Yanelis. Las ontologías en la representación y organización de la
información. Acimed. Vol. 14, no. 4 (2006)
Gordon, John L. Using knowledge structure maps as a foundation fo knowledge
management.
Herold, Ken, ed. “The philosophy of information.” Library trends. Vol. 52, no. 3
(winter, 2004)
Lamberts, Koen, David Shanks, ed. Knowledge, concepts and categories.
Cambridge, Mass: The MIT Press,
Perales Ojeda, Alicia. De la informática. México: UNAM, Facultad de Filosofía y
Letras, 1975.
Raber, Douglas, John M. “Budd. Information as sign: semiotics and information
science.” Journal of documentation. Vol. 59, no. 5 (2003): 507-522.
Richardson, Ernest Cushing. Classification: theoretical and practical. New York:
Charles Scribner‟s Sons, 1901.
Schaff, Adam. Introducción a la semántica. México: Fondo de Cultura Económica,
1962.
Smiraglia, Richard P. The progress of theory in knowledge organization. Library
trends (2002)