Pyxser, Serialización XML en Python (paper)

pyxser,
Serializaciń XML en Python
o
Daniel Molina Wegener
dmw@coder.cl

16 de octubre de 2009

Resumen
Pyxser es un proyecto FOSS desarrollado por Daniel Molina Wegener como una investi-
gaciń e iniciativa propias. Es una extensiń Python 1 que utiliza las rutinas de libxml2 para
o o
realizar tareas de serializaciń y deserializaciń de objetos Python. Pyxser utiliza un modelo
o o
de serializaciń definido en un esquema XML2 y tambiń en una DTD 3 . La definiciń de un
o e o
modelo de serializaciń permite la validaciń de la estructura del objeto serializado. El modelo
o o
tambiń permite empotrar objetos Python que estń serializados en otros documentos XML,
e e
como por ejemplo, incluir la definiciń de objetos Python dentro de un WSDL4 para utilizarlo
o
con Web Services.

Palabras Clave Python, XML, serializaciń, deserializaciń, modelo, implementaciń, C,
o o o
Python C/API, XML Schema, DTD, normalizaciń.
o

Introducciń
o
Com´ nmente el modelo de serializaciń que siguen las distintas plataformas presenta un nivel
u o
de personalizaciń demasiado alto. El proceso com´ n de serializaciń, en lugar de buscar una
o u o
definiciń, crea instancias XML sin una estructura previa.
o
El proceso de serializaciń en .NET, por ejemplo, crea elementos XML por cada clase, a veces
o
omitiendo el espacio de nombres de las clases. Esto conlleva a la necesidad de generar un esque-
ma XML por cada clase serializada o uno que los agrupe a todos, generando un alto nivel de
acoplamiento[7]. De la misma forma, los objetos serializados son dif´ ıciles de transportar entre las
diferentes plataformas.
Pyxser en cambio, presenta un unico modelo de serializaciń, de manera constante y con un
´ o
nivel apropiado de cohesiń[7], sin un acoplamiento respecto de su implementaciń y que permite
o o
realizar transferencias de objetos desde un lugar a otro[2], s´lo con adoptar el esquema XML y el
o
conocimiento de las clases que se van a serializar.

1
Un m´dulo escrito en C utilizando la Python C/API
o
2
XML Schema
3
Document Type Definition
4
Web Services Description Language

Motivaciń
o
Definir un modelo de serializaciń normalizado para objetos, que permita serializar
o
objetos de cualquier plataforma, bajo un esquema XML bien definido y entregar un
nivel apropiado de interoperabilidad entre distintas plataformas.[6]

Pyxser es la implementaciń de este modelo. Se escogi´ Python como lenguaje, dada la potente
o o
capacidad de introspecciń[9] que posee su interfaz de extensiń en C o m´s conocida como Python
o o a
C/API. El modelo claramente es migrable a otros lenguajes que soporten similares caracter´ ısticas
de introspecciń.
o

Modelo de Serializaciń
o
El modelo de serializaciń es simple 5 . Reune las caracter´
o ısticas suficientes para realizar seriali-
zaciones de objetos de varios lenguajes. Esta misma simplicidad, desde el punto de vista del diseõ n
de la estructura, le permite ser portado y empotrado en otros documentos XML[4].
El elemento pyxs:obj 6 se utiliza para serializar objetos. Cada objeto presenta los atributos
necesarios para su representaciń con el adecuado soporte para referencias cruzadas y referencias
o
circulares. Este elemento posee 2 atributos esenciales, module y type, donde module se utiliza para
declarar el espacio de nombres y type para declarar la clase. Como identificador se utiliza el atributo
objid, el cual esta declarado como ID en la DTD y xs:ID 7 en el esquema XML.
<x s : e l e m e n t name=” o b j ”>
<xs:complexType>
<x s : c h o i c e minOccurs=”0 ” maxOccurs=”unbounded ”>
<x s : e l e m e n t r e f=”prop ”/>
<x s : e l e m e n t r e f=” c o l ”/>
<x s : e l e m e n t r e f=”o b j ”/>
</ x s : c h o i c e>
< x s : a t t r i b u t e name=” v e r s i o n ” default=” 1 . 0 ”>
<x s : s i m p l e T y p e>
< x s : r e s t r i c t i o n b a s e=” x s : s t r i n g ”>
<x s : e n u m e r a t i o n v a l u e=” 1 . 0 ”/>
</ x s : r e s t r i c t i o n>
</ x s : s i m p l e T y p e>
</ x s : a t t r i b u t e>
< x s : a t t r i b u t e name=” o b j i d ” type=” x s : I D ”/>
< x s : a t t r i b u t e name=” o b j r e f ” type=”xs:IDREF ”/>
< x s : a t t r i b u t e name=”type ” type=”xs:NMTOKEN”/>
< x s : a t t r i b u t e name=”name ” type=”xs:NMTOKEN”/>
< x s : a t t r i b u t e name=”module ” type=”xs:NMTOKEN”/>
< x s : a t t r i b u t e name=” s i z e ” type=”xs:NMTOKEN”/>
</ xs:complexType>
</ x s : e l e m e n t>

Listing 1: Definiciń del Objeto
o
5
K.I.S.S.
6
Con el namespace pyxs [3] referente a http://projects.coder.cl/pyxser/model/
7
xs: es el espacio de nombres para los esquemas XML, http://www.w3.org/2001/XMLSchema

2

Cuando un objeto ya se encuentra serializado y se encuentra la misma referencia en el ´rbol de
a
objetos o el caso de una referencia circular, se vuelve a crear un instancia del elemento pyxs:obj [8],
con la diferencia de que no agrupa subelementos, y presenta el atributo objref para referenciar al
objeto ya serializado. Este atributo esta declarado como IDREF en la DTD y como xs:IDREF [1]
en el esquema XML. Lo mismo ocurre con las referencias cruzadas, si un objeto ya se encuentra
serializado, se crea una referencia al objeto de la misma forma. Se mantiene type y module por una
cuestiń de integridad, pero no se hace uso de estos de manera concreta.
o
Para los tipos primitivos o b´sicos, como enteros y cadenas, se utilizan elementos pyxs:prop. El
a
elemento pyxs:prop, presenta el atributo type para declarar el tipo y el atributo size para el tama˜ o.
n
Tambiń presenta el atributo name para declarar el nombre de la propiedad.
e
<x s : e l e m e n t name=”prop ”>
<xs:complexType mixed=” t r u e ”>
< x s : a t t r i b u t e name=”type ” u s e=” r e q u i r e d ” type=”xs:NMTOKEN”/>
< x s : a t t r i b u t e name=”name ” type=”xs:NMTOKEN”/>
< x s : a t t r i b u t e name=” s i z e ” type=”xs:NMTOKEN”/>
< x s : a t t r i b u t e name=”compress ”>
< x s : r e s t r i c t i o n b a s e=” x s : t o k e n ”>
<x s : e n u m e r a t i o n v a l u e=” y e s ”/>
<x s : e n u m e r a t i o n v a l u e=”no ”/>
< x s : a t t r i b u t e name=”e n c o d i n g ”>
< x s : r e s t r i c t i o n b a s e=” x s : t o k e n ”>
<x s : e n u m e r a t i o n v a l u e=” a s c i i ”/>
<x s : e n u m e r a t i o n v a l u e=”b a s e 6 4 ”/>
</ xs:complexType>
</ x s : e l e m e n t>

Listing 2: Definiciń de las Propiedades
o
Para declarar las colecciones — y debido a que no siempre las colecciones son clases propiamente
tal — se cre´ el elemento pyxs:col, el cual tambiń presenta los atributos type y name. El tama˜ o de
o e n
la colecciń se da por la cantidad de subelementos que esta posea, en lugar de utilizar un atributo
o
size o length.
<x s : e l e m e n t name=” c o l ”>
<xs:complexType>
<x s : c h o i c e minOccurs=”0 ” maxOccurs=”unbounded ”>
<x s : e l e m e n t r e f=”prop ”/>
<x s : e l e m e n t r e f=” c o l ”/>
<x s : e l e m e n t r e f=”o b j ”/>
</ x s : c h o i c e>
< x s : a t t r i b u t e name=”type ” u s e=” r e q u i r e d ” type=”xs:NMTOKEN”/>
< x s : a t t r i b u t e name=”name ” u s e=” r e q u i r e d ” type=”xs:NMTOKEN”/>
</ xs:complexType>
</ x s : e l e m e n t>

Listing 3: Definiciń de las Colecciones
o

3

El modelo es recursivo, ya que puede reunir objetos bajo el elemento pyxs:obj o pyxs:col.
El modelo, globalmente, presenta una serie de ventajas respecto de otros modelos de seriali-
zaciń. Este es reutilizable, importable y reimplementable en otros lenguajes que soporten DOM,
o
permitiendo crear objetos en runtime utilizando m´todos DOM estńdar, sin caer en elementos
e a
propietarios de este tipo de API. Tambiń se pueden generar las clases necesarias para trabajar con
e
el modelo bajo APIs externas a Python, como por ejemplo JAXB en Java.

Figura 1: Modelo de Serializaciń
o

Reutilizaciń del Modelo
o
El modelo al estar representado bajo la forma de DTD 8 y esquema XML9 es reutilizable en otras
plataformas. Por ejemplo bajo Java se pueden generar los XML Beans necesarios para interactuar
con este o bien replicar la serializaciń bajo las caracter´
o ısticas de introspecciń que posee Java. Sin
o
embargo, Java, a diferencia de Python carece de constructores crudos por medio de introspecciń o
y requiere que sea declarado un constructor de firma sin par´metros.
a
8
Document Type Definition
9
XML Schema

4

Otro caso particular, podr´ ser PHP, el cual carece de espacios de nombres y una estructura
ıa
ordenada de carga de clases — se puede cargar una clase desde cualquier parte del sistema.
Sin embargo, Python podr´ recibir objetos serializados bajo este modelo y reconvertirlos en un
ıa
objeto concreto respecto de su clase original sin problemas respecto de su uso. Java posibilita la
creaciń de objetos mock — imitaciones de clases reales — utilizando introspecciń, pero es sabido
o o
que Java posee bajo rendimiento en su implementaciń de introspecciń pura desde Java. Es posible
o o
que una implementaciń con JNI 10 sea m´s r´pida11 . Aun as´ JNI carece de constructores crudos[5].
o a a ı
El modelo de serializaciń, al estar representado por un unico esquema XML, sin instancias
o ´
espec´ıficas para cada objeto que sea serializado, permite reutilizar el modelo en otros documentos
XML. De esta forma, es posible incluir el documento dentro de otros esquemas, por ejemplo:
<w s d l : t y p e s>
<xsd:schema targetNamespace=” h t t p : //www. example . o r g / H e l l o / ”
x m l n s : s o a p=” h t t p : // schemas . xmlsoap . o r g / wsdl / soap / ”
x m l n s : t n s=” h t t p : //www. example . o r g / H e l l o / ”
x m l n s : w s d l=” h t t p : // schemas . xmlsoap . o r g / wsdl / ”
x m l n s : x s d=” h t t p : //www. w3 . o r g /2001/XMLSchema ”
x m l n s : p y x s=” h t t p : // p r o j e c t s . c o d e r . c l / p y x s e r / model / ”>
<x s d : i m p o r t
namespace=” h t t p : // p r o j e c t s . c o d e r . c l / p y x s e r / model / ”
schemaLocation=”pyxser − 1 . 0 . xsd ” />
<x s d : e l e m e n t name=” o b j ” />
</ xsd:schema>
</ w s d l : t y p e s>

Listing 4: Ejemplo dentro de WSDL
Dentro de una especificaciń WSDL, permite hacer uso de los objetos serializados como si fuesen
o
parte del servicio y tipifcar directamente los objetos a serializar, evitando el uso de clases espec´
ıficas
[6].
Sin embargo, esto no permite crear por si sola una instancia XML que efectivamente represente
el objeto. Es necesario conocer la clase en s´ por lo que se debe generar el algoritmo apropiado en
ı,
otros lenguajes para comunicar el mensaje con la reprsentaciń exacta que se desea.
o
Otro detalle importante, m´s referente a la implementaciń, es que se debe serializar un objeto
a o
dandole prioridad a los objetos. Esto implica que se deben serializar los objetos primero, para evitar
la perdida de datos a momento de encontrar referencias cruzadas o circulares. Esto permite que el
algoritmo sea O(n) en lugar de ser O(n2 ), dado el doble recorrido que se debe realizar para verificar
las referencias a objetos. Tambiń, en efecto, se reduce la serializaciń de O(n) a O(log n) a medida
e o
que incrementan las referencias.

Referencias
[1] Paul V. Biron and Ashok Malhotra. Xml schema part 2: Datatypes second edition. World Wide
Web Consortium, Recommendation REC-xmlschema-2-20041028, October 2004.
[2] T. Bray, J. Paoli, C. M. Sperberg-McQueen, E. Maler, and F. Yergeau. Extensible Markup
Language (XML) 1.0 (Third Edition), W3C Recommendation 04 February 2004. The World
Wide Web Consortium, 2004.
10
Java Native Interface
11
Sun recomienda no usar introspecciń via java.lang.reflect en entornos de producciń
o o

5

[3] Tim Bray, Dave Hollander, Andrew Layman, and Richard Tobin. Namespaces in xml 1.0 (second
edition). World Wide Web Consortium, Recommendation REC-xml-names-20060816, August
2006.

[4] David C. Fallside and Priscilla Walmsley. XML Schema Part 0: Primer Second Edition, W3C
Recommendation 28 October 2004. The World Wide Web Consortium, 2006.

[5] Sheng Liang. Java Native Interface: Programmer’s Guide and Reference. Addison-Wesley
Longman Publishing Co., Inc., Boston, MA, USA., 1999.

[6] Ian Piumarta and Alessandro Warth. Open, reusable object models. Technical Report VPRI
Research Note RN 2006-003-a, 2006.

[7] Diomidis Spinellis and Georgios Gousios. Beautiful Architecture: Leading Thinkers Reveal the
Hidden Beauty in Software Design. O’Reilly Media, Inc., January 2009.

[8] Henry S. Thompson, David Beech, Murray Maloney, and Noah Mendelsohn. Xml schema part
1: Structures second edition. World Wide Web Consortium, Recommendation REC-xmlschema-
1-20041028, October 2004.

[9] Guido van Rossum. Python/C API Reference Manual. Python Software Foundation, 2.5 edition,
Septiembre 2006.

6

Pyxser, Serialización XML en Python (paper)

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (13)

Destacado

Destacado (9)

Similar a Pyxser, Serialización XML en Python (paper)

Similar a Pyxser, Serialización XML en Python (paper) (20)

Pyxser, Serialización XML en Python (paper)