Este documento describe el desarrollo de una interfaz web para consultar y analizar datos de bioinformática utilizando servicios web del EMBL-EBI. El objetivo principal fue crear una interfaz que permita acceder y analizar datos genómicos de forma sistemática. La interfaz usa herramientas como WSDbFetch, InterProScan y BLAST apoyadas por servicios web SOAP del EBI. El documento explica los conceptos teóricos, el desarrollo de la aplicación, las pruebas y resultados, y concluye que la interfaz permite interactuar
Desarrollo de una interfaz Web de consulta y análisis de datos en Bioinformatica basada en Web Services del EMBL - EBI
1. Desarrollo de una interfaz Web de consulta
y análisis de datos en Bioinformaticay análisis de datos en Bioinformatica
basada en Web Services del EMBL - EBI
Por:
JAVIER CONDORI FLORES
Dirigido por:Dirigido por:
Ph.D. JULIO ORTEGA LOPERA
Septiembre, 2011
3. 1. Introduccion
El presente trabajo se trata de realizar una aplicación informática
con herramientas para la consulta y el tratamiento de información
genómica.genómica.
Con el fin poder simplificar de forma sistemática la consulta y el
análisis de datos por parte del investigador.
Estará soportado por el Instituto Europeo de Bioinformatica, el cual
proporciona acceso a más de 200 bases de datos y alrededor de
150 aplicaciones para Bioinformatica.
4. 1. Introduccion
El acceso a datos, herramientas y métodos, será mediante la
tecnología de los Web Services.
Para la integración de varias fuentes de trabajo, esta tecnología se
basa en:basa en:
1. Estándares abiertos como el Simple Object Access Protocol
(SOAP).
2. Un protocolo de mensajería para el transporte de información
(WSDL).
3. Un método estándar para describir Servicios Web y sus
capacidades, y Universal Description Discovery and Integration
(UDDI).
4. Una plataforma independiente basado en XML para el registro
de los servicios.
5. En el proyecto se trabaja con el enlace WSDL que describe
como el servicio está vinculado con el protocolo de mensajería,
en particular la mensajería del protocolo SOAP.
5. El objetivo principal del proyecto es desarrollar una interfaz web
que nos permita acceder y analizar los datos de información
genómica.
2. Objetivos
Objetivos específicos:
a) Estudio y representación bibliográfica de temas específicos
que intervienen en el proyecto.
b) Diseño e implementación de una interfaz web con
herramientas que nos permita acceder, analizar los datos de
información biológica.
c) Realizar las pruebas correspondientes, a través de lasc) Realizar las pruebas correspondientes, a través de las
herramientas proporcionadas en la interfaz.
6. Bioinformatica, es una disciplina donde intervienen, la biología, la
informática y las tecnologías de información, para el tratamiento y
el análisis de la información biológica.
3. Conceptos Teoricos
el análisis de la información biológica.
etapas de las aplicaciones bioinformáticas
1. Se obtienen secuencias similares a la
secuencia inicial. Ejemplo: FASTA o
BLAST.
2. Se obtienen propiedades de similitud
de la secuencia inicial. Ejemplo: SRS.
3. Se buscan motivos funcionales o
estructurales en la secuencia inicial
4. Se obtienen secuencias similares a la4. Se obtienen secuencias similares a la
inicial
5. Se alinean las secuencias. Ejemplo: CLUSTAL.
6. Se obtiene el árbol filogenético Ejemplo: PHYLIP.
7. Se obtiene un motivo característico al hacer el alineamiento.
8. Se usa el motivo para buscar nuevas secuencias. Ejemplo: HMME
7. Cloud Computing, consiste en que los recursos de computación son
proporcionados como servicio (“as a service”), permitiendo a los usuarios
acceder a servicios tecnológicos desde internet (“en la nube”) bajo
3. Conceptos Teoricos
acceder a servicios tecnológicos desde internet (“en la nube”) bajo
demanda.
Clasificación
•Software como servicio (SaaS) -> Aplicaciones Cloud
•Plataforma como servicio (PaaS) -> Plataforma de desarrollo Cloud
•Infraestructura como servicio (IaaS) -> Infraestructura Cloud
8. Web Services, es un sistema que permite a dos aplicaciones remotas
conectarse y enviarse datos a través de una red.
3. Conceptos Teoricos
9. 4. Desarrollo del Proyecto
Instituto Europeo de Bioinformatica EBI
•Se utilizo las herramientas soportados por EBI.
•Su acceso es mediante la tecnología de los Web Services a
través del protocolo SOAP.través del protocolo SOAP.
•Para el acceso a los métodos de los clientes nos centramos en el
lenguaje de descripción WSDL.
•WSDL esta escrito en formato XML , estos contienen mensajes
que contienen información orientada a documentos o a
procedimientos.procedimientos.
•El WSDL esta vinculado con el protocolo de mensajería del
protocolo SOAP.
•Estos datos y las herramientas de análisis acceden utilizando las
interfaces basadas en el navegador.
10. 4. Desarrollo del Proyecto
Instituto Europeo de Bioinformatica EBI
•El cliente lee el WSDL para determinar que funciones están
disponibles en el servidor.disponibles en el servidor.
•Existen herramientas SOAP que proporcionan métodos para la
generación automática de clientes a través del código de
descripción WSDL.
Ejemplo
•WSDL2PHP -> construcción de cliente PHP
•WSDL2JAVA -> construcción de cliente JAVA
•…………….
11. 4.1. Descripcion de los Servicios
En la actualidad, EBI soporta los servicios SOAP, tanto para la base
de datos de recuperación de información y análisis de la secuencia.
Recuperación de Datos:Recuperación de Datos:
•WSDbFetch, realiza búsquedas de secuencia en mas de 20 bases
de datos biológicas, con resultados en varios formatos.
Herramientas de búsquedas de similitudes:
InterProScan, herramienta con algoritmos de búsqueda y métodos
de reconocimiento, integra las siguientes bases de datos dede reconocimiento, integra las siguientes bases de datos de
proteínas: PROSITE, PRINTS, ProDom, Pfam, SMART, TIGRFAMs,
PIRSF, SUPERFAMILY, Gene3D y PANTHER .
NCBI BLAST, herramienta de búsqueda de alineación local,
encuentra secuencias por similitud.
12. 4.2. Desarrollo de la aplicacion
WSDbFetch
Realiza búsqueda de secuencias.
Clientes:
ofrece soporte para varios lenguajes de programación, en el proyecto seofrece soporte para varios lenguajes de programación, en el proyecto se
utilizara el lenguaje de scripting PHP, y para acceder al Web Service,
será mediante el protocolo SOAP y el lenguaje de descripción WSDL
proporcionado por el EBI.
Flujo de trabajo:
13. 4.2. Desarrollo de la aplicacion
WSDbFetch
WSDL PARA EL MÉTODO FETCHBATCH
<wsdl:operation name="fetchBatch" parameterOrder="db ids format style">
<wsdl:documentation>
<wsdl:operation name="fetchBatch" parameterOrder="db ids format style">
<wsdl:documentation>
Get a set of database entries (see http://www.ebi.ac.uk/Tools/webservices/services/dbfetch#fetchbatch_db_ids_format_style).
</wsdl:documentation>
<wsdl:input message="impl:fetchBatchRequest" name="fetchBatchRequest"/>
<wsdl:output message="impl:fetchBatchResponse" name="fetchBatchResponse"/>
<wsdl:fault message="impl:InputException" name="InputException"/>
<wsdl:fault message="impl:DbfParamsException" name="DbfParamsException"/>
<wsdl:fault message="impl:DbfException" name="DbfException"/>
<wsdl:fault message="impl:DbfNoEntryFoundException" name="DbfNoEntryFoundException"/>
<wsdl:fault message="impl:DbfConnException" name="DbfConnException"/>
</wsdl:operation>
<wsdl:fault message="impl:DbfConnException" name="DbfConnException"/>
</wsdl:operation>
14. 4.2. Desarrollo de la aplicacion
WSDbFetch
IMPLEMENTACIÓN DEL CLIENTE FETCHBATCH
# URL for the service WSDL
$wsdlUrl = 'http://www.ebi.ac.uk/ws/services/WSDbfetch?wsdl';
# URL for the service WSDL
$wsdlUrl = 'http://www.ebi.ac.uk/ws/services/WSDbfetch?wsdl';
try {
// Get a service proxy from the WSDL
$proxy = new SoapClient($wsdlUrl);
// Call a method on the service via the proxy
$result = $proxy->fetchBatch ('UNIPROT', 'ADH1A_HUMAN', 'fasta', 'raw');
echo $result;
}
catch(SoapFault $ex) {
echo 'Error: ';
if($ex->getMessage() != '') echo $ex->getMessage();
else echo $ex;
echo 'Error: ';
if($ex->getMessage() != '') echo $ex->getMessage();
else echo $ex;
echo "n";
17. 5. Pruebas y Resultados
Demostración del Sistema
18. 5. Conclusiones
En el presente proyecto se desarrollo una interfaz web que nos da
la posibilidad de interactuar con grandes volúmenes de datos de
información genómica.información genómica.
La aplicación nos permite utilizar todos los algoritmos que existen
en el servidor de una forma distribuida.
Se accede a través de una aplicación cliente web, simplemente
con conocer el funcionamiento del archivo WSDL.
La interfaz desarrollada consta de herramientas que ofrecenLa interfaz desarrollada consta de herramientas que ofrecen
información relevante para objetos de estudios del investigador
19. 5.1. Trabajo futuro
Implementación de tecnologías, herramientas y métodos para
mejorar las prestaciones en el análisis y tratamiento de los datos
en bioinformatica, para tal objetivo se propone realizar unaen bioinformatica, para tal objetivo se propone realizar una
plataforma que incluya las siguientes características.
•Implementación de un Cluster HPC.
•Implementación de algoritmos de cálculo paralelo con MPI BLAST
y CLUSTALW MPI.
•Implementar gSOAP para que el acceso a los algoritmos, bases
de datos y resultados sea mediante Web Services.de datos y resultados sea mediante Web Services.
20. "La próxima frontera de la humanidad
no es el espacio, sino nosotros mismos"
Gregory Stock - Biofísico
Muchas Gracias ….
Gregory Stock - Biofísico