SlideShare una empresa de Scribd logo
1 de 30
Universidad Central del
Ecuador
FACULTAD DE CIENCIAS
ECONÒMICAS
 CAPITULO 27:
LENGUAJE DE MARCADO EXTENSIBLE
 CAPITULO 28
CONCEPTOS MINERIA DE DATOS
 CARRERA DE FINANZAS
 NOMBRE: JAVIER SAMUEZA
 AULA: 39
Javier Samueza
lenguaje de mercado extensible
se ha elejido como el lenguaje estandar para estructurar e intercambiar datospor la web y se utiliza para proporcionar informacion adicional de la estrustura y siginificadao de
ciertos componentes XLS( Lenguaje de estilo libre) ;XML( Posible modelo de almacenamiento y recuperacion de datos se utiizan 2 elementos principales : Elementos y atributos y cabe
mencionar que en base de datos no se utilizan la misma terminologia que en XLS
Una continuacion del nombre del
elemento significa que el
elemento puede repetirse varias
veces
PCDATA se refiere a datos
disponibles en XML DTD)
Simbolo e1 y e2 especifica que el
documento puede aparecer en e1
o e2
XML DTD es bastante para
epecificar estructuras de arbol
con elementos obligatorios
opcionale y repetitivos estan
destinados a seguir un orden
especificado en el documento
XML SCHEMA
El lenguaje es un estandar para
especificar los documentos XML
utilizan el mismo lenguaje que los
documento XLM pueden presentar
los mismo procesadores
XLM,DTD estan basados en
modelo de datos en arbol y
atributos
Javier Samueza
Es necesario identificar el conjunto especifico de elementos de lenguaje XLM SCHEMA ( etiquetas) que se utiliza em documeto almacenado en la web
ejemplo http://www.3.org/2001/xmlschema espacio de nombres se aigna a toda variable xsd
Descripciones de esquema y espacios de nombre XLM
Anotaciones,documentacion y lenguaje utilizado
xsd anotacion y xsd documentacion para comentarios y anotacione adicionales, xml lang=
ingles
elemento y tipos
elemento raiz company para una serie de departamentos empleados y proyectos es decir comando utilizado para mejor el orden en entidades
Elementos de primer nive en la base de datos empresa
3 elementos sumamente importantes de primer nivel bajo elemento de raiz company 3 elementos importantes (employee,departament,y project cadad uno con su
elemento xsd element y si dentro de estas etiquetas se coloca el elemento (>) son conocidos como los elemento vacios
especificar el tipod de elemento y las ocurrencias minima y maxima
en XML schema atributos type minoccurus y maxoccuros especifica la multiplicidad de cada elemento en cualquier docuemento conforme a las especificaciones del
esquema si especificamos un elemento en cualquier documento se ilustrar con elementos employee, departamento y project pero si especificamos un elemento type ya
podemos definir directamente el elemento
Javier Samueza
x query especificacion de consultas en XML
permiten escribir expresiones nodos a partir de un documento XLM estrucuturado en la forma de arbol x query permite realizar consultas mas generales de un o o
mas temas o mas documentos en forma XML se cono ce como consultas ( FOR,LET,)
metodos para almacenar documentos xml
uso de un DMBS para almacenar los documento como texto
utilizacion de dbms de objetos o relacionar para
almacenar documentos xml enteros como campos
de texto dentro de los objetos o regitro DBMS para
procesamiento de datos
uso deun dbms para almacenar el contenido del docuemento
como elementos de datos
coleccion de documentos que obedecen un esquema xlm
especifico o XML DTB tienen datos relacionados es
decir misma estructura que esta especificada eN XLM o
DTB para recrear docuementos
diseño de un sistema
especializado para almacenar
datos XLM nativos
implementacion de sistema de base de
datos en arbol llamados XLM dmbs
nativos que contienen consultas
especializadas e indexacion y deberia
funcionar para todos los documentos
Creacion o publicacion de documentos XML personalizados a
partir de base de datos relacionales pre-existentes
omo base de datos relacionados hay cantidades enormes de datos almacenados puede
darse la necesidad de almacernarlos o intercambiarlos por la web
Javier Samueza
base da datos
esta seccion explica los problemas que surgen al convertir datos de un sistema de base de datos en documentos XLM utiliza un modelo jerarquico(arbol) para
representar los documentos utilizan modeo relacionales plano
Se le llama base de datos a los bancos de información que contienen datos relativos a diversas temáticas y categorizados de distinta manera, pero que comparten
entre sí algún tipo de vínculo o relación que busca ordenarlos y clasificarlos en conjunto.
Idea
Javier Samueza
lenguaje xlm
XML, siglas en inglés de eXtensible Markup Language ('lenguaje de marcas extensible'), es un
lenguaje de marcas desarrollado por el World Wide Web Consortium (W3C) utilizado para
almacenar datos en forma legible. Proviene del lenguaje SGML y permite definir la gramática de
lenguajes específicos (de la misma manera que HTML es a su vez un lenguaje definido por SGML)
para estructurar documentos grandes. A diferencia de otros lenguajes, XML da soporte a bases de
datos, siendo útil cuando varias aplicaciones deben comunicarse entre sí o integrar información.1
XML no ha nacido sólo para su aplicación para Internet, sino que se propone como un estándar
para el intercambio de información estructurada entre diferentes plataformas. Se puede usar en
bases de datos, editores de texto, hojas de cálculo y casi cualquier cosa imaginable.
XML es una tecnología sencilla que tiene a su alrededor otras que la complementan y la hacen
mucho más grande y con unas posibilidades mucho mayores. Tiene un papel muy importante en la
actualidad ya que permite la compatibilidad entre sistemas para compartir la información de una
manera segura, fiable y fácil.
Ventajas del XML
Es extensible: Después de diseñado y puesto en producción, es posible extender XML con la
adición de nuevas etiquetas, de modo que se pueda continuar utilizando sin complicación
alguna.
El analizador es un componente estándar, no es necesario crear un analizador específico para
cada versión de lenguaje XML. Esto posibilita el empleo de cualquiera de los analizadores
disponibles. De esta manera se evitan bugs y se acelera el desarrollo de aplicaciones.
Si un tercero decide usar un documento creado en XML, es sencillo entender su estructura y
procesarla. Mejora la compatibilidad entre aplicaciones. Podemos comunicar aplicaciones de
distintas plataformas, sin que importe el origen de los datos, es decir, podríamos tener una
aplicación en Linux con una base de datos Postgres y comunicarla con otra aplicación en
Windows y Base de Datos MS-SQL Server.
Transformamos datos en información, pues se le añade un significado concreto y los
asociamos a un contexto, con lo cual tenemos flexibilidad para estructurar documentos.
Javier Samueza
Documento DTD
La DTD es una definición, en un documento SGML o XML, que especifica restricciones en la estructura y sintaxis del mismo. La DTD se puede incluir dentro del
archivo del documento, pero normalmente se almacena en un fichero ASCII de texto separado. La sintaxis de las DTD para SGML y XML es similar pero no idéntica.
La definición de una DTD especifica la sintaxis de una aplicación de SGML o XML, que puede ser un estándar ampliamente utilizado como XHTML o una aplicación
local.
Elementos: indican qué etiquetas
son permitidas y el contenido de
dichas etiquetas.
Estructura: indica el orden en que
van las etiquetas en el documento.
Anidamiento: indica qué
etiquetas van dentro de otras.
otros pasos para extraer documentos XLM apartir de base de datos
1.- es necesario crear la consulta correcta en SQL para extraer la informacion deseada para el docuemnto XML
2. una vez ejecutada la consulta su resultado debe estructurarse para pasar de la forma estructural a la forma de arlbo
3.la consulta debe personalizarse para relacionar uno o varios campos
consulta xlm
varios forma de consulta XLM:
1.- x path que proporciona estructura de lenguajes para identificar varios nodos elemenos
2.- x query igual que x path pero ofrece mas alternativas
x path :especificar expresiones de ruta XLM
CONDICIONES CALIFICADOR que registren el patron adecuado ( nodos)
Como alternativa a la generación de datos sobre la marcha, puede importar un archivo
XML para usar datos de ejemplo. Con esta opción, la ventaja es que el usuario puede
agregar rápidamente los mismos datos de ejemplo a varios proyectos. El archivo XML
puede incluir rutas de acceso a otros archivos únicamente si dichas rutas están
relacionadas con la ubicación del archivo XML. Asegúrese de que esas rutas de acceso
a archivos estén disponibles para cada uno de los proyectos donde se utilice el archivo
XML.
Javier Samueza
XPATH
XPath (XML Path Language) es un lenguaje que permite construir expresiones que recorren y procesan un documento XML. La idea es parecida a las expresiones
regulares para seleccionar partes de un texto sin atributos (plain text). XPath permite buscar y seleccionar teniendo en cuenta la estructura jerárquica del XML. XPath
fue creado para su uso en el estándar XSLT, en el que se usa para seleccionar y examinar la estructura del documento de entrada de la transformación.
Nodo Raíz
Se identifica por /. No se debe
confundir el nodo raíz con el
elemento raíz del documento.
Así, si el documento XML de
nuestro ejemplo tiene por
elemento raíz a libro, éste será
el primer nodo que cuelgue del
nodo raíz del árbol, el cual es
Insisto: / hace referencia al nodo
raíz del árbol, pero no al
elemento raíz del documento
XML, por más que un
documento XML solo pueda
tener un elemento raíz. De
hecho, podemos afirmar que el
nodo raíz del árbol contiene al
elemento raíz del documento.
Nodo Elemento
Cualquier elemento de un
documento XML se convierte en un
nodo elemento dentro del árbol.
Cada elemento tiene su nodo
padre. El nodo padre de cualquier
elemento es, a su vez, un
elemento, excepto el elemento
raíz, cuyo padre es el nodo raíz.
Los nodos elemento tienen a su
vez hijos, que son: nodos
elemento, nodos texto, nodos
comentario y nodos de
instrucciones de proceso. Los
nodos elemento también tienen
propiedades tales como su
nombre, sus atributos e
información sobre los "espacios de
nombre" que tiene activos.
directa.
Nodos atributo
Como ya hemos indicado, los nodos
atributo no son tanto hijos del nodo
elemento que los contiene como
etiquetas añadidas a dicho nodo
elemento. Cada nodo atributo consta
de un nombre, un valor (que es
siempre una cadena) y un posible
"espacio de nombres".
Aquellos atributos que tienen por valor
el valor por defecto asignado en el
DTD se tratarán como si el valor se les
hubiese asignado al escribir el
documento XML. Al contrario, no se
crea nodo para atributos no
especificados en el documento XML, y
con la propiedad #IMPLIED definida
en su DTD. Tampoco se crean nodos
atributo para las definiciones de los
espacios de nombre.
Javier Samueza
base de datos relacionales
La interfaz de programación de aplicaciones, abreviada como API1 (del inglés: Application Programming Interface), es el conjunto de
subrutinas, funciones y procedimientos (o métodos, en la programación orientada a objetos) que ofrece cierta biblioteca para ser utilizado
por otro software como una capa de abstracción.
Son usadas generalmente en las bibliotecas de programación.
Una base de datos se compone
de varias tablas o relaciones.
No pueden existir dos tablas con el
mismo nombre ni registro.
La relación entre una tabla padre y un hijo
se lleva a cabo por medio de las claves
primarias y claves foráneas (o ajenas)
Las claves primarias son la clave
principal de un registro dentro de
una tabla y estas deben cumplir con
la integridad de datos.
Las claves ajenas se colocan en la tabla hija,
contienen el mismo valor que la clave primaria del
registro padre; por medio de estas se hacen las
formas relacionales.
Javier Samueza
Busqueda de patrone secuenciales
El agrupamiento de secuencias se define como la
tarea de separar en grupos a las secuencias de
datos, de manera que las pertenecientes a un
mismo grupo sean muy similares entre sí, y al
mismo tiempo sean diferentes a las de otros
grupos. Se usa en muchos escenarios donde no
se cuenta con registros de información confiable o
donde se deben realizar asociaciones a partir de
la similitud entre las secuencias que se analizan.
Un ejemplo típico de aplicación de esta técnica,
es en las transacciones comerciales donde sirve
para identificar diferentes grupos de clientes con
registros de compra similares.
También tienen un variado uso en la formación de
grupos de secuencias de proteínas similares, para
analizar a profundidad cada uno de ellos
atendiendo a sus características particulares.
Bosqueda de patrones en erie temporlaes
La mayoría de los algoritmos implementados para el
minado de secuencias frecuentes, utilizan tres tipos
diferentes de enfoques de acuerdo a la forma de
realizar el conteo de frecuencia a los patrones
secuenciales candidatos.
El primer grupo de algoritmos se basan en la
propiedad A priori. Esta propiedad fue introducida
por Agrawal and Srikant3 en el minado de reglas de
asociación y se basa en que si un patrón es
frecuente entonces cualquier subpatrón de él
también será frecuente. Esto permite reducir el
espacio de búsqueda en el proceso de generación
de candidatos. Basado en esta estrategia se
presentaron algoritmos como el AprioriAll y el
AprioriSome en;4 y el algoritmo GSP (Patrón
secuencial generalizado).5
El segundo grupo está formado por algoritmos que
tratan de reducir el tamaño del conjunto de datos
explorados, sustituyendo la fase de generación de
candidatos por la realización de proyecciones y
técnicas de crecimiento de patrones sobre los datos
iniciales. .
elemento
Elementos
Un elemento describe los datos que contiene. Los elementos también pueden contener otros elementos y atributos. Para obtener más información, vea
<xsd:all> Element.
Cuando una definición de elemento contiene elementos o atributos adicionales, se trata de un tipo complejo. Para obtener más información sobre los tipos
complejos, vea la sección "Tipos", más adelante en este tema.
La definición básica de un elemento consta de un nombre y un tipo de datos. En el siguiente ejemplo se muestra cómo definir un elemento denominado
quantity, con un tipo de valor entero simple.
atributo
Atributos
Un atributo es una definición de tipo simple con nombre que no puede contener otros elementos. Los atributos también pueden asignarse a un valor
predeterminado opcional y deben aparecer en la parte inferior de las definiciones de tipo complejo. Además, si se declaran varios atributos, se
pueden producir en cualquier pedido. Para obtener más información, vea <xsd:attribute> Element.
El siguiente código muestra cómo declarar un atributo denominado OrderDiscount que está definido con el tipo simple number. El uso de un atributo
aquí tiene sentido ya que los atributos son opcionales. Si no se proporciona OrderDiscount, los datos XML seguirán siendo válidos
Javier Samueza
resumen
este capitulo ofrece una vision general del estandar de representacion e intercambio de datos
por internet hemos descrito el estandar Xml y su modelo de datos jearquico estructurado en forma de arbol
asi como los documentos XML y los lenguajes que permitan especificar la estructura de dicha docuemntos en particulas
XML,DTD,definicion por tipode documento y XML tanto en formato en su formato nativo ( texto(
Lenguaje
Utiliza un subconjunto del lenguaje Prolog llamado Datalog el cual es declarativo y permite al ordenador hacer
deducciones para contestar a consultas basándose en los hechos y reglas almacenado
Mecanismos
Existen dos mecanismos de inferencia:
Ascendente: donde se parte de los hechos y se obtiene nuevos aplicando reglas de inferencia.
Descendente: donde se parte del predicado (objetivo de la consulta realizada) e intenta encontrar similitudes entre las
variables que nos lleven a hechos correctos almacenados en la base de datos.
Javier Samueza
capitulo28 :
conceptos mineria de datos
La minería de datos es el proceso de detectar la información procesable de los conjuntos grandes de datos. Utiliza el análisis matemático para deducir los patrones y
tendencias que existen en los datos. Normalmente, estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones son demasiado complejas o
porque hay demasiado datosEstos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos. Los modelos de minería de datos se pueden aplicar a
situaciones empresariales
como las siguientes:
Predecir ventas
Dirigir correo a clientes específicos
Determinar los productos que se pueden vender juntos
Buscar secuencias en el orden en que los clientes agregan productos a una cesta de compra
repaso a la tecnologia
informe garnet aparece como las tecnologias de mas exito en un futuro proximo se relaccionara la mineria de datos con areas llamadas descubrimientos
del conocimiento
comparacion entre mineria de datos y alamacen de datos
almacen de datos a la toma de deciciones basados en datos mientras que la mineria de datos es la
combinacion de datos se puede aplicar a toda las bases de datos en operaciones individuales expansion de nuevos horizontes
Mineria de datos como parte del proceso del descubrimiento del conocimiento
reglas de asociacion : ejemplo un cliente compre equipos de video tambien complementos
patrones secuenciales: un cliente compra una camara pero despuez de varios meses compra accesorios
arboles de clasificacion : los cliente financiaran sus compras
Javier Samueza
Objetivos de la mineria de datos y el descubrimiento de conocimiento
prediccion
puede predecir como se comportan
ciertosatributos de los datos
ejemplo analisis de transacciones
de compra que consumiran los
clientes
identificacion
los patrones de datos se puede utilizar para
identificar la existencia a los intrusos que
intentan introducirse en un sistema
mediante programas que han sido
ejecutados
Clasificacion :
la mineria de datos puede dividir los
datos en forma clases o categorias
basandonde en combinanciones de
parametros
agrupamiento
la recoleccio de diferente tipo de
informacion para beneficio de los
diferentes personas que la requieran
para poder ser optima y de calidad
Javier Samueza
reglas de asociacion
En minería de datos y aprendizaje automático, las reglas de asociación se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.
1 Se han investigado ampliamente diversos métodos para aprendizaje de reglas de asociación que
han resultado ser muy interesantes para descubrir relaciones entre variables en grandes conjuntos de datos.
reglas de asociacion
Reglas significativas, 'soporte' y 'confianza
Nótese que el ejemplo anterior es muy pequeño, en la práctica, una regla necesita un soporte de varios cientos de registros (transacciones) antes de que
ésta pueda considerarse significativadesde un punto de vista estadístico. A menudo las bases de datos contienen miles o incluso millones de registros.
Para seleccionar reglas interesantes del conjunto de todas las reglas posibles que se pueden derivar de un conjunto de datos se pueden utilizar restricciones sobre diversas medidas de
"significancia" e "interés". Las restricciones más conocidas son los umbrales mínimos de "soporte" y "confianza".
Javier Samueza
El algoritmo apriori
algoritmo apriori se usa en minería de datos para encontrar Reglas de asociación en un conjunto de datos.
Este algoritmo se basa en el conocimiento previo o “a priori” de los conjuntos frecuentes, esto sirve para reducir el espacio de búsqueda yaumentar la eficiencia.
Idea
Javier Samueza
algoritmo de muestreo
es seleccionar pequeñas muestras que esa pequeña muestra quepa en el momento principal de la base de datos y
determininar conjuntos frecuentes con esa muestra podriamos decir que la base son los conjuntos frecuentes
En estadística se conoce como muestreo a la técnica para la selección de una muestra a partir de una población.
Al elegir una muestra aleatoria se espera conseguir que sus propiedades sean extrapolables a la población. Este
proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzarían si se realizase
un estudio de toda la población.
Cabe mencionar que para que el muestreo sea válido y se pueda realizar un estudio adecuado (que consienta no
solo hacer estimaciones de la población sino estimar también los márgenes de error correspondientes a dichas
estimaciones), debe cumplir ciertos requisitos. Nunca podremos estar enteramente seguros de que el resultado sea
una muestra representativa, pero sí podemos actuar de manera que esta condición se alcance con una probabilidad
alta.
Javier Samueza
algoritmo de arbol
Un árbol es una estructura de datos, que puede definirse de forma recursiva como:
- Una estructura vacía o
- Un elemento o clave de información (nodo) más un número finito de estructuras tipo árbol, disjuntos, llamados subárboles.
Si dicho número de estructuras es inferior o igual a 2, se tiene un árbol binario.
Es, por tanto, una estructura no secuencial.
Otra definición nos da el árbol como un tipo de grafo (ver grafos): un árbol es un grafo acíclico, conexo y no dirigido. Es decir, es un grafo no dirigido en el que existe e
xactamente un
camino entre todo par de nodos. Esta definición permite implementar un árbol y sus operaciones empleando las representaciones que se utilizan para los grafos. Sin embargo, e
n esta sección no se tratará esta implementación.
Javier Samueza
algoritmo de particionado
Este algoritmo se ha implementado en lenguaje C. El
programa se puede ejecutar en entorno MS-DOS, para lo
cual simplemente hay que teclear partitio desde el
directorio en el que se encuentre el programa, o en entorno
Windows.
En este último caso, hay que seguir la siguiente
secuencia de pasos: inicio>ejecutar>teclear "partitio"
precedido del path correspondiente>pulsar INTRO.
Estos pasos se muestran en las dos figuras siguientes.
Al ejecutar el programa partitio.exe, el usuario ha de elegir la
opción Kernighan-Lin y proporcionar un fichero de entrada que
contenga el número de bloques así como las interconexiones
entre ellos. A partir de esta información, se distribuyen los
bloques en dos particiones, .
El siguiente paso es la ejecución del algoritmo, tras lo cual,
también opcionalmente, es posible visualizar el reparto final de
los elementos. Por último, se genera el fichero de salida, en el
que se indica la distribución de los bloques obtenida
algoritmo de agrupamiento k
K -means es un método de agrupamiento, que tiene como objetivo la partición de un conjunto de n observaciones en k grupos en el que cada
observación pertenece al grupo más cercano a la media. Es un método utilizado en minería de datos.
La agrupación del conjunto de datos puede ilustrarse en una partición del espacio de datos en celdas de Voronoi.
El problema es computacionalmente difícil (NP-hard). Sin embargo, hay eficientes heurísticas que se emplean comúnmente y convergen
rápidamente a un óptimo local. Estos suelen ser similares a los algoritmos expectation-maximization de mezclas de distribuciones gausianas por
medio de un enfoque de refinamiento iterativo empleado por ambos algoritmos. Además, los dos algoritmos usan los centros que los grupos
utilizan para modelar los datos, sin embargo k-means tiende a encontrar grupos de extensión espacial comparable, mientras que el mecanismo
expectation-maximization permite que los grupos que tengan formas diferentes.
Dado un conjunto de observaciones (x1, x2, …, xn), donde cada observación es un vector real de d dimensiones, k-means construye
una partición de las observaciones en k conjuntos (k ≤ n) S = {S1, S2, …, Sk}
Algoritmo de Crecimiento FP para la busqueda itesem frecuentes
entrada =arbol FP y soporte minimo
salida =patrones frecuentes (conjuntos)
revela interesantes para regla de asociación asociación minera o conexión relevante entre conjuntos de elementos de grandes cantidades
de datos es un contenido importante de la minería de datos. En este artículo se analiza el algoritmo primero FP-Crecimiento y el
análisis utilizando los resultados de la agrupación algoritmo de estudiantes en grupos y los factores de la relación estudiante racimo han
demostrado que el algoritmo tiene una fuerte viabilidad. Minería de datos de las palabras clave; análisis de asociación; patrón frecuente;
FP-Tree 1 reglas Introducción Association (Reglas de asociación) la minería de datos es una línea de investigación importante en el
campo de la minería, que consiste en la IBM Almaden Research Center de Estados Unidos en Rakesh A-Grawal et al 1993 fue
propuesto por primera vez, es para describir algunas de las reglas que subyacen a la relación entre los elementos de datos en la base de
datos.
Javier Samueza
algoritmos geneticos
Un algoritmo es una serie de pasos organizados que describe el proceso que se debe seguir, para dar solución a un problema específico. En los años 1970, de
la mano de John Henry Holland, surgió una de las líneas más prometedoras de la inteligencia artificial, la de los algoritmos genéticos.1 2 Son llamados así
porque se inspiran en la evolución biológica y su base genético-molecular. Estos algoritmos hacen evolucionar una población de individuos sometiéndola a
acciones aleatorias semejantes a las que actúan en la evolución biológica (mutaciones y recombinaciones genéticas), así como también a una selección de
acuerdo con algún criterio, en función del cual se decide cuáles son los individuos más adaptados, que sobreviven, y cuáles los menos aptos, que son
descartados. Los algoritmos genéticos se enmarcan dentro de los algoritmos evolutivos, que incluyen también las estrategias evolutivas, la programación
evolutiva y la programación genética.
Inicialización: Se genera aleatoriamente la población inicial, que está constituida por un conjunto de cromosomas los cuales representan
las posibles soluciones del problema. En caso de no hacerlo aleatoriamente, es importante garantizar que dentro de la población inicial,
se tenga la diversidad estructural de estas soluciones para tener una representación de la mayor parte de la población posible o al menos
evitar la convergencia prematura.
Evaluación: A cada uno de los cromosomas de esta población se aplicará la función de aptitud para saber cómo de "buena" es la solución
que se está codificando.
Condición de término El AG se deberá detener cuando se alcance la solución óptima, pero ésta generalmente se desconoce, por lo que
se deben utilizar otros criterios de detención. Normalmente se usan dos criterios: correr el AG un número máximo de iteraciones
(generaciones) o detenerlo cuando no haya cambios en la población
Interfaz de usuario
Las interfaces básicas de usuario son
aquellas
que incluyen elementos como menús,
ventanas, contenido gráfico, cursor, los
beeps y algunos otros sonidos que la
computadora hace, y en general, todos
aquellos canales por los cuales se permite
la comunicación entre el ser humano y la
computadora.
La mejor interacción humano-máquina a
través de una adecuada interfaz (de
usuario), que le brinde tanto comodidad,
como eficiencia
Interfaz de programador de aplicaciones
La interfaz de programación de
aplicaciones, abreviada como API1 (del
inglés: Application Programming
Interface), es el conjunto de subrutinas,
funciones y procedimientos (o
métodos, en la programación orientada
a objetos) que ofrece cierta biblioteca
para ser utilizado por otro software
como una capa de abstracción.
Son usadas generalmente en las
bibliotecas de programación.
tendencias par el futuro
la herramienta de mineria de datos se
encuentre en constante evolucion a partir de
ideas procedentes de ultimas investigaciones
cientificas de las cuales integran muchos
algorimos que hacen que utilicen un codigo
adecuado
Javier Samueza
regresion
es una aplicacion especial de la regla de clasificacion se relaciona directamente con las variables de clase
objeto y se llamara regla de regresion
Dentro de este mÛdulo, en el apartado resumen del procedimiento, se obtiene
la recta de regresiÛn estimada (estimaciÛn de los coeÖcientes de 0 y 1; desviaciones
tÌpicas, lo que permite calcular intervalos de conÖanza de los mismos y test de la t). Este
apartado tambiÈn proporciona la tabla ANOVA y los coeÖcientes de determinaciÛn. En
este problema el coeÖciente de correlaciÛn es r = 00969, y se concluye que el ajuste lineal
es bueno.
El apartado predicciones permite calcular predicciones e intervalos de
la media condicionada y de predicciÛn para una observaciÛn determinada.
Si la recta de regresiÛn se quiere comparar con otros modelos ìlinealizablesî se puede
Agrupamiento
Un algoritmo de agrupamiento (en inglés, clustering) es un procedimiento de agrupación de una serie de vectores de
acuerdo con un criterio. Esos criterios son por lo general distancia o similitud.La cercanía se define en términos de una d
eterminada función de
distancia, como la euclídea, aunque existen otras más robustas o que permiten extenderla a variables discretas. La medida
más utilizada para medir la similitud
entre los casos es la matriz de correlación entre los nxn casos. El conocimiento de los grupos puede permitir una descripción
sintética de un conjunto de datos multidimensional complejo.
De ahí su uso en minería de datos. Esta descripción sintética se consigue sustituyendo la descripción de todos los elementos
de un grupo por la de un representante característico del mismo.
Usted le enseña a alumnos en un curso llamado 'El arte del idioma Inglés'.
Sus estudiantes están divididos en cuatro grupos, Listening, Reading, Speaking y Writing, y para la mayor parte del curso
trabajan dentro de estos grupos.
Usted quiere que los estudiantes trabajen en un proyecto, que explore el idioma activo y pasivo. Usted crea un agrupamiento
de Passive Language y lo asigna a los grupos de Listening y Reading a este agrupamiento. Usted crea otro agrupamiento de
Active Language y le asigna los grupos de Speaking y Writing a este agrupamiento.
Usando la característica para Restringir el acceso, Usted configura que ciertas tareas solamente sean para el agrupamiento de
Passive Language y otras tareas para el agrupamiento de Active Language.
Ahora los grupos pueden trabajar juntos dentro de sus agrupamientos, en sus áreas enfocadas respectivas, sin que los otros
grupos observen sus actividades.
Al final del proyecto Usted puede juntar a todos los grupos en una actividad, para que todos los participantes compartan sus
aprendizajes.
Javier Samueza
aplicacion de mineria de datos
Aplicaciones
La minería de secuencias frecuentes posee una amplia gama de aplicaciones, en distintas líneas de investigación y
entornos de producción, como por ejemplo:
Detección de Intrusos: Se ha utilizado para la detección de intrusiones, estudiando los patrones de mal uso en la
seguridad de la información, encontrando patrones de acceso a los recursos, procesando los registros de ataques a la
red, para así descubrir comportamientos secuenciales de intrusión y diseñar estrategias para la detección de varias
etapas de ataque.
Salud: En el sector de la salud, se usan para representar patrones de atención médica como las trayectorias de los
pacientes en los centros de salud, los estados evolutivos de los pacientes, los comportamientos de los síntomas, entre
otros; para descubrir patrones en las historias de los registros médicos y mejorar el nivel de diagnóstico.
Telecomunicaciones: Se utiliza en el campo de las telecomunicaciones para predecir la futura localización de un
usuario móvil, para la búsqueda de patrones de llamadas telefónicas y para los servicios basados en la localización.
Diseño de Sitios Web: Con el amplio uso de la web en la actualidad, las tareas de diseño de sitios y servidores web,
están aumentando su nivel de complejidad. Con la minería de secuencias se pueden registrar cuales son las
principales rutinas de navegación de los usuarios para así proponer mejores estructuras para el diseño del sitio e
identificar mejor las prioridades en las tareas de los servidores.
Bioinformática: En la actualidad existen inmensos volúmenes de información genética que tienen una gran importancia
en los campos de la medicina y la industria farmacéutica. Con la minería de secuencias frecuentes se puede
determinar los genes que codifican para ciertas proteínas y llevar a cabo predicción de genes.
Javier Samueza
herramienta comerciales mineria de datos
Orange es una suite de software
para minería de base de datos y
aprendizaje automático basado en
componentes que cuenta con un
fácil y potente, rápido y versátil
front-end de programación visual
para el análisis exploratorio de
datos y visualización, y librerias
para Python y secuencias de
comando. Contiene un completo
juego de componentes para
preprocesamiento de datos,
característica de puntuación y
filtrado, modelado, evaluación del
modelo, y técnicas de exploración.
Está escrito en C++ y Python, y su
interfaz gráfica de usuario se basa
en la plataforma cruzada del
framework Qt.
Miner, antes llamado YALE (Sin
embargo, otro ambiente de
aprendizaje), es un ambiente de
experimentos en aprendizaje
automático y minería de datos que se
utiliza para tareas de minería de
datos tanto en investigación como en
el mundo real. Permite a los
experimentos componerse de un gran
número de operadores anidables
arbitrariamente, que se detallan en
archivos XML y se hacen con la
interfaz gráfica de usuario de
RapidMiner. .
jHepWork es un framework para
análisis de datos libre y de código
abierto que fue creado como un
intento de hacer un entorno de análisis
de datos usando paquetes de código
abierto con una interfaz de usuario
comprensible y para crear una
herramienta competitiva a los
programas comerciales. Esto se hace
especialmente para las ploteos
científicos interactivos en 2D y 3D y
contiene bibliotecas científicas
numéricas implementadas en Java
para funciones matemáticas, números
aleatorios, y otros algoritmos de
minería de datos. jHepWork se basa
en Jython un lenguaje de
programación de alto nivel, pero
codificación en Java también puede
ser usada para llamar librerías
jHepWork numéricas y gráficas.
Mineria de Datos
Resumiendo lo expuesto hasta ahora podemos decir que la funcionalidad de la minería de datos puede ser:
a) Predictiva (p.ej. caso del banco, hospital): sirve para predecir cosas.
i. En base a una clasificación: por ejemplo si el cliente pagará o no pagará, o el tipo de dolencia que puede tener un paciente.
ii. En base a una regresión: por ejemplo calcular el tiempo previsible que se empleará en corregir los errores de un desarrollo de software.
b) Descriptiva:
i. Agrupamiento (clustering): clasificar individuos en grupos en base a sus características. Por ejemplo, clasificar pacientes del hospital en
base a los datos de sus analíticas.
ii. Reglas de asociación: conocer cómo se relacionan los datos o campos. Por ejemplo conocer en el hipermercado que un cliente que
compra leche muy probablemente comprará también pan.
iii. Secuenciación: intentar predecir el valor de una variable en función del tiempo. Por ejemplo la demanda de energía eléctrica.
Javier Samueza
Mineria de Datos
La minería de datos o exploración de datos (es
la etapa de análisis de "Knowledge Discovery in
Databases" o KDD) es un campo de las ciencias
de la computación referido al proceso que
intenta descubrir patrones en grandes
volúmenes de conjuntos de datos.1 Utiliza los
métodos de la inteligencia artificial,aprendizaje
automático, estadística y sistemas de bases de
datos. El objetivo general del proceso de
minería de datos consiste en extraer
información de un conjunto de datos y
transformarla en una estructura comprensible
para su uso posterior. Además de la etapa de
análisis en bruto, que involucra aspectos de
bases de datos y de gestión de datos, de
procesamiento de datos, del modelo y de las
consideraciones de inferencia, de métricas de
Intereses, de consideraciones de la Teoría de la
complejidad computacional, de post-
procesamiento de las estructuras descubiertas,
de la visualización y de la actualización en
línea.
Logaritmos
En matemáticas, lógica, ciencias de la
computación y disciplinas relacionadas,
un algoritmo (del griego y latín, dixit
algorithmus y este a su vez del
matemático persa Al-Juarismi1 ) es un
conjunto prescrito de instrucciones o
reglas bien definidas, ordenadas y
finitas que permite realizar una
actividad mediante pasos sucesivos que
no generen dudas a quien deba realizar
dicha actividad.2 Dados un estado
inicial y una entrada, siguiendo los
pasos sucesivos se llega a un estado
final y se obtiene una solución. Los
algoritmos son el objeto de estudio de la
algoritmia.
Agrupamiento
Generalmente, los vectores de un mismo
grupo (o clústers) comparten propiedades
comunes. El conocimiento de los grupos
puede permitir una descripción sintética de
un conjunto de datos multidimensional
complejo. De ahí su uso en minería de
datos. Esta descripción sintética se
consigue sustituyendo la descripción de
todos los elementos de un grupo por la de
un representante característico del mismo.
En algunos contextos, como el de la
minería de datos, se lo considera una
técnica de aprendizaje no supervisado
puesto que busca encontrar relaciones
entre variables descriptivas pero no la que
guardan con respecto a una variable
objetivo.
RESUMEN
Javier Samueza

Más contenido relacionado

La actualidad más candente

Bases de datos deductivas
Bases de datos deductivas Bases de datos deductivas
Bases de datos deductivas natar25
 
Base de datos
Base de datosBase de datos
Base de datosdanicerv
 
Modelo Relacional
Modelo RelacionalModelo Relacional
Modelo Relacionalomarzon
 
Sistemas de gestión de base de datos
Sistemas de gestión de base de datosSistemas de gestión de base de datos
Sistemas de gestión de base de datosCarlos Arturo
 
Base de Datos. Modelo Relacional
Base de Datos. Modelo RelacionalBase de Datos. Modelo Relacional
Base de Datos. Modelo RelacionalHermes Sosa
 
Base de datos nativas para xml
Base de datos nativas para xmlBase de datos nativas para xml
Base de datos nativas para xml38005607
 
Construcción de base de datos
Construcción de base de datosConstrucción de base de datos
Construcción de base de datosjhovanaqg
 
Modelo jerarquico
Modelo jerarquicoModelo jerarquico
Modelo jerarquicoDmoralks
 
Diseño de base de datos Relacionales
Diseño de base de datos RelacionalesDiseño de base de datos Relacionales
Diseño de base de datos RelacionalesJuan Soubervielle
 
base de datos orientado a dispositivos moviles
base de datos orientado a dispositivos movilesbase de datos orientado a dispositivos moviles
base de datos orientado a dispositivos movilesFernand Bernowly
 
BASE DE DATOS, TIPOS Y CARACTERÍSTICAS
BASE DE DATOS, TIPOS Y CARACTERÍSTICASBASE DE DATOS, TIPOS Y CARACTERÍSTICAS
BASE DE DATOS, TIPOS Y CARACTERÍSTICASDelia Alva
 

La actualidad más candente (20)

XML Básico DB2
XML Básico DB2XML Básico DB2
XML Básico DB2
 
Trabajo xml
Trabajo xmlTrabajo xml
Trabajo xml
 
XML y JSON
XML y JSONXML y JSON
XML y JSON
 
Bases de datos deductivas
Bases de datos deductivas Bases de datos deductivas
Bases de datos deductivas
 
Xml
XmlXml
Xml
 
Base de datos
Base de datosBase de datos
Base de datos
 
Modelos de red
Modelos de redModelos de red
Modelos de red
 
Modelo Relacional
Modelo RelacionalModelo Relacional
Modelo Relacional
 
Lenguajes de marcado
Lenguajes de marcadoLenguajes de marcado
Lenguajes de marcado
 
Sistemas de gestión de base de datos
Sistemas de gestión de base de datosSistemas de gestión de base de datos
Sistemas de gestión de base de datos
 
Bases de datos en red
Bases de datos en redBases de datos en red
Bases de datos en red
 
Base de Datos. Modelo Relacional
Base de Datos. Modelo RelacionalBase de Datos. Modelo Relacional
Base de Datos. Modelo Relacional
 
Base de datos nativas para xml
Base de datos nativas para xmlBase de datos nativas para xml
Base de datos nativas para xml
 
Estructura de datos benita
Estructura de datos benitaEstructura de datos benita
Estructura de datos benita
 
Estructura de datos
Estructura de datosEstructura de datos
Estructura de datos
 
Construcción de base de datos
Construcción de base de datosConstrucción de base de datos
Construcción de base de datos
 
Modelo jerarquico
Modelo jerarquicoModelo jerarquico
Modelo jerarquico
 
Diseño de base de datos Relacionales
Diseño de base de datos RelacionalesDiseño de base de datos Relacionales
Diseño de base de datos Relacionales
 
base de datos orientado a dispositivos moviles
base de datos orientado a dispositivos movilesbase de datos orientado a dispositivos moviles
base de datos orientado a dispositivos moviles
 
BASE DE DATOS, TIPOS Y CARACTERÍSTICAS
BASE DE DATOS, TIPOS Y CARACTERÍSTICASBASE DE DATOS, TIPOS Y CARACTERÍSTICAS
BASE DE DATOS, TIPOS Y CARACTERÍSTICAS
 

Destacado

Gmupd m 14.11.01.transparencia politica acceso ciudadano
Gmupd m 14.11.01.transparencia politica acceso ciudadanoGmupd m 14.11.01.transparencia politica acceso ciudadano
Gmupd m 14.11.01.transparencia politica acceso ciudadanoupydalcorcon
 
Presentación proyecto de pensamiento matematico
Presentación proyecto de pensamiento matematicoPresentación proyecto de pensamiento matematico
Presentación proyecto de pensamiento matematicoAndrés Aguirre
 
Centro bachillerato tecnológico industrial y de servicios no2
Centro bachillerato tecnológico industrial y de servicios no2Centro bachillerato tecnológico industrial y de servicios no2
Centro bachillerato tecnológico industrial y de servicios no2Jenny Cano
 
XX SIMPOSIO DE ENERGÍA SOLAR Y DEL MEDIO AMBIENTE (XX SPES), del 11 al 15 de ...
XX SIMPOSIO DE ENERGÍA SOLAR Y DEL MEDIO AMBIENTE (XX SPES), del 11 al 15 de ...XX SIMPOSIO DE ENERGÍA SOLAR Y DEL MEDIO AMBIENTE (XX SPES), del 11 al 15 de ...
XX SIMPOSIO DE ENERGÍA SOLAR Y DEL MEDIO AMBIENTE (XX SPES), del 11 al 15 de ...Alternativa Renovable
 
Cibercrimen y delitos informáticos, computacionales
Cibercrimen y delitos informáticos, computacionalesCibercrimen y delitos informáticos, computacionales
Cibercrimen y delitos informáticos, computacionalespaulkev
 
Módulo Democracia
Módulo DemocraciaMódulo Democracia
Módulo Democraciaecastrillon3
 
La herencia política y la social de la
La herencia política y la social de laLa herencia política y la social de la
La herencia política y la social de laElihu Reyes
 
Acta pleno extraordinario y urgente 23 noviembre 2012
Acta pleno extraordinario y urgente 23 noviembre 2012Acta pleno extraordinario y urgente 23 noviembre 2012
Acta pleno extraordinario y urgente 23 noviembre 2012upydalcorcon
 
Liderazgo y participación de las mujeres en Tecnologías
Liderazgo y participación de las mujeres en TecnologíasLiderazgo y participación de las mujeres en Tecnologías
Liderazgo y participación de las mujeres en TecnologíasRosa María Orellana Maldonado
 
Acta pleno extraordinario y urgente 19 octubre 2011
Acta pleno extraordinario y urgente 19 octubre 2011Acta pleno extraordinario y urgente 19 octubre 2011
Acta pleno extraordinario y urgente 19 octubre 2011upydalcorcon
 
Las redes sociales y su influencia en la sociedad
Las redes sociales y su influencia en la sociedadLas redes sociales y su influencia en la sociedad
Las redes sociales y su influencia en la sociedadjc Moraj
 

Destacado (20)

Datos En La Web - Clase 1
Datos En La Web - Clase 1Datos En La Web - Clase 1
Datos En La Web - Clase 1
 
Gmupd m 14.11.01.transparencia politica acceso ciudadano
Gmupd m 14.11.01.transparencia politica acceso ciudadanoGmupd m 14.11.01.transparencia politica acceso ciudadano
Gmupd m 14.11.01.transparencia politica acceso ciudadano
 
Presentación proyecto de pensamiento matematico
Presentación proyecto de pensamiento matematicoPresentación proyecto de pensamiento matematico
Presentación proyecto de pensamiento matematico
 
Centro bachillerato tecnológico industrial y de servicios no2
Centro bachillerato tecnológico industrial y de servicios no2Centro bachillerato tecnológico industrial y de servicios no2
Centro bachillerato tecnológico industrial y de servicios no2
 
XX SIMPOSIO DE ENERGÍA SOLAR Y DEL MEDIO AMBIENTE (XX SPES), del 11 al 15 de ...
XX SIMPOSIO DE ENERGÍA SOLAR Y DEL MEDIO AMBIENTE (XX SPES), del 11 al 15 de ...XX SIMPOSIO DE ENERGÍA SOLAR Y DEL MEDIO AMBIENTE (XX SPES), del 11 al 15 de ...
XX SIMPOSIO DE ENERGÍA SOLAR Y DEL MEDIO AMBIENTE (XX SPES), del 11 al 15 de ...
 
Cibercrimen y delitos informáticos, computacionales
Cibercrimen y delitos informáticos, computacionalesCibercrimen y delitos informáticos, computacionales
Cibercrimen y delitos informáticos, computacionales
 
Embarazos
EmbarazosEmbarazos
Embarazos
 
Módulo Democracia
Módulo DemocraciaMódulo Democracia
Módulo Democracia
 
Sistematizacion 1
Sistematizacion 1Sistematizacion 1
Sistematizacion 1
 
Las redes sociales USMP
Las redes sociales USMPLas redes sociales USMP
Las redes sociales USMP
 
Presentación adopción til (gae)
Presentación adopción til (gae)Presentación adopción til (gae)
Presentación adopción til (gae)
 
UX Mobile
UX MobileUX Mobile
UX Mobile
 
La herencia política y la social de la
La herencia política y la social de laLa herencia política y la social de la
La herencia política y la social de la
 
Acta pleno extraordinario y urgente 23 noviembre 2012
Acta pleno extraordinario y urgente 23 noviembre 2012Acta pleno extraordinario y urgente 23 noviembre 2012
Acta pleno extraordinario y urgente 23 noviembre 2012
 
Liderazgo y participación de las mujeres en Tecnologías
Liderazgo y participación de las mujeres en TecnologíasLiderazgo y participación de las mujeres en Tecnologías
Liderazgo y participación de las mujeres en Tecnologías
 
Acta pleno extraordinario y urgente 19 octubre 2011
Acta pleno extraordinario y urgente 19 octubre 2011Acta pleno extraordinario y urgente 19 octubre 2011
Acta pleno extraordinario y urgente 19 octubre 2011
 
Las redes sociales y su influencia en la sociedad
Las redes sociales y su influencia en la sociedadLas redes sociales y su influencia en la sociedad
Las redes sociales y su influencia en la sociedad
 
Carel draw
Carel drawCarel draw
Carel draw
 
Libro blanco de_la_defensa. 2010
Libro blanco de_la_defensa. 2010Libro blanco de_la_defensa. 2010
Libro blanco de_la_defensa. 2010
 
Trabajo p 12
Trabajo p 12Trabajo p 12
Trabajo p 12
 

Similar a Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Similar a Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos) (20)

Xml json yaml
Xml json yamlXml json yaml
Xml json yaml
 
Edición Digital: Lenguajes de marcado
Edición Digital: Lenguajes de marcadoEdición Digital: Lenguajes de marcado
Edición Digital: Lenguajes de marcado
 
Xml
XmlXml
Xml
 
Xml 3a6 jairon rodriguez
Xml 3a6 jairon rodriguezXml 3a6 jairon rodriguez
Xml 3a6 jairon rodriguez
 
Lenguajes de marcas
Lenguajes de marcasLenguajes de marcas
Lenguajes de marcas
 
Xml
XmlXml
Xml
 
Tema 2
Tema 2Tema 2
Tema 2
 
Xml presentacin
Xml presentacinXml presentacin
Xml presentacin
 
XML
XMLXML
XML
 
XML Y RDF En Web SemáNtica
XML Y RDF En Web SemáNticaXML Y RDF En Web SemáNtica
XML Y RDF En Web SemáNtica
 
XML y RDF en Web Semántica
XML y RDF en Web SemánticaXML y RDF en Web Semántica
XML y RDF en Web Semántica
 
Presentación1 bricio vera
Presentación1 bricio veraPresentación1 bricio vera
Presentación1 bricio vera
 
XML EDGAR ABRAHAM
XML EDGAR ABRAHAMXML EDGAR ABRAHAM
XML EDGAR ABRAHAM
 
Lenguaje XML
Lenguaje XMLLenguaje XML
Lenguaje XML
 
Datos En La Web - Clase 2
Datos En La Web - Clase 2Datos En La Web - Clase 2
Datos En La Web - Clase 2
 
Practica xml
Practica xmlPractica xml
Practica xml
 
Toala Miguel 2C3
Toala Miguel 2C3Toala Miguel 2C3
Toala Miguel 2C3
 
Programacion
ProgramacionProgramacion
Programacion
 
Omar unidad 07 base de datos
Omar unidad 07 base de datosOmar unidad 07 base de datos
Omar unidad 07 base de datos
 
Guía+básica+de+características+de+archivos+.pdf
Guía+básica+de+características+de+archivos+.pdfGuía+básica+de+características+de+archivos+.pdf
Guía+básica+de+características+de+archivos+.pdf
 

Más de Liz Ocampo

Capitulo 20 (Bases de datos de objetos y relaciones de objetos)
Capitulo 20 (Bases de datos de objetos y relaciones de objetos)Capitulo 20 (Bases de datos de objetos y relaciones de objetos)
Capitulo 20 (Bases de datos de objetos y relaciones de objetos)Liz Ocampo
 
Capitulo 6 (Algebra relacional y Calculos relacionales)
Capitulo 6 (Algebra relacional y Calculos relacionales)Capitulo 6 (Algebra relacional y Calculos relacionales)
Capitulo 6 (Algebra relacional y Calculos relacionales)Liz Ocampo
 
Capítulo 26 (Conceptos de Arquictetura de los Sistemas de Bases de Datos)
Capítulo 26 (Conceptos de Arquictetura de los Sistemas de Bases de Datos)Capítulo 26 (Conceptos de Arquictetura de los Sistemas de Bases de Datos)
Capítulo 26 (Conceptos de Arquictetura de los Sistemas de Bases de Datos)Liz Ocampo
 
Capítulo 25 (Base de datos distribuidas y arquitectura cliente-servidor)
Capítulo 25 (Base de datos distribuidas y arquitectura cliente-servidor)Capítulo 25 (Base de datos distribuidas y arquitectura cliente-servidor)
Capítulo 25 (Base de datos distribuidas y arquitectura cliente-servidor)Liz Ocampo
 
Capítulo 24 (Modelos de datos mejorados para aplicaciones avanzadas)
Capítulo 24 (Modelos de datos mejorados para aplicaciones avanzadas)Capítulo 24 (Modelos de datos mejorados para aplicaciones avanzadas)
Capítulo 24 (Modelos de datos mejorados para aplicaciones avanzadas)Liz Ocampo
 
CapÍtulo 23 (Seguridad de base de datos)
CapÍtulo 23 (Seguridad de base de datos)CapÍtulo 23 (Seguridad de base de datos)
CapÍtulo 23 (Seguridad de base de datos)Liz Ocampo
 
Capítulo 21 (Estándares, lenguajes y diseño de base de datos de objetos) y Ca...
Capítulo 21 (Estándares, lenguajes y diseño de base de datos de objetos) y Ca...Capítulo 21 (Estándares, lenguajes y diseño de base de datos de objetos) y Ca...
Capítulo 21 (Estándares, lenguajes y diseño de base de datos de objetos) y Ca...Liz Ocampo
 
Capítulo 19 (Técnicas de recuperación de datos ) y Capítulo 20 (Conceptos de ...
Capítulo 19 (Técnicas de recuperación de datos ) y Capítulo 20 (Conceptos de ...Capítulo 19 (Técnicas de recuperación de datos ) y Capítulo 20 (Conceptos de ...
Capítulo 19 (Técnicas de recuperación de datos ) y Capítulo 20 (Conceptos de ...Liz Ocampo
 
Capítulo 18 (Técnicas de control de la concurrencia)
Capítulo 18 (Técnicas de control de la concurrencia)Capítulo 18 (Técnicas de control de la concurrencia)
Capítulo 18 (Técnicas de control de la concurrencia)Liz Ocampo
 
Capítulo 17 ( Introducción a los conceptos y la Teoría sobre el procesamiento...
Capítulo 17 ( Introducción a los conceptos y la Teoría sobre el procesamiento...Capítulo 17 ( Introducción a los conceptos y la Teoría sobre el procesamiento...
Capítulo 17 ( Introducción a los conceptos y la Teoría sobre el procesamiento...Liz Ocampo
 
Capítulo 16 (Diseño fisico y refinación de la Base de Datos)
Capítulo 16 (Diseño fisico y refinación de la Base de Datos)Capítulo 16 (Diseño fisico y refinación de la Base de Datos)
Capítulo 16 (Diseño fisico y refinación de la Base de Datos)Liz Ocampo
 
Capítulo 15 (Algoritmos para el procesamiento y optimizacion de consultas)
Capítulo 15 (Algoritmos para el procesamiento y optimizacion de consultas)Capítulo 15 (Algoritmos para el procesamiento y optimizacion de consultas)
Capítulo 15 (Algoritmos para el procesamiento y optimizacion de consultas)Liz Ocampo
 
Capítulo 13 (Almacenamiento en discos, estructuras basicas de fichero y dispe...
Capítulo 13 (Almacenamiento en discos, estructuras basicas de fichero y dispe...Capítulo 13 (Almacenamiento en discos, estructuras basicas de fichero y dispe...
Capítulo 13 (Almacenamiento en discos, estructuras basicas de fichero y dispe...Liz Ocampo
 
Capitulo 11 (Aalgoritmos de diseños de base de datos relacionales y dependenc...
Capitulo 11 (Aalgoritmos de diseños de base de datos relacionales y dependenc...Capitulo 11 (Aalgoritmos de diseños de base de datos relacionales y dependenc...
Capitulo 11 (Aalgoritmos de diseños de base de datos relacionales y dependenc...Liz Ocampo
 
Capítulo 3 (Modelado de datos con el modelo Entidad-Relación)
Capítulo 3 (Modelado de datos con el modelo Entidad-Relación)Capítulo 3 (Modelado de datos con el modelo Entidad-Relación)
Capítulo 3 (Modelado de datos con el modelo Entidad-Relación)Liz Ocampo
 
Variables de access
Variables de accessVariables de access
Variables de accessLiz Ocampo
 
Variables de Power designer
Variables de Power designerVariables de Power designer
Variables de Power designerLiz Ocampo
 
Suma,resta y multiplicacion de numeros binarios
Suma,resta y multiplicacion de numeros binariosSuma,resta y multiplicacion de numeros binarios
Suma,resta y multiplicacion de numeros binariosLiz Ocampo
 
Sistema binario,octal y hexadecimal
Sistema binario,octal y hexadecimalSistema binario,octal y hexadecimal
Sistema binario,octal y hexadecimalLiz Ocampo
 

Más de Liz Ocampo (20)

Capitulo 20 (Bases de datos de objetos y relaciones de objetos)
Capitulo 20 (Bases de datos de objetos y relaciones de objetos)Capitulo 20 (Bases de datos de objetos y relaciones de objetos)
Capitulo 20 (Bases de datos de objetos y relaciones de objetos)
 
Capitulo 6 (Algebra relacional y Calculos relacionales)
Capitulo 6 (Algebra relacional y Calculos relacionales)Capitulo 6 (Algebra relacional y Calculos relacionales)
Capitulo 6 (Algebra relacional y Calculos relacionales)
 
Capítulo 26 (Conceptos de Arquictetura de los Sistemas de Bases de Datos)
Capítulo 26 (Conceptos de Arquictetura de los Sistemas de Bases de Datos)Capítulo 26 (Conceptos de Arquictetura de los Sistemas de Bases de Datos)
Capítulo 26 (Conceptos de Arquictetura de los Sistemas de Bases de Datos)
 
Capítulo 25 (Base de datos distribuidas y arquitectura cliente-servidor)
Capítulo 25 (Base de datos distribuidas y arquitectura cliente-servidor)Capítulo 25 (Base de datos distribuidas y arquitectura cliente-servidor)
Capítulo 25 (Base de datos distribuidas y arquitectura cliente-servidor)
 
Capítulo 24 (Modelos de datos mejorados para aplicaciones avanzadas)
Capítulo 24 (Modelos de datos mejorados para aplicaciones avanzadas)Capítulo 24 (Modelos de datos mejorados para aplicaciones avanzadas)
Capítulo 24 (Modelos de datos mejorados para aplicaciones avanzadas)
 
CapÍtulo 23 (Seguridad de base de datos)
CapÍtulo 23 (Seguridad de base de datos)CapÍtulo 23 (Seguridad de base de datos)
CapÍtulo 23 (Seguridad de base de datos)
 
Capítulo 21 (Estándares, lenguajes y diseño de base de datos de objetos) y Ca...
Capítulo 21 (Estándares, lenguajes y diseño de base de datos de objetos) y Ca...Capítulo 21 (Estándares, lenguajes y diseño de base de datos de objetos) y Ca...
Capítulo 21 (Estándares, lenguajes y diseño de base de datos de objetos) y Ca...
 
Capítulo 19 (Técnicas de recuperación de datos ) y Capítulo 20 (Conceptos de ...
Capítulo 19 (Técnicas de recuperación de datos ) y Capítulo 20 (Conceptos de ...Capítulo 19 (Técnicas de recuperación de datos ) y Capítulo 20 (Conceptos de ...
Capítulo 19 (Técnicas de recuperación de datos ) y Capítulo 20 (Conceptos de ...
 
Capítulo 18 (Técnicas de control de la concurrencia)
Capítulo 18 (Técnicas de control de la concurrencia)Capítulo 18 (Técnicas de control de la concurrencia)
Capítulo 18 (Técnicas de control de la concurrencia)
 
Capítulo 17 ( Introducción a los conceptos y la Teoría sobre el procesamiento...
Capítulo 17 ( Introducción a los conceptos y la Teoría sobre el procesamiento...Capítulo 17 ( Introducción a los conceptos y la Teoría sobre el procesamiento...
Capítulo 17 ( Introducción a los conceptos y la Teoría sobre el procesamiento...
 
Capítulo 16 (Diseño fisico y refinación de la Base de Datos)
Capítulo 16 (Diseño fisico y refinación de la Base de Datos)Capítulo 16 (Diseño fisico y refinación de la Base de Datos)
Capítulo 16 (Diseño fisico y refinación de la Base de Datos)
 
Capítulo 15 (Algoritmos para el procesamiento y optimizacion de consultas)
Capítulo 15 (Algoritmos para el procesamiento y optimizacion de consultas)Capítulo 15 (Algoritmos para el procesamiento y optimizacion de consultas)
Capítulo 15 (Algoritmos para el procesamiento y optimizacion de consultas)
 
Capítulo 13 (Almacenamiento en discos, estructuras basicas de fichero y dispe...
Capítulo 13 (Almacenamiento en discos, estructuras basicas de fichero y dispe...Capítulo 13 (Almacenamiento en discos, estructuras basicas de fichero y dispe...
Capítulo 13 (Almacenamiento en discos, estructuras basicas de fichero y dispe...
 
Capitulo 11 (Aalgoritmos de diseños de base de datos relacionales y dependenc...
Capitulo 11 (Aalgoritmos de diseños de base de datos relacionales y dependenc...Capitulo 11 (Aalgoritmos de diseños de base de datos relacionales y dependenc...
Capitulo 11 (Aalgoritmos de diseños de base de datos relacionales y dependenc...
 
Capítulo 3 (Modelado de datos con el modelo Entidad-Relación)
Capítulo 3 (Modelado de datos con el modelo Entidad-Relación)Capítulo 3 (Modelado de datos con el modelo Entidad-Relación)
Capítulo 3 (Modelado de datos con el modelo Entidad-Relación)
 
Variables de access
Variables de accessVariables de access
Variables de access
 
Variables de Power designer
Variables de Power designerVariables de Power designer
Variables de Power designer
 
Suma,resta y multiplicacion de numeros binarios
Suma,resta y multiplicacion de numeros binariosSuma,resta y multiplicacion de numeros binarios
Suma,resta y multiplicacion de numeros binarios
 
Google +
Google +Google +
Google +
 
Sistema binario,octal y hexadecimal
Sistema binario,octal y hexadecimalSistema binario,octal y hexadecimal
Sistema binario,octal y hexadecimal
 

Último

SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxlclcarmen
 
Factores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamicaFactores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamicaFlor Idalia Espinoza Ortega
 
codigos HTML para blogs y paginas web Karina
codigos HTML para blogs y paginas web Karinacodigos HTML para blogs y paginas web Karina
codigos HTML para blogs y paginas web Karinavergarakarina022
 
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptxPPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptxOscarEduardoSanchezC
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptxJunkotantik
 
Heinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoHeinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoFundación YOD YOD
 
CULTURA NAZCA, presentación en aula para compartir
CULTURA NAZCA, presentación en aula para compartirCULTURA NAZCA, presentación en aula para compartir
CULTURA NAZCA, presentación en aula para compartirPaddySydney1
 
Flores Nacionales de América Latina - Botánica
Flores Nacionales de América Latina - BotánicaFlores Nacionales de América Latina - Botánica
Flores Nacionales de América Latina - BotánicaJuan Carlos Fonseca Mata
 
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Baker Publishing Company
 
Plan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPEPlan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPELaura Chacón
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para eventoDiegoMtsS
 
EXPECTATIVAS vs PERSPECTIVA en la vida.
EXPECTATIVAS vs PERSPECTIVA  en la vida.EXPECTATIVAS vs PERSPECTIVA  en la vida.
EXPECTATIVAS vs PERSPECTIVA en la vida.DaluiMonasterio
 
BROCHURE EXCEL 2024 FII.pdfwrfertetwetewtewtwtwtwtwtwtwtewtewtewtwtwtwtwe
BROCHURE EXCEL 2024 FII.pdfwrfertetwetewtewtwtwtwtwtwtwtewtewtewtwtwtwtweBROCHURE EXCEL 2024 FII.pdfwrfertetwetewtewtwtwtwtwtwtwtewtewtewtwtwtwtwe
BROCHURE EXCEL 2024 FII.pdfwrfertetwetewtewtwtwtwtwtwtwtewtewtewtwtwtwtwealekzHuri
 
Informatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos BásicosInformatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos BásicosCesarFernandez937857
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadAlejandrino Halire Ccahuana
 
RETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxRETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxAna Fernandez
 
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...JAVIER SOLIS NOYOLA
 

Último (20)

SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
 
Factores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamicaFactores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamica
 
codigos HTML para blogs y paginas web Karina
codigos HTML para blogs y paginas web Karinacodigos HTML para blogs y paginas web Karina
codigos HTML para blogs y paginas web Karina
 
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptxPPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
 
La Trampa De La Felicidad. Russ-Harris.pdf
La Trampa De La Felicidad. Russ-Harris.pdfLa Trampa De La Felicidad. Russ-Harris.pdf
La Trampa De La Felicidad. Russ-Harris.pdf
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptx
 
Heinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoHeinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativo
 
Power Point: "Defendamos la verdad".pptx
Power Point: "Defendamos la verdad".pptxPower Point: "Defendamos la verdad".pptx
Power Point: "Defendamos la verdad".pptx
 
CULTURA NAZCA, presentación en aula para compartir
CULTURA NAZCA, presentación en aula para compartirCULTURA NAZCA, presentación en aula para compartir
CULTURA NAZCA, presentación en aula para compartir
 
Flores Nacionales de América Latina - Botánica
Flores Nacionales de América Latina - BotánicaFlores Nacionales de América Latina - Botánica
Flores Nacionales de América Latina - Botánica
 
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
 
Plan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPEPlan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPE
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para evento
 
Unidad 3 | Teorías de la Comunicación | MCDI
Unidad 3 | Teorías de la Comunicación | MCDIUnidad 3 | Teorías de la Comunicación | MCDI
Unidad 3 | Teorías de la Comunicación | MCDI
 
EXPECTATIVAS vs PERSPECTIVA en la vida.
EXPECTATIVAS vs PERSPECTIVA  en la vida.EXPECTATIVAS vs PERSPECTIVA  en la vida.
EXPECTATIVAS vs PERSPECTIVA en la vida.
 
BROCHURE EXCEL 2024 FII.pdfwrfertetwetewtewtwtwtwtwtwtwtewtewtewtwtwtwtwe
BROCHURE EXCEL 2024 FII.pdfwrfertetwetewtewtwtwtwtwtwtwtewtewtewtwtwtwtweBROCHURE EXCEL 2024 FII.pdfwrfertetwetewtewtwtwtwtwtwtwtewtewtewtwtwtwtwe
BROCHURE EXCEL 2024 FII.pdfwrfertetwetewtewtwtwtwtwtwtwtewtewtewtwtwtwtwe
 
Informatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos BásicosInformatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos Básicos
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdad
 
RETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxRETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docx
 
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
 

Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

  • 1. Universidad Central del Ecuador FACULTAD DE CIENCIAS ECONÒMICAS  CAPITULO 27: LENGUAJE DE MARCADO EXTENSIBLE  CAPITULO 28 CONCEPTOS MINERIA DE DATOS  CARRERA DE FINANZAS  NOMBRE: JAVIER SAMUEZA  AULA: 39 Javier Samueza
  • 2. lenguaje de mercado extensible se ha elejido como el lenguaje estandar para estructurar e intercambiar datospor la web y se utiliza para proporcionar informacion adicional de la estrustura y siginificadao de ciertos componentes XLS( Lenguaje de estilo libre) ;XML( Posible modelo de almacenamiento y recuperacion de datos se utiizan 2 elementos principales : Elementos y atributos y cabe mencionar que en base de datos no se utilizan la misma terminologia que en XLS Una continuacion del nombre del elemento significa que el elemento puede repetirse varias veces PCDATA se refiere a datos disponibles en XML DTD) Simbolo e1 y e2 especifica que el documento puede aparecer en e1 o e2 XML DTD es bastante para epecificar estructuras de arbol con elementos obligatorios opcionale y repetitivos estan destinados a seguir un orden especificado en el documento XML SCHEMA El lenguaje es un estandar para especificar los documentos XML utilizan el mismo lenguaje que los documento XLM pueden presentar los mismo procesadores XLM,DTD estan basados en modelo de datos en arbol y atributos Javier Samueza
  • 3. Es necesario identificar el conjunto especifico de elementos de lenguaje XLM SCHEMA ( etiquetas) que se utiliza em documeto almacenado en la web ejemplo http://www.3.org/2001/xmlschema espacio de nombres se aigna a toda variable xsd Descripciones de esquema y espacios de nombre XLM Anotaciones,documentacion y lenguaje utilizado xsd anotacion y xsd documentacion para comentarios y anotacione adicionales, xml lang= ingles elemento y tipos elemento raiz company para una serie de departamentos empleados y proyectos es decir comando utilizado para mejor el orden en entidades Elementos de primer nive en la base de datos empresa 3 elementos sumamente importantes de primer nivel bajo elemento de raiz company 3 elementos importantes (employee,departament,y project cadad uno con su elemento xsd element y si dentro de estas etiquetas se coloca el elemento (>) son conocidos como los elemento vacios especificar el tipod de elemento y las ocurrencias minima y maxima en XML schema atributos type minoccurus y maxoccuros especifica la multiplicidad de cada elemento en cualquier docuemento conforme a las especificaciones del esquema si especificamos un elemento en cualquier documento se ilustrar con elementos employee, departamento y project pero si especificamos un elemento type ya podemos definir directamente el elemento Javier Samueza
  • 4. x query especificacion de consultas en XML permiten escribir expresiones nodos a partir de un documento XLM estrucuturado en la forma de arbol x query permite realizar consultas mas generales de un o o mas temas o mas documentos en forma XML se cono ce como consultas ( FOR,LET,) metodos para almacenar documentos xml uso de un DMBS para almacenar los documento como texto utilizacion de dbms de objetos o relacionar para almacenar documentos xml enteros como campos de texto dentro de los objetos o regitro DBMS para procesamiento de datos uso deun dbms para almacenar el contenido del docuemento como elementos de datos coleccion de documentos que obedecen un esquema xlm especifico o XML DTB tienen datos relacionados es decir misma estructura que esta especificada eN XLM o DTB para recrear docuementos diseño de un sistema especializado para almacenar datos XLM nativos implementacion de sistema de base de datos en arbol llamados XLM dmbs nativos que contienen consultas especializadas e indexacion y deberia funcionar para todos los documentos Creacion o publicacion de documentos XML personalizados a partir de base de datos relacionales pre-existentes omo base de datos relacionados hay cantidades enormes de datos almacenados puede darse la necesidad de almacernarlos o intercambiarlos por la web Javier Samueza
  • 5. base da datos esta seccion explica los problemas que surgen al convertir datos de un sistema de base de datos en documentos XLM utiliza un modelo jerarquico(arbol) para representar los documentos utilizan modeo relacionales plano Se le llama base de datos a los bancos de información que contienen datos relativos a diversas temáticas y categorizados de distinta manera, pero que comparten entre sí algún tipo de vínculo o relación que busca ordenarlos y clasificarlos en conjunto. Idea Javier Samueza
  • 6. lenguaje xlm XML, siglas en inglés de eXtensible Markup Language ('lenguaje de marcas extensible'), es un lenguaje de marcas desarrollado por el World Wide Web Consortium (W3C) utilizado para almacenar datos en forma legible. Proviene del lenguaje SGML y permite definir la gramática de lenguajes específicos (de la misma manera que HTML es a su vez un lenguaje definido por SGML) para estructurar documentos grandes. A diferencia de otros lenguajes, XML da soporte a bases de datos, siendo útil cuando varias aplicaciones deben comunicarse entre sí o integrar información.1 XML no ha nacido sólo para su aplicación para Internet, sino que se propone como un estándar para el intercambio de información estructurada entre diferentes plataformas. Se puede usar en bases de datos, editores de texto, hojas de cálculo y casi cualquier cosa imaginable. XML es una tecnología sencilla que tiene a su alrededor otras que la complementan y la hacen mucho más grande y con unas posibilidades mucho mayores. Tiene un papel muy importante en la actualidad ya que permite la compatibilidad entre sistemas para compartir la información de una manera segura, fiable y fácil. Ventajas del XML Es extensible: Después de diseñado y puesto en producción, es posible extender XML con la adición de nuevas etiquetas, de modo que se pueda continuar utilizando sin complicación alguna. El analizador es un componente estándar, no es necesario crear un analizador específico para cada versión de lenguaje XML. Esto posibilita el empleo de cualquiera de los analizadores disponibles. De esta manera se evitan bugs y se acelera el desarrollo de aplicaciones. Si un tercero decide usar un documento creado en XML, es sencillo entender su estructura y procesarla. Mejora la compatibilidad entre aplicaciones. Podemos comunicar aplicaciones de distintas plataformas, sin que importe el origen de los datos, es decir, podríamos tener una aplicación en Linux con una base de datos Postgres y comunicarla con otra aplicación en Windows y Base de Datos MS-SQL Server. Transformamos datos en información, pues se le añade un significado concreto y los asociamos a un contexto, con lo cual tenemos flexibilidad para estructurar documentos. Javier Samueza
  • 7. Documento DTD La DTD es una definición, en un documento SGML o XML, que especifica restricciones en la estructura y sintaxis del mismo. La DTD se puede incluir dentro del archivo del documento, pero normalmente se almacena en un fichero ASCII de texto separado. La sintaxis de las DTD para SGML y XML es similar pero no idéntica. La definición de una DTD especifica la sintaxis de una aplicación de SGML o XML, que puede ser un estándar ampliamente utilizado como XHTML o una aplicación local. Elementos: indican qué etiquetas son permitidas y el contenido de dichas etiquetas. Estructura: indica el orden en que van las etiquetas en el documento. Anidamiento: indica qué etiquetas van dentro de otras.
  • 8. otros pasos para extraer documentos XLM apartir de base de datos 1.- es necesario crear la consulta correcta en SQL para extraer la informacion deseada para el docuemnto XML 2. una vez ejecutada la consulta su resultado debe estructurarse para pasar de la forma estructural a la forma de arlbo 3.la consulta debe personalizarse para relacionar uno o varios campos consulta xlm varios forma de consulta XLM: 1.- x path que proporciona estructura de lenguajes para identificar varios nodos elemenos 2.- x query igual que x path pero ofrece mas alternativas x path :especificar expresiones de ruta XLM CONDICIONES CALIFICADOR que registren el patron adecuado ( nodos) Como alternativa a la generación de datos sobre la marcha, puede importar un archivo XML para usar datos de ejemplo. Con esta opción, la ventaja es que el usuario puede agregar rápidamente los mismos datos de ejemplo a varios proyectos. El archivo XML puede incluir rutas de acceso a otros archivos únicamente si dichas rutas están relacionadas con la ubicación del archivo XML. Asegúrese de que esas rutas de acceso a archivos estén disponibles para cada uno de los proyectos donde se utilice el archivo XML. Javier Samueza
  • 9. XPATH XPath (XML Path Language) es un lenguaje que permite construir expresiones que recorren y procesan un documento XML. La idea es parecida a las expresiones regulares para seleccionar partes de un texto sin atributos (plain text). XPath permite buscar y seleccionar teniendo en cuenta la estructura jerárquica del XML. XPath fue creado para su uso en el estándar XSLT, en el que se usa para seleccionar y examinar la estructura del documento de entrada de la transformación. Nodo Raíz Se identifica por /. No se debe confundir el nodo raíz con el elemento raíz del documento. Así, si el documento XML de nuestro ejemplo tiene por elemento raíz a libro, éste será el primer nodo que cuelgue del nodo raíz del árbol, el cual es Insisto: / hace referencia al nodo raíz del árbol, pero no al elemento raíz del documento XML, por más que un documento XML solo pueda tener un elemento raíz. De hecho, podemos afirmar que el nodo raíz del árbol contiene al elemento raíz del documento. Nodo Elemento Cualquier elemento de un documento XML se convierte en un nodo elemento dentro del árbol. Cada elemento tiene su nodo padre. El nodo padre de cualquier elemento es, a su vez, un elemento, excepto el elemento raíz, cuyo padre es el nodo raíz. Los nodos elemento tienen a su vez hijos, que son: nodos elemento, nodos texto, nodos comentario y nodos de instrucciones de proceso. Los nodos elemento también tienen propiedades tales como su nombre, sus atributos e información sobre los "espacios de nombre" que tiene activos. directa. Nodos atributo Como ya hemos indicado, los nodos atributo no son tanto hijos del nodo elemento que los contiene como etiquetas añadidas a dicho nodo elemento. Cada nodo atributo consta de un nombre, un valor (que es siempre una cadena) y un posible "espacio de nombres". Aquellos atributos que tienen por valor el valor por defecto asignado en el DTD se tratarán como si el valor se les hubiese asignado al escribir el documento XML. Al contrario, no se crea nodo para atributos no especificados en el documento XML, y con la propiedad #IMPLIED definida en su DTD. Tampoco se crean nodos atributo para las definiciones de los espacios de nombre. Javier Samueza
  • 10. base de datos relacionales La interfaz de programación de aplicaciones, abreviada como API1 (del inglés: Application Programming Interface), es el conjunto de subrutinas, funciones y procedimientos (o métodos, en la programación orientada a objetos) que ofrece cierta biblioteca para ser utilizado por otro software como una capa de abstracción. Son usadas generalmente en las bibliotecas de programación. Una base de datos se compone de varias tablas o relaciones. No pueden existir dos tablas con el mismo nombre ni registro. La relación entre una tabla padre y un hijo se lleva a cabo por medio de las claves primarias y claves foráneas (o ajenas) Las claves primarias son la clave principal de un registro dentro de una tabla y estas deben cumplir con la integridad de datos. Las claves ajenas se colocan en la tabla hija, contienen el mismo valor que la clave primaria del registro padre; por medio de estas se hacen las formas relacionales. Javier Samueza
  • 11. Busqueda de patrone secuenciales El agrupamiento de secuencias se define como la tarea de separar en grupos a las secuencias de datos, de manera que las pertenecientes a un mismo grupo sean muy similares entre sí, y al mismo tiempo sean diferentes a las de otros grupos. Se usa en muchos escenarios donde no se cuenta con registros de información confiable o donde se deben realizar asociaciones a partir de la similitud entre las secuencias que se analizan. Un ejemplo típico de aplicación de esta técnica, es en las transacciones comerciales donde sirve para identificar diferentes grupos de clientes con registros de compra similares. También tienen un variado uso en la formación de grupos de secuencias de proteínas similares, para analizar a profundidad cada uno de ellos atendiendo a sus características particulares. Bosqueda de patrones en erie temporlaes La mayoría de los algoritmos implementados para el minado de secuencias frecuentes, utilizan tres tipos diferentes de enfoques de acuerdo a la forma de realizar el conteo de frecuencia a los patrones secuenciales candidatos. El primer grupo de algoritmos se basan en la propiedad A priori. Esta propiedad fue introducida por Agrawal and Srikant3 en el minado de reglas de asociación y se basa en que si un patrón es frecuente entonces cualquier subpatrón de él también será frecuente. Esto permite reducir el espacio de búsqueda en el proceso de generación de candidatos. Basado en esta estrategia se presentaron algoritmos como el AprioriAll y el AprioriSome en;4 y el algoritmo GSP (Patrón secuencial generalizado).5 El segundo grupo está formado por algoritmos que tratan de reducir el tamaño del conjunto de datos explorados, sustituyendo la fase de generación de candidatos por la realización de proyecciones y técnicas de crecimiento de patrones sobre los datos iniciales. .
  • 12. elemento Elementos Un elemento describe los datos que contiene. Los elementos también pueden contener otros elementos y atributos. Para obtener más información, vea <xsd:all> Element. Cuando una definición de elemento contiene elementos o atributos adicionales, se trata de un tipo complejo. Para obtener más información sobre los tipos complejos, vea la sección "Tipos", más adelante en este tema. La definición básica de un elemento consta de un nombre y un tipo de datos. En el siguiente ejemplo se muestra cómo definir un elemento denominado quantity, con un tipo de valor entero simple. atributo Atributos Un atributo es una definición de tipo simple con nombre que no puede contener otros elementos. Los atributos también pueden asignarse a un valor predeterminado opcional y deben aparecer en la parte inferior de las definiciones de tipo complejo. Además, si se declaran varios atributos, se pueden producir en cualquier pedido. Para obtener más información, vea <xsd:attribute> Element. El siguiente código muestra cómo declarar un atributo denominado OrderDiscount que está definido con el tipo simple number. El uso de un atributo aquí tiene sentido ya que los atributos son opcionales. Si no se proporciona OrderDiscount, los datos XML seguirán siendo válidos Javier Samueza
  • 13. resumen este capitulo ofrece una vision general del estandar de representacion e intercambio de datos por internet hemos descrito el estandar Xml y su modelo de datos jearquico estructurado en forma de arbol asi como los documentos XML y los lenguajes que permitan especificar la estructura de dicha docuemntos en particulas XML,DTD,definicion por tipode documento y XML tanto en formato en su formato nativo ( texto( Lenguaje Utiliza un subconjunto del lenguaje Prolog llamado Datalog el cual es declarativo y permite al ordenador hacer deducciones para contestar a consultas basándose en los hechos y reglas almacenado Mecanismos Existen dos mecanismos de inferencia: Ascendente: donde se parte de los hechos y se obtiene nuevos aplicando reglas de inferencia. Descendente: donde se parte del predicado (objetivo de la consulta realizada) e intenta encontrar similitudes entre las variables que nos lleven a hechos correctos almacenados en la base de datos. Javier Samueza
  • 14. capitulo28 : conceptos mineria de datos La minería de datos es el proceso de detectar la información procesable de los conjuntos grandes de datos. Utiliza el análisis matemático para deducir los patrones y tendencias que existen en los datos. Normalmente, estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiado datosEstos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos. Los modelos de minería de datos se pueden aplicar a situaciones empresariales como las siguientes: Predecir ventas Dirigir correo a clientes específicos Determinar los productos que se pueden vender juntos Buscar secuencias en el orden en que los clientes agregan productos a una cesta de compra repaso a la tecnologia informe garnet aparece como las tecnologias de mas exito en un futuro proximo se relaccionara la mineria de datos con areas llamadas descubrimientos del conocimiento comparacion entre mineria de datos y alamacen de datos almacen de datos a la toma de deciciones basados en datos mientras que la mineria de datos es la combinacion de datos se puede aplicar a toda las bases de datos en operaciones individuales expansion de nuevos horizontes Mineria de datos como parte del proceso del descubrimiento del conocimiento reglas de asociacion : ejemplo un cliente compre equipos de video tambien complementos patrones secuenciales: un cliente compra una camara pero despuez de varios meses compra accesorios arboles de clasificacion : los cliente financiaran sus compras Javier Samueza
  • 15. Objetivos de la mineria de datos y el descubrimiento de conocimiento prediccion puede predecir como se comportan ciertosatributos de los datos ejemplo analisis de transacciones de compra que consumiran los clientes identificacion los patrones de datos se puede utilizar para identificar la existencia a los intrusos que intentan introducirse en un sistema mediante programas que han sido ejecutados Clasificacion : la mineria de datos puede dividir los datos en forma clases o categorias basandonde en combinanciones de parametros agrupamiento la recoleccio de diferente tipo de informacion para beneficio de los diferentes personas que la requieran para poder ser optima y de calidad Javier Samueza
  • 16. reglas de asociacion En minería de datos y aprendizaje automático, las reglas de asociación se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos. 1 Se han investigado ampliamente diversos métodos para aprendizaje de reglas de asociación que han resultado ser muy interesantes para descubrir relaciones entre variables en grandes conjuntos de datos. reglas de asociacion Reglas significativas, 'soporte' y 'confianza Nótese que el ejemplo anterior es muy pequeño, en la práctica, una regla necesita un soporte de varios cientos de registros (transacciones) antes de que ésta pueda considerarse significativadesde un punto de vista estadístico. A menudo las bases de datos contienen miles o incluso millones de registros. Para seleccionar reglas interesantes del conjunto de todas las reglas posibles que se pueden derivar de un conjunto de datos se pueden utilizar restricciones sobre diversas medidas de "significancia" e "interés". Las restricciones más conocidas son los umbrales mínimos de "soporte" y "confianza". Javier Samueza
  • 17. El algoritmo apriori algoritmo apriori se usa en minería de datos para encontrar Reglas de asociación en un conjunto de datos. Este algoritmo se basa en el conocimiento previo o “a priori” de los conjuntos frecuentes, esto sirve para reducir el espacio de búsqueda yaumentar la eficiencia. Idea Javier Samueza
  • 18. algoritmo de muestreo es seleccionar pequeñas muestras que esa pequeña muestra quepa en el momento principal de la base de datos y determininar conjuntos frecuentes con esa muestra podriamos decir que la base son los conjuntos frecuentes En estadística se conoce como muestreo a la técnica para la selección de una muestra a partir de una población. Al elegir una muestra aleatoria se espera conseguir que sus propiedades sean extrapolables a la población. Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzarían si se realizase un estudio de toda la población. Cabe mencionar que para que el muestreo sea válido y se pueda realizar un estudio adecuado (que consienta no solo hacer estimaciones de la población sino estimar también los márgenes de error correspondientes a dichas estimaciones), debe cumplir ciertos requisitos. Nunca podremos estar enteramente seguros de que el resultado sea una muestra representativa, pero sí podemos actuar de manera que esta condición se alcance con una probabilidad alta. Javier Samueza
  • 19. algoritmo de arbol Un árbol es una estructura de datos, que puede definirse de forma recursiva como: - Una estructura vacía o - Un elemento o clave de información (nodo) más un número finito de estructuras tipo árbol, disjuntos, llamados subárboles. Si dicho número de estructuras es inferior o igual a 2, se tiene un árbol binario. Es, por tanto, una estructura no secuencial. Otra definición nos da el árbol como un tipo de grafo (ver grafos): un árbol es un grafo acíclico, conexo y no dirigido. Es decir, es un grafo no dirigido en el que existe e xactamente un camino entre todo par de nodos. Esta definición permite implementar un árbol y sus operaciones empleando las representaciones que se utilizan para los grafos. Sin embargo, e n esta sección no se tratará esta implementación. Javier Samueza
  • 20. algoritmo de particionado Este algoritmo se ha implementado en lenguaje C. El programa se puede ejecutar en entorno MS-DOS, para lo cual simplemente hay que teclear partitio desde el directorio en el que se encuentre el programa, o en entorno Windows. En este último caso, hay que seguir la siguiente secuencia de pasos: inicio>ejecutar>teclear "partitio" precedido del path correspondiente>pulsar INTRO. Estos pasos se muestran en las dos figuras siguientes. Al ejecutar el programa partitio.exe, el usuario ha de elegir la opción Kernighan-Lin y proporcionar un fichero de entrada que contenga el número de bloques así como las interconexiones entre ellos. A partir de esta información, se distribuyen los bloques en dos particiones, . El siguiente paso es la ejecución del algoritmo, tras lo cual, también opcionalmente, es posible visualizar el reparto final de los elementos. Por último, se genera el fichero de salida, en el que se indica la distribución de los bloques obtenida
  • 21. algoritmo de agrupamiento k K -means es un método de agrupamiento, que tiene como objetivo la partición de un conjunto de n observaciones en k grupos en el que cada observación pertenece al grupo más cercano a la media. Es un método utilizado en minería de datos. La agrupación del conjunto de datos puede ilustrarse en una partición del espacio de datos en celdas de Voronoi. El problema es computacionalmente difícil (NP-hard). Sin embargo, hay eficientes heurísticas que se emplean comúnmente y convergen rápidamente a un óptimo local. Estos suelen ser similares a los algoritmos expectation-maximization de mezclas de distribuciones gausianas por medio de un enfoque de refinamiento iterativo empleado por ambos algoritmos. Además, los dos algoritmos usan los centros que los grupos utilizan para modelar los datos, sin embargo k-means tiende a encontrar grupos de extensión espacial comparable, mientras que el mecanismo expectation-maximization permite que los grupos que tengan formas diferentes. Dado un conjunto de observaciones (x1, x2, …, xn), donde cada observación es un vector real de d dimensiones, k-means construye una partición de las observaciones en k conjuntos (k ≤ n) S = {S1, S2, …, Sk}
  • 22. Algoritmo de Crecimiento FP para la busqueda itesem frecuentes entrada =arbol FP y soporte minimo salida =patrones frecuentes (conjuntos) revela interesantes para regla de asociación asociación minera o conexión relevante entre conjuntos de elementos de grandes cantidades de datos es un contenido importante de la minería de datos. En este artículo se analiza el algoritmo primero FP-Crecimiento y el análisis utilizando los resultados de la agrupación algoritmo de estudiantes en grupos y los factores de la relación estudiante racimo han demostrado que el algoritmo tiene una fuerte viabilidad. Minería de datos de las palabras clave; análisis de asociación; patrón frecuente; FP-Tree 1 reglas Introducción Association (Reglas de asociación) la minería de datos es una línea de investigación importante en el campo de la minería, que consiste en la IBM Almaden Research Center de Estados Unidos en Rakesh A-Grawal et al 1993 fue propuesto por primera vez, es para describir algunas de las reglas que subyacen a la relación entre los elementos de datos en la base de datos. Javier Samueza
  • 23. algoritmos geneticos Un algoritmo es una serie de pasos organizados que describe el proceso que se debe seguir, para dar solución a un problema específico. En los años 1970, de la mano de John Henry Holland, surgió una de las líneas más prometedoras de la inteligencia artificial, la de los algoritmos genéticos.1 2 Son llamados así porque se inspiran en la evolución biológica y su base genético-molecular. Estos algoritmos hacen evolucionar una población de individuos sometiéndola a acciones aleatorias semejantes a las que actúan en la evolución biológica (mutaciones y recombinaciones genéticas), así como también a una selección de acuerdo con algún criterio, en función del cual se decide cuáles son los individuos más adaptados, que sobreviven, y cuáles los menos aptos, que son descartados. Los algoritmos genéticos se enmarcan dentro de los algoritmos evolutivos, que incluyen también las estrategias evolutivas, la programación evolutiva y la programación genética. Inicialización: Se genera aleatoriamente la población inicial, que está constituida por un conjunto de cromosomas los cuales representan las posibles soluciones del problema. En caso de no hacerlo aleatoriamente, es importante garantizar que dentro de la población inicial, se tenga la diversidad estructural de estas soluciones para tener una representación de la mayor parte de la población posible o al menos evitar la convergencia prematura. Evaluación: A cada uno de los cromosomas de esta población se aplicará la función de aptitud para saber cómo de "buena" es la solución que se está codificando. Condición de término El AG se deberá detener cuando se alcance la solución óptima, pero ésta generalmente se desconoce, por lo que se deben utilizar otros criterios de detención. Normalmente se usan dos criterios: correr el AG un número máximo de iteraciones (generaciones) o detenerlo cuando no haya cambios en la población
  • 24. Interfaz de usuario Las interfaces básicas de usuario son aquellas que incluyen elementos como menús, ventanas, contenido gráfico, cursor, los beeps y algunos otros sonidos que la computadora hace, y en general, todos aquellos canales por los cuales se permite la comunicación entre el ser humano y la computadora. La mejor interacción humano-máquina a través de una adecuada interfaz (de usuario), que le brinde tanto comodidad, como eficiencia Interfaz de programador de aplicaciones La interfaz de programación de aplicaciones, abreviada como API1 (del inglés: Application Programming Interface), es el conjunto de subrutinas, funciones y procedimientos (o métodos, en la programación orientada a objetos) que ofrece cierta biblioteca para ser utilizado por otro software como una capa de abstracción. Son usadas generalmente en las bibliotecas de programación. tendencias par el futuro la herramienta de mineria de datos se encuentre en constante evolucion a partir de ideas procedentes de ultimas investigaciones cientificas de las cuales integran muchos algorimos que hacen que utilicen un codigo adecuado Javier Samueza
  • 25. regresion es una aplicacion especial de la regla de clasificacion se relaciona directamente con las variables de clase objeto y se llamara regla de regresion Dentro de este mÛdulo, en el apartado resumen del procedimiento, se obtiene la recta de regresiÛn estimada (estimaciÛn de los coeÖcientes de 0 y 1; desviaciones tÌpicas, lo que permite calcular intervalos de conÖanza de los mismos y test de la t). Este apartado tambiÈn proporciona la tabla ANOVA y los coeÖcientes de determinaciÛn. En este problema el coeÖciente de correlaciÛn es r = 00969, y se concluye que el ajuste lineal es bueno. El apartado predicciones permite calcular predicciones e intervalos de la media condicionada y de predicciÛn para una observaciÛn determinada. Si la recta de regresiÛn se quiere comparar con otros modelos ìlinealizablesî se puede
  • 26. Agrupamiento Un algoritmo de agrupamiento (en inglés, clustering) es un procedimiento de agrupación de una serie de vectores de acuerdo con un criterio. Esos criterios son por lo general distancia o similitud.La cercanía se define en términos de una d eterminada función de distancia, como la euclídea, aunque existen otras más robustas o que permiten extenderla a variables discretas. La medida más utilizada para medir la similitud entre los casos es la matriz de correlación entre los nxn casos. El conocimiento de los grupos puede permitir una descripción sintética de un conjunto de datos multidimensional complejo. De ahí su uso en minería de datos. Esta descripción sintética se consigue sustituyendo la descripción de todos los elementos de un grupo por la de un representante característico del mismo. Usted le enseña a alumnos en un curso llamado 'El arte del idioma Inglés'. Sus estudiantes están divididos en cuatro grupos, Listening, Reading, Speaking y Writing, y para la mayor parte del curso trabajan dentro de estos grupos. Usted quiere que los estudiantes trabajen en un proyecto, que explore el idioma activo y pasivo. Usted crea un agrupamiento de Passive Language y lo asigna a los grupos de Listening y Reading a este agrupamiento. Usted crea otro agrupamiento de Active Language y le asigna los grupos de Speaking y Writing a este agrupamiento. Usando la característica para Restringir el acceso, Usted configura que ciertas tareas solamente sean para el agrupamiento de Passive Language y otras tareas para el agrupamiento de Active Language. Ahora los grupos pueden trabajar juntos dentro de sus agrupamientos, en sus áreas enfocadas respectivas, sin que los otros grupos observen sus actividades. Al final del proyecto Usted puede juntar a todos los grupos en una actividad, para que todos los participantes compartan sus aprendizajes. Javier Samueza
  • 27. aplicacion de mineria de datos Aplicaciones La minería de secuencias frecuentes posee una amplia gama de aplicaciones, en distintas líneas de investigación y entornos de producción, como por ejemplo: Detección de Intrusos: Se ha utilizado para la detección de intrusiones, estudiando los patrones de mal uso en la seguridad de la información, encontrando patrones de acceso a los recursos, procesando los registros de ataques a la red, para así descubrir comportamientos secuenciales de intrusión y diseñar estrategias para la detección de varias etapas de ataque. Salud: En el sector de la salud, se usan para representar patrones de atención médica como las trayectorias de los pacientes en los centros de salud, los estados evolutivos de los pacientes, los comportamientos de los síntomas, entre otros; para descubrir patrones en las historias de los registros médicos y mejorar el nivel de diagnóstico. Telecomunicaciones: Se utiliza en el campo de las telecomunicaciones para predecir la futura localización de un usuario móvil, para la búsqueda de patrones de llamadas telefónicas y para los servicios basados en la localización. Diseño de Sitios Web: Con el amplio uso de la web en la actualidad, las tareas de diseño de sitios y servidores web, están aumentando su nivel de complejidad. Con la minería de secuencias se pueden registrar cuales son las principales rutinas de navegación de los usuarios para así proponer mejores estructuras para el diseño del sitio e identificar mejor las prioridades en las tareas de los servidores. Bioinformática: En la actualidad existen inmensos volúmenes de información genética que tienen una gran importancia en los campos de la medicina y la industria farmacéutica. Con la minería de secuencias frecuentes se puede determinar los genes que codifican para ciertas proteínas y llevar a cabo predicción de genes. Javier Samueza
  • 28. herramienta comerciales mineria de datos Orange es una suite de software para minería de base de datos y aprendizaje automático basado en componentes que cuenta con un fácil y potente, rápido y versátil front-end de programación visual para el análisis exploratorio de datos y visualización, y librerias para Python y secuencias de comando. Contiene un completo juego de componentes para preprocesamiento de datos, característica de puntuación y filtrado, modelado, evaluación del modelo, y técnicas de exploración. Está escrito en C++ y Python, y su interfaz gráfica de usuario se basa en la plataforma cruzada del framework Qt. Miner, antes llamado YALE (Sin embargo, otro ambiente de aprendizaje), es un ambiente de experimentos en aprendizaje automático y minería de datos que se utiliza para tareas de minería de datos tanto en investigación como en el mundo real. Permite a los experimentos componerse de un gran número de operadores anidables arbitrariamente, que se detallan en archivos XML y se hacen con la interfaz gráfica de usuario de RapidMiner. . jHepWork es un framework para análisis de datos libre y de código abierto que fue creado como un intento de hacer un entorno de análisis de datos usando paquetes de código abierto con una interfaz de usuario comprensible y para crear una herramienta competitiva a los programas comerciales. Esto se hace especialmente para las ploteos científicos interactivos en 2D y 3D y contiene bibliotecas científicas numéricas implementadas en Java para funciones matemáticas, números aleatorios, y otros algoritmos de minería de datos. jHepWork se basa en Jython un lenguaje de programación de alto nivel, pero codificación en Java también puede ser usada para llamar librerías jHepWork numéricas y gráficas.
  • 29. Mineria de Datos Resumiendo lo expuesto hasta ahora podemos decir que la funcionalidad de la minería de datos puede ser: a) Predictiva (p.ej. caso del banco, hospital): sirve para predecir cosas. i. En base a una clasificación: por ejemplo si el cliente pagará o no pagará, o el tipo de dolencia que puede tener un paciente. ii. En base a una regresión: por ejemplo calcular el tiempo previsible que se empleará en corregir los errores de un desarrollo de software. b) Descriptiva: i. Agrupamiento (clustering): clasificar individuos en grupos en base a sus características. Por ejemplo, clasificar pacientes del hospital en base a los datos de sus analíticas. ii. Reglas de asociación: conocer cómo se relacionan los datos o campos. Por ejemplo conocer en el hipermercado que un cliente que compra leche muy probablemente comprará también pan. iii. Secuenciación: intentar predecir el valor de una variable en función del tiempo. Por ejemplo la demanda de energía eléctrica. Javier Samueza
  • 30. Mineria de Datos La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) es un campo de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos.1 Utiliza los métodos de la inteligencia artificial,aprendizaje automático, estadística y sistemas de bases de datos. El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Además de la etapa de análisis en bruto, que involucra aspectos de bases de datos y de gestión de datos, de procesamiento de datos, del modelo y de las consideraciones de inferencia, de métricas de Intereses, de consideraciones de la Teoría de la complejidad computacional, de post- procesamiento de las estructuras descubiertas, de la visualización y de la actualización en línea. Logaritmos En matemáticas, lógica, ciencias de la computación y disciplinas relacionadas, un algoritmo (del griego y latín, dixit algorithmus y este a su vez del matemático persa Al-Juarismi1 ) es un conjunto prescrito de instrucciones o reglas bien definidas, ordenadas y finitas que permite realizar una actividad mediante pasos sucesivos que no generen dudas a quien deba realizar dicha actividad.2 Dados un estado inicial y una entrada, siguiendo los pasos sucesivos se llega a un estado final y se obtiene una solución. Los algoritmos son el objeto de estudio de la algoritmia. Agrupamiento Generalmente, los vectores de un mismo grupo (o clústers) comparten propiedades comunes. El conocimiento de los grupos puede permitir una descripción sintética de un conjunto de datos multidimensional complejo. De ahí su uso en minería de datos. Esta descripción sintética se consigue sustituyendo la descripción de todos los elementos de un grupo por la de un representante característico del mismo. En algunos contextos, como el de la minería de datos, se lo considera una técnica de aprendizaje no supervisado puesto que busca encontrar relaciones entre variables descriptivas pero no la que guardan con respecto a una variable objetivo. RESUMEN Javier Samueza