Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Universidad Central del
Ecuador
FACULTAD DE CIENCIAS
ECONÒMICAS
 CAPITULO 27:
LENGUAJE DE MARCADO EXTENSIBLE
 CAPITULO 28
CONCEPTOS MINERIA DE DATOS
 CARRERA DE FINANZAS
 NOMBRE: JAVIER SAMUEZA
 AULA: 39
Javier Samueza

lenguaje de mercado extensible
se ha elejido como el lenguaje estandar para estructurar e intercambiar datospor la web y se utiliza para proporcionar informacion adicional de la estrustura y siginificadao de
ciertos componentes XLS( Lenguaje de estilo libre) ;XML( Posible modelo de almacenamiento y recuperacion de datos se utiizan 2 elementos principales : Elementos y atributos y cabe
mencionar que en base de datos no se utilizan la misma terminologia que en XLS
Una continuacion del nombre del
elemento significa que el
elemento puede repetirse varias
veces
PCDATA se refiere a datos
disponibles en XML DTD)
Simbolo e1 y e2 especifica que el
documento puede aparecer en e1
o e2
XML DTD es bastante para
epecificar estructuras de arbol
con elementos obligatorios
opcionale y repetitivos estan
destinados a seguir un orden
especificado en el documento
XML SCHEMA
El lenguaje es un estandar para
especificar los documentos XML
utilizan el mismo lenguaje que los
documento XLM pueden presentar
los mismo procesadores
XLM,DTD estan basados en
modelo de datos en arbol y
atributos
Javier Samueza

Es necesario identificar el conjunto especifico de elementos de lenguaje XLM SCHEMA ( etiquetas) que se utiliza em documeto almacenado en la web
ejemplo http://www.3.org/2001/xmlschema espacio de nombres se aigna a toda variable xsd
Descripciones de esquema y espacios de nombre XLM
Anotaciones,documentacion y lenguaje utilizado
xsd anotacion y xsd documentacion para comentarios y anotacione adicionales, xml lang=
ingles
elemento y tipos
elemento raiz company para una serie de departamentos empleados y proyectos es decir comando utilizado para mejor el orden en entidades
Elementos de primer nive en la base de datos empresa
3 elementos sumamente importantes de primer nivel bajo elemento de raiz company 3 elementos importantes (employee,departament,y project cadad uno con su
elemento xsd element y si dentro de estas etiquetas se coloca el elemento (>) son conocidos como los elemento vacios
especificar el tipod de elemento y las ocurrencias minima y maxima
en XML schema atributos type minoccurus y maxoccuros especifica la multiplicidad de cada elemento en cualquier docuemento conforme a las especificaciones del
esquema si especificamos un elemento en cualquier documento se ilustrar con elementos employee, departamento y project pero si especificamos un elemento type ya
podemos definir directamente el elemento
Javier Samueza

x query especificacion de consultas en XML
permiten escribir expresiones nodos a partir de un documento XLM estrucuturado en la forma de arbol x query permite realizar consultas mas generales de un o o
mas temas o mas documentos en forma XML se cono ce como consultas ( FOR,LET,)
metodos para almacenar documentos xml
uso de un DMBS para almacenar los documento como texto
utilizacion de dbms de objetos o relacionar para
almacenar documentos xml enteros como campos
de texto dentro de los objetos o regitro DBMS para
procesamiento de datos
uso deun dbms para almacenar el contenido del docuemento
como elementos de datos
coleccion de documentos que obedecen un esquema xlm
especifico o XML DTB tienen datos relacionados es
decir misma estructura que esta especificada eN XLM o
DTB para recrear docuementos
diseño de un sistema
especializado para almacenar
datos XLM nativos
implementacion de sistema de base de
datos en arbol llamados XLM dmbs
nativos que contienen consultas
especializadas e indexacion y deberia
funcionar para todos los documentos
Creacion o publicacion de documentos XML personalizados a
partir de base de datos relacionales pre-existentes
omo base de datos relacionados hay cantidades enormes de datos almacenados puede
darse la necesidad de almacernarlos o intercambiarlos por la web
Javier Samueza

base da datos
esta seccion explica los problemas que surgen al convertir datos de un sistema de base de datos en documentos XLM utiliza un modelo jerarquico(arbol) para
representar los documentos utilizan modeo relacionales plano
Se le llama base de datos a los bancos de información que contienen datos relativos a diversas temáticas y categorizados de distinta manera, pero que comparten
entre sí algún tipo de vínculo o relación que busca ordenarlos y clasificarlos en conjunto.
Idea
Javier Samueza

lenguaje xlm
XML, siglas en inglés de eXtensible Markup Language ('lenguaje de marcas extensible'), es un
lenguaje de marcas desarrollado por el World Wide Web Consortium (W3C) utilizado para
almacenar datos en forma legible. Proviene del lenguaje SGML y permite definir la gramática de
lenguajes específicos (de la misma manera que HTML es a su vez un lenguaje definido por SGML)
para estructurar documentos grandes. A diferencia de otros lenguajes, XML da soporte a bases de
datos, siendo útil cuando varias aplicaciones deben comunicarse entre sí o integrar información.1
XML no ha nacido sólo para su aplicación para Internet, sino que se propone como un estándar
para el intercambio de información estructurada entre diferentes plataformas. Se puede usar en
bases de datos, editores de texto, hojas de cálculo y casi cualquier cosa imaginable.
XML es una tecnología sencilla que tiene a su alrededor otras que la complementan y la hacen
mucho más grande y con unas posibilidades mucho mayores. Tiene un papel muy importante en la
actualidad ya que permite la compatibilidad entre sistemas para compartir la información de una
manera segura, fiable y fácil.
Ventajas del XML
Es extensible: Después de diseñado y puesto en producción, es posible extender XML con la
adición de nuevas etiquetas, de modo que se pueda continuar utilizando sin complicación
alguna.
El analizador es un componente estándar, no es necesario crear un analizador específico para
cada versión de lenguaje XML. Esto posibilita el empleo de cualquiera de los analizadores
disponibles. De esta manera se evitan bugs y se acelera el desarrollo de aplicaciones.
Si un tercero decide usar un documento creado en XML, es sencillo entender su estructura y
procesarla. Mejora la compatibilidad entre aplicaciones. Podemos comunicar aplicaciones de
distintas plataformas, sin que importe el origen de los datos, es decir, podríamos tener una
aplicación en Linux con una base de datos Postgres y comunicarla con otra aplicación en
Windows y Base de Datos MS-SQL Server.
Transformamos datos en información, pues se le añade un significado concreto y los
asociamos a un contexto, con lo cual tenemos flexibilidad para estructurar documentos.
Javier Samueza

Documento DTD
La DTD es una definición, en un documento SGML o XML, que especifica restricciones en la estructura y sintaxis del mismo. La DTD se puede incluir dentro del
archivo del documento, pero normalmente se almacena en un fichero ASCII de texto separado. La sintaxis de las DTD para SGML y XML es similar pero no idéntica.
La definición de una DTD especifica la sintaxis de una aplicación de SGML o XML, que puede ser un estándar ampliamente utilizado como XHTML o una aplicación
local.
Elementos: indican qué etiquetas
son permitidas y el contenido de
dichas etiquetas.
Estructura: indica el orden en que
van las etiquetas en el documento.
Anidamiento: indica qué
etiquetas van dentro de otras.

otros pasos para extraer documentos XLM apartir de base de datos
1.- es necesario crear la consulta correcta en SQL para extraer la informacion deseada para el docuemnto XML
2. una vez ejecutada la consulta su resultado debe estructurarse para pasar de la forma estructural a la forma de arlbo
3.la consulta debe personalizarse para relacionar uno o varios campos
consulta xlm
varios forma de consulta XLM:
1.- x path que proporciona estructura de lenguajes para identificar varios nodos elemenos
2.- x query igual que x path pero ofrece mas alternativas
x path :especificar expresiones de ruta XLM
CONDICIONES CALIFICADOR que registren el patron adecuado ( nodos)
Como alternativa a la generación de datos sobre la marcha, puede importar un archivo
XML para usar datos de ejemplo. Con esta opción, la ventaja es que el usuario puede
agregar rápidamente los mismos datos de ejemplo a varios proyectos. El archivo XML
puede incluir rutas de acceso a otros archivos únicamente si dichas rutas están
relacionadas con la ubicación del archivo XML. Asegúrese de que esas rutas de acceso
a archivos estén disponibles para cada uno de los proyectos donde se utilice el archivo
XML.
Javier Samueza

XPATH
XPath (XML Path Language) es un lenguaje que permite construir expresiones que recorren y procesan un documento XML. La idea es parecida a las expresiones
regulares para seleccionar partes de un texto sin atributos (plain text). XPath permite buscar y seleccionar teniendo en cuenta la estructura jerárquica del XML. XPath
fue creado para su uso en el estándar XSLT, en el que se usa para seleccionar y examinar la estructura del documento de entrada de la transformación.
Nodo Raíz
Se identifica por /. No se debe
confundir el nodo raíz con el
elemento raíz del documento.
Así, si el documento XML de
nuestro ejemplo tiene por
elemento raíz a libro, éste será
el primer nodo que cuelgue del
nodo raíz del árbol, el cual es
Insisto: / hace referencia al nodo
raíz del árbol, pero no al
elemento raíz del documento
XML, por más que un
documento XML solo pueda
tener un elemento raíz. De
hecho, podemos afirmar que el
nodo raíz del árbol contiene al
elemento raíz del documento.
Nodo Elemento
Cualquier elemento de un
documento XML se convierte en un
nodo elemento dentro del árbol.
Cada elemento tiene su nodo
padre. El nodo padre de cualquier
elemento es, a su vez, un
elemento, excepto el elemento
raíz, cuyo padre es el nodo raíz.
Los nodos elemento tienen a su
vez hijos, que son: nodos
elemento, nodos texto, nodos
comentario y nodos de
instrucciones de proceso. Los
nodos elemento también tienen
propiedades tales como su
nombre, sus atributos e
información sobre los "espacios de
nombre" que tiene activos.
directa.
Nodos atributo
Como ya hemos indicado, los nodos
atributo no son tanto hijos del nodo
elemento que los contiene como
etiquetas añadidas a dicho nodo
elemento. Cada nodo atributo consta
de un nombre, un valor (que es
siempre una cadena) y un posible
"espacio de nombres".
Aquellos atributos que tienen por valor
el valor por defecto asignado en el
DTD se tratarán como si el valor se les
hubiese asignado al escribir el
documento XML. Al contrario, no se
crea nodo para atributos no
especificados en el documento XML, y
con la propiedad #IMPLIED definida
en su DTD. Tampoco se crean nodos
atributo para las definiciones de los
espacios de nombre.
Javier Samueza

base de datos relacionales
La interfaz de programación de aplicaciones, abreviada como API1 (del inglés: Application Programming Interface), es el conjunto de
subrutinas, funciones y procedimientos (o métodos, en la programación orientada a objetos) que ofrece cierta biblioteca para ser utilizado
por otro software como una capa de abstracción.
Son usadas generalmente en las bibliotecas de programación.
Una base de datos se compone
de varias tablas o relaciones.
No pueden existir dos tablas con el
mismo nombre ni registro.
La relación entre una tabla padre y un hijo
se lleva a cabo por medio de las claves
primarias y claves foráneas (o ajenas)
Las claves primarias son la clave
principal de un registro dentro de
una tabla y estas deben cumplir con
la integridad de datos.
Las claves ajenas se colocan en la tabla hija,
contienen el mismo valor que la clave primaria del
registro padre; por medio de estas se hacen las
formas relacionales.
Javier Samueza

Busqueda de patrone secuenciales
El agrupamiento de secuencias se define como la
tarea de separar en grupos a las secuencias de
datos, de manera que las pertenecientes a un
mismo grupo sean muy similares entre sí, y al
mismo tiempo sean diferentes a las de otros
grupos. Se usa en muchos escenarios donde no
se cuenta con registros de información confiable o
donde se deben realizar asociaciones a partir de
la similitud entre las secuencias que se analizan.
Un ejemplo típico de aplicación de esta técnica,
es en las transacciones comerciales donde sirve
para identificar diferentes grupos de clientes con
registros de compra similares.
También tienen un variado uso en la formación de
grupos de secuencias de proteínas similares, para
analizar a profundidad cada uno de ellos
atendiendo a sus características particulares.
Bosqueda de patrones en erie temporlaes
La mayoría de los algoritmos implementados para el
minado de secuencias frecuentes, utilizan tres tipos
diferentes de enfoques de acuerdo a la forma de
realizar el conteo de frecuencia a los patrones
secuenciales candidatos.
El primer grupo de algoritmos se basan en la
propiedad A priori. Esta propiedad fue introducida
por Agrawal and Srikant3 en el minado de reglas de
asociación y se basa en que si un patrón es
frecuente entonces cualquier subpatrón de él
también será frecuente. Esto permite reducir el
espacio de búsqueda en el proceso de generación
de candidatos. Basado en esta estrategia se
presentaron algoritmos como el AprioriAll y el
AprioriSome en;4 y el algoritmo GSP (Patrón
secuencial generalizado).5
El segundo grupo está formado por algoritmos que
tratan de reducir el tamaño del conjunto de datos
explorados, sustituyendo la fase de generación de
candidatos por la realización de proyecciones y
técnicas de crecimiento de patrones sobre los datos
iniciales. .

elemento
Elementos
Un elemento describe los datos que contiene. Los elementos también pueden contener otros elementos y atributos. Para obtener más información, vea
<xsd:all> Element.
Cuando una definición de elemento contiene elementos o atributos adicionales, se trata de un tipo complejo. Para obtener más información sobre los tipos
complejos, vea la sección "Tipos", más adelante en este tema.
La definición básica de un elemento consta de un nombre y un tipo de datos. En el siguiente ejemplo se muestra cómo definir un elemento denominado
quantity, con un tipo de valor entero simple.
atributo
Atributos
Un atributo es una definición de tipo simple con nombre que no puede contener otros elementos. Los atributos también pueden asignarse a un valor
predeterminado opcional y deben aparecer en la parte inferior de las definiciones de tipo complejo. Además, si se declaran varios atributos, se
pueden producir en cualquier pedido. Para obtener más información, vea <xsd:attribute> Element.
El siguiente código muestra cómo declarar un atributo denominado OrderDiscount que está definido con el tipo simple number. El uso de un atributo
aquí tiene sentido ya que los atributos son opcionales. Si no se proporciona OrderDiscount, los datos XML seguirán siendo válidos
Javier Samueza

resumen
este capitulo ofrece una vision general del estandar de representacion e intercambio de datos
por internet hemos descrito el estandar Xml y su modelo de datos jearquico estructurado en forma de arbol
asi como los documentos XML y los lenguajes que permitan especificar la estructura de dicha docuemntos en particulas
XML,DTD,definicion por tipode documento y XML tanto en formato en su formato nativo ( texto(
Lenguaje
Utiliza un subconjunto del lenguaje Prolog llamado Datalog el cual es declarativo y permite al ordenador hacer
deducciones para contestar a consultas basándose en los hechos y reglas almacenado
Mecanismos
Existen dos mecanismos de inferencia:
Ascendente: donde se parte de los hechos y se obtiene nuevos aplicando reglas de inferencia.
Descendente: donde se parte del predicado (objetivo de la consulta realizada) e intenta encontrar similitudes entre las
variables que nos lleven a hechos correctos almacenados en la base de datos.
Javier Samueza

capitulo28 :
conceptos mineria de datos
La minería de datos es el proceso de detectar la información procesable de los conjuntos grandes de datos. Utiliza el análisis matemático para deducir los patrones y
tendencias que existen en los datos. Normalmente, estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones son demasiado complejas o
porque hay demasiado datosEstos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos. Los modelos de minería de datos se pueden aplicar a
situaciones empresariales
como las siguientes:
Predecir ventas
Dirigir correo a clientes específicos
Determinar los productos que se pueden vender juntos
Buscar secuencias en el orden en que los clientes agregan productos a una cesta de compra
repaso a la tecnologia
informe garnet aparece como las tecnologias de mas exito en un futuro proximo se relaccionara la mineria de datos con areas llamadas descubrimientos
del conocimiento
comparacion entre mineria de datos y alamacen de datos
almacen de datos a la toma de deciciones basados en datos mientras que la mineria de datos es la
combinacion de datos se puede aplicar a toda las bases de datos en operaciones individuales expansion de nuevos horizontes
Mineria de datos como parte del proceso del descubrimiento del conocimiento
reglas de asociacion : ejemplo un cliente compre equipos de video tambien complementos
patrones secuenciales: un cliente compra una camara pero despuez de varios meses compra accesorios
arboles de clasificacion : los cliente financiaran sus compras
Javier Samueza

Objetivos de la mineria de datos y el descubrimiento de conocimiento
prediccion
puede predecir como se comportan
ciertosatributos de los datos
ejemplo analisis de transacciones
de compra que consumiran los
clientes
identificacion
los patrones de datos se puede utilizar para
identificar la existencia a los intrusos que
intentan introducirse en un sistema
mediante programas que han sido
ejecutados
Clasificacion :
la mineria de datos puede dividir los
datos en forma clases o categorias
basandonde en combinanciones de
parametros
agrupamiento
la recoleccio de diferente tipo de
informacion para beneficio de los
diferentes personas que la requieran
para poder ser optima y de calidad
Javier Samueza

reglas de asociacion
En minería de datos y aprendizaje automático, las reglas de asociación se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.
1 Se han investigado ampliamente diversos métodos para aprendizaje de reglas de asociación que
han resultado ser muy interesantes para descubrir relaciones entre variables en grandes conjuntos de datos.
reglas de asociacion
Reglas significativas, 'soporte' y 'confianza
Nótese que el ejemplo anterior es muy pequeño, en la práctica, una regla necesita un soporte de varios cientos de registros (transacciones) antes de que
ésta pueda considerarse significativadesde un punto de vista estadístico. A menudo las bases de datos contienen miles o incluso millones de registros.
Para seleccionar reglas interesantes del conjunto de todas las reglas posibles que se pueden derivar de un conjunto de datos se pueden utilizar restricciones sobre diversas medidas de
"significancia" e "interés". Las restricciones más conocidas son los umbrales mínimos de "soporte" y "confianza".
Javier Samueza

El algoritmo apriori
algoritmo apriori se usa en minería de datos para encontrar Reglas de asociación en un conjunto de datos.
Este algoritmo se basa en el conocimiento previo o “a priori” de los conjuntos frecuentes, esto sirve para reducir el espacio de búsqueda yaumentar la eficiencia.
Idea
Javier Samueza

algoritmo de muestreo
es seleccionar pequeñas muestras que esa pequeña muestra quepa en el momento principal de la base de datos y
determininar conjuntos frecuentes con esa muestra podriamos decir que la base son los conjuntos frecuentes
En estadística se conoce como muestreo a la técnica para la selección de una muestra a partir de una población.
Al elegir una muestra aleatoria se espera conseguir que sus propiedades sean extrapolables a la población. Este
proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzarían si se realizase
un estudio de toda la población.
Cabe mencionar que para que el muestreo sea válido y se pueda realizar un estudio adecuado (que consienta no
solo hacer estimaciones de la población sino estimar también los márgenes de error correspondientes a dichas
estimaciones), debe cumplir ciertos requisitos. Nunca podremos estar enteramente seguros de que el resultado sea
una muestra representativa, pero sí podemos actuar de manera que esta condición se alcance con una probabilidad
alta.
Javier Samueza

algoritmo de arbol
Un árbol es una estructura de datos, que puede definirse de forma recursiva como:
- Una estructura vacía o
- Un elemento o clave de información (nodo) más un número finito de estructuras tipo árbol, disjuntos, llamados subárboles.
Si dicho número de estructuras es inferior o igual a 2, se tiene un árbol binario.
Es, por tanto, una estructura no secuencial.
Otra definición nos da el árbol como un tipo de grafo (ver grafos): un árbol es un grafo acíclico, conexo y no dirigido. Es decir, es un grafo no dirigido en el que existe e
xactamente un
camino entre todo par de nodos. Esta definición permite implementar un árbol y sus operaciones empleando las representaciones que se utilizan para los grafos. Sin embargo, e
n esta sección no se tratará esta implementación.
Javier Samueza

algoritmo de particionado
Este algoritmo se ha implementado en lenguaje C. El
programa se puede ejecutar en entorno MS-DOS, para lo
cual simplemente hay que teclear partitio desde el
directorio en el que se encuentre el programa, o en entorno
Windows.
En este Ãºltimo caso, hay que seguir la siguiente
secuencia de pasos: inicio>ejecutar>teclear "partitio"
precedido del path correspondiente>pulsar INTRO.
Estos pasos se muestran en las dos figuras siguientes.
Al ejecutar el programa partitio.exe, el usuario ha de elegir la
opción Kernighan-Lin y proporcionar un fichero de entrada que
contenga el número de bloques así como las interconexiones
entre ellos. A partir de esta información, se distribuyen los
bloques en dos particiones, .
El siguiente paso es la ejecución del algoritmo, tras lo cual,
también opcionalmente, es posible visualizar el reparto final de
los elementos. Por último, se genera el fichero de salida, en el
que se indica la distribución de los bloques obtenida

algoritmo de agrupamiento k
K -means es un método de agrupamiento, que tiene como objetivo la partición de un conjunto de n observaciones en k grupos en el que cada
observación pertenece al grupo más cercano a la media. Es un método utilizado en minería de datos.
La agrupación del conjunto de datos puede ilustrarse en una partición del espacio de datos en celdas de Voronoi.
El problema es computacionalmente difícil (NP-hard). Sin embargo, hay eficientes heurísticas que se emplean comúnmente y convergen
rápidamente a un óptimo local. Estos suelen ser similares a los algoritmos expectation-maximization de mezclas de distribuciones gausianas por
medio de un enfoque de refinamiento iterativo empleado por ambos algoritmos. Además, los dos algoritmos usan los centros que los grupos
utilizan para modelar los datos, sin embargo k-means tiende a encontrar grupos de extensión espacial comparable, mientras que el mecanismo
expectation-maximization permite que los grupos que tengan formas diferentes.
Dado un conjunto de observaciones (x1, x2, …, xn), donde cada observación es un vector real de d dimensiones, k-means construye
una partición de las observaciones en k conjuntos (k ≤ n) S = {S1, S2, …, Sk}

Algoritmo de Crecimiento FP para la busqueda itesem frecuentes
entrada =arbol FP y soporte minimo
salida =patrones frecuentes (conjuntos)
revela interesantes para regla de asociación asociación minera o conexión relevante entre conjuntos de elementos de grandes cantidades
de datos es un contenido importante de la minería de datos. En este artículo se analiza el algoritmo primero FP-Crecimiento y el
análisis utilizando los resultados de la agrupación algoritmo de estudiantes en grupos y los factores de la relación estudiante racimo han
demostrado que el algoritmo tiene una fuerte viabilidad. Minería de datos de las palabras clave; análisis de asociación; patrón frecuente;
FP-Tree 1 reglas Introducción Association (Reglas de asociación) la minería de datos es una línea de investigación importante en el
campo de la minería, que consiste en la IBM Almaden Research Center de Estados Unidos en Rakesh A-Grawal et al 1993 fue
propuesto por primera vez, es para describir algunas de las reglas que subyacen a la relación entre los elementos de datos en la base de
datos.
Javier Samueza

algoritmos geneticos
Un algoritmo es una serie de pasos organizados que describe el proceso que se debe seguir, para dar solución a un problema específico. En los años 1970, de
la mano de John Henry Holland, surgió una de las líneas más prometedoras de la inteligencia artificial, la de los algoritmos genéticos.1 2 Son llamados así
porque se inspiran en la evolución biológica y su base genético-molecular. Estos algoritmos hacen evolucionar una población de individuos sometiéndola a
acciones aleatorias semejantes a las que actúan en la evolución biológica (mutaciones y recombinaciones genéticas), así como también a una selección de
acuerdo con algún criterio, en función del cual se decide cuáles son los individuos más adaptados, que sobreviven, y cuáles los menos aptos, que son
descartados. Los algoritmos genéticos se enmarcan dentro de los algoritmos evolutivos, que incluyen también las estrategias evolutivas, la programación
evolutiva y la programación genética.
Inicialización: Se genera aleatoriamente la población inicial, que está constituida por un conjunto de cromosomas los cuales representan
las posibles soluciones del problema. En caso de no hacerlo aleatoriamente, es importante garantizar que dentro de la población inicial,
se tenga la diversidad estructural de estas soluciones para tener una representación de la mayor parte de la población posible o al menos
evitar la convergencia prematura.
Evaluación: A cada uno de los cromosomas de esta población se aplicará la función de aptitud para saber cómo de "buena" es la solución
que se está codificando.
Condición de término El AG se deberá detener cuando se alcance la solución óptima, pero ésta generalmente se desconoce, por lo que
se deben utilizar otros criterios de detención. Normalmente se usan dos criterios: correr el AG un número máximo de iteraciones
(generaciones) o detenerlo cuando no haya cambios en la población

Interfaz de usuario
Las interfaces básicas de usuario son
aquellas
que incluyen elementos como menús,
ventanas, contenido gráfico, cursor, los
beeps y algunos otros sonidos que la
computadora hace, y en general, todos
aquellos canales por los cuales se permite
la comunicación entre el ser humano y la
computadora.
La mejor interacción humano-máquina a
través de una adecuada interfaz (de
usuario), que le brinde tanto comodidad,
como eficiencia
Interfaz de programador de aplicaciones
La interfaz de programación de
aplicaciones, abreviada como API1 (del
inglés: Application Programming
Interface), es el conjunto de subrutinas,
funciones y procedimientos (o
métodos, en la programación orientada
a objetos) que ofrece cierta biblioteca
para ser utilizado por otro software
como una capa de abstracción.
Son usadas generalmente en las
bibliotecas de programación.
tendencias par el futuro
la herramienta de mineria de datos se
encuentre en constante evolucion a partir de
ideas procedentes de ultimas investigaciones
cientificas de las cuales integran muchos
algorimos que hacen que utilicen un codigo
adecuado
Javier Samueza

regresion
es una aplicacion especial de la regla de clasificacion se relaciona directamente con las variables de clase
objeto y se llamara regla de regresion
Dentro de este mÛdulo, en el apartado resumen del procedimiento, se obtiene
la recta de regresiÛn estimada (estimaciÛn de los coeÖcientes de 0 y 1; desviaciones
tÌpicas, lo que permite calcular intervalos de conÖanza de los mismos y test de la t). Este
apartado tambiÈn proporciona la tabla ANOVA y los coeÖcientes de determinaciÛn. En
este problema el coeÖciente de correlaciÛn es r = 00969, y se concluye que el ajuste lineal
es bueno.
El apartado predicciones permite calcular predicciones e intervalos de
la media condicionada y de predicciÛn para una observaciÛn determinada.
Si la recta de regresiÛn se quiere comparar con otros modelos ìlinealizablesî se puede

Agrupamiento
Un algoritmo de agrupamiento (en inglés, clustering) es un procedimiento de agrupación de una serie de vectores de
acuerdo con un criterio. Esos criterios son por lo general distancia o similitud.La cercanía se define en términos de una d
eterminada función de
distancia, como la euclídea, aunque existen otras más robustas o que permiten extenderla a variables discretas. La medida
más utilizada para medir la similitud
entre los casos es la matriz de correlación entre los nxn casos. El conocimiento de los grupos puede permitir una descripción
sintética de un conjunto de datos multidimensional complejo.
De ahí su uso en minería de datos. Esta descripción sintética se consigue sustituyendo la descripción de todos los elementos
de un grupo por la de un representante característico del mismo.
Usted le enseña a alumnos en un curso llamado 'El arte del idioma Inglés'.
Sus estudiantes están divididos en cuatro grupos, Listening, Reading, Speaking y Writing, y para la mayor parte del curso
trabajan dentro de estos grupos.
Usted quiere que los estudiantes trabajen en un proyecto, que explore el idioma activo y pasivo. Usted crea un agrupamiento
de Passive Language y lo asigna a los grupos de Listening y Reading a este agrupamiento. Usted crea otro agrupamiento de
Active Language y le asigna los grupos de Speaking y Writing a este agrupamiento.
Usando la característica para Restringir el acceso, Usted configura que ciertas tareas solamente sean para el agrupamiento de
Passive Language y otras tareas para el agrupamiento de Active Language.
Ahora los grupos pueden trabajar juntos dentro de sus agrupamientos, en sus áreas enfocadas respectivas, sin que los otros
grupos observen sus actividades.
Al final del proyecto Usted puede juntar a todos los grupos en una actividad, para que todos los participantes compartan sus
aprendizajes.
Javier Samueza

aplicacion de mineria de datos
Aplicaciones
La minería de secuencias frecuentes posee una amplia gama de aplicaciones, en distintas líneas de investigación y
entornos de producción, como por ejemplo:
Detección de Intrusos: Se ha utilizado para la detección de intrusiones, estudiando los patrones de mal uso en la
seguridad de la información, encontrando patrones de acceso a los recursos, procesando los registros de ataques a la
red, para así descubrir comportamientos secuenciales de intrusión y diseñar estrategias para la detección de varias
etapas de ataque.
Salud: En el sector de la salud, se usan para representar patrones de atención médica como las trayectorias de los
pacientes en los centros de salud, los estados evolutivos de los pacientes, los comportamientos de los síntomas, entre
otros; para descubrir patrones en las historias de los registros médicos y mejorar el nivel de diagnóstico.
Telecomunicaciones: Se utiliza en el campo de las telecomunicaciones para predecir la futura localización de un
usuario móvil, para la búsqueda de patrones de llamadas telefónicas y para los servicios basados en la localización.
Diseño de Sitios Web: Con el amplio uso de la web en la actualidad, las tareas de diseño de sitios y servidores web,
están aumentando su nivel de complejidad. Con la minería de secuencias se pueden registrar cuales son las
principales rutinas de navegación de los usuarios para así proponer mejores estructuras para el diseño del sitio e
identificar mejor las prioridades en las tareas de los servidores.
Bioinformática: En la actualidad existen inmensos volúmenes de información genética que tienen una gran importancia
en los campos de la medicina y la industria farmacéutica. Con la minería de secuencias frecuentes se puede
determinar los genes que codifican para ciertas proteínas y llevar a cabo predicción de genes.
Javier Samueza

herramienta comerciales mineria de datos
Orange es una suite de software
para minería de base de datos y
aprendizaje automático basado en
componentes que cuenta con un
fácil y potente, rápido y versátil
front-end de programación visual
para el análisis exploratorio de
datos y visualización, y librerias
para Python y secuencias de
comando. Contiene un completo
juego de componentes para
preprocesamiento de datos,
característica de puntuación y
filtrado, modelado, evaluación del
modelo, y técnicas de exploración.
Está escrito en C++ y Python, y su
interfaz gráfica de usuario se basa
en la plataforma cruzada del
framework Qt.
Miner, antes llamado YALE (Sin
embargo, otro ambiente de
aprendizaje), es un ambiente de
experimentos en aprendizaje
automático y minería de datos que se
utiliza para tareas de minería de
datos tanto en investigación como en
el mundo real. Permite a los
experimentos componerse de un gran
número de operadores anidables
arbitrariamente, que se detallan en
archivos XML y se hacen con la
interfaz gráfica de usuario de
RapidMiner. .
jHepWork es un framework para
análisis de datos libre y de código
abierto que fue creado como un
intento de hacer un entorno de análisis
de datos usando paquetes de código
abierto con una interfaz de usuario
comprensible y para crear una
herramienta competitiva a los
programas comerciales. Esto se hace
especialmente para las ploteos
científicos interactivos en 2D y 3D y
contiene bibliotecas científicas
numéricas implementadas en Java
para funciones matemáticas, números
aleatorios, y otros algoritmos de
minería de datos. jHepWork se basa
en Jython un lenguaje de
programación de alto nivel, pero
codificación en Java también puede
ser usada para llamar librerías
jHepWork numéricas y gráficas.

Mineria de Datos
Resumiendo lo expuesto hasta ahora podemos decir que la funcionalidad de la minería de datos puede ser:
a) Predictiva (p.ej. caso del banco, hospital): sirve para predecir cosas.
i. En base a una clasificación: por ejemplo si el cliente pagará o no pagará, o el tipo de dolencia que puede tener un paciente.
ii. En base a una regresión: por ejemplo calcular el tiempo previsible que se empleará en corregir los errores de un desarrollo de software.
b) Descriptiva:
i. Agrupamiento (clustering): clasificar individuos en grupos en base a sus características. Por ejemplo, clasificar pacientes del hospital en
base a los datos de sus analíticas.
ii. Reglas de asociación: conocer cómo se relacionan los datos o campos. Por ejemplo conocer en el hipermercado que un cliente que
compra leche muy probablemente comprará también pan.
iii. Secuenciación: intentar predecir el valor de una variable en función del tiempo. Por ejemplo la demanda de energía eléctrica.
Javier Samueza

Mineria de Datos
La minería de datos o exploración de datos (es
la etapa de análisis de "Knowledge Discovery in
Databases" o KDD) es un campo de las ciencias
de la computación referido al proceso que
intenta descubrir patrones en grandes
volúmenes de conjuntos de datos.1 Utiliza los
métodos de la inteligencia artificial,aprendizaje
automático, estadística y sistemas de bases de
datos. El objetivo general del proceso de
minería de datos consiste en extraer
información de un conjunto de datos y
transformarla en una estructura comprensible
para su uso posterior. Además de la etapa de
análisis en bruto, que involucra aspectos de
bases de datos y de gestión de datos, de
procesamiento de datos, del modelo y de las
consideraciones de inferencia, de métricas de
Intereses, de consideraciones de la Teoría de la
complejidad computacional, de post-
procesamiento de las estructuras descubiertas,
de la visualización y de la actualización en
línea.
Logaritmos
En matemáticas, lógica, ciencias de la
computación y disciplinas relacionadas,
un algoritmo (del griego y latín, dixit
algorithmus y este a su vez del
matemático persa Al-Juarismi1 ) es un
conjunto prescrito de instrucciones o
reglas bien definidas, ordenadas y
finitas que permite realizar una
actividad mediante pasos sucesivos que
no generen dudas a quien deba realizar
dicha actividad.2 Dados un estado
inicial y una entrada, siguiendo los
pasos sucesivos se llega a un estado
final y se obtiene una solución. Los
algoritmos son el objeto de estudio de la
algoritmia.
Agrupamiento
Generalmente, los vectores de un mismo
grupo (o clústers) comparten propiedades
comunes. El conocimiento de los grupos
puede permitir una descripción sintética de
un conjunto de datos multidimensional
complejo. De ahí su uso en minería de
datos. Esta descripción sintética se
consigue sustituyendo la descripción de
todos los elementos de un grupo por la de
un representante característico del mismo.
En algunos contextos, como el de la
minería de datos, se lo considera una
técnica de aprendizaje no supervisado
puesto que busca encontrar relaciones
entre variables descriptivas pero no la que
guardan con respecto a una variable
objetivo.
RESUMEN
Javier Samueza

Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Similar a Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos) (20)

Más de Liz Ocampo

Más de Liz Ocampo (20)

Último

Último (20)

Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)