Este documento proporciona definiciones y explicaciones de varios términos relacionados con sistemas de información como extranet, FTP, Usenet, Java, memoria caché y tecnología de la información. También incluye breves resúmenes de la historia de tecnologías como Internet, códigos de barras y computadoras.
1. Guatemala 2010. Seminario de Gerencia. Consulta http://seminarios.juanpablomata.es.tt
Terminologías Sistemas de Información
Extranet: Una extranet es una red privada virtual que utiliza protocolos de Internet, protocolos
de comunicación y probablemente infraestructura pública de comunicación para compartir de
forma segura parte de la información u operación propia de una organización con proveedores,
compradores, socios, clientes o cualquier otro negocio u organización. Se puede decir en otras
palabras que una extranet es parte de la Intranet de una organización que se extiende a
usuarios fuera de ella. Usualmente utilizando la Internet. La extranet suele tener un acceso
semiprivado, para acceder a la extranet de una empresa no necesariamente el usuario ha de
ser trabajador de la empresa, pero si tener un vínculo con la entidad. Es por ello que una
extranet requiere o necesita un grado de seguridad, para que no pueda acceder cualquier
persona. Otra característica de la extranet es que se puede utilizar como una Internet de
colaboración con otras compañías.
Similitudes de Extranet con Internet.
El principal aspecto en común entre estos tres términos es que los tres utilizan la misma
tecnología. Las diferencias de la extranet con Internet y la Intranet se dan principalmente en el
tipo de información y en el acceso a ella. Además, una extranet requiere mayor seguridad e
implica acceso en tiempo real a los datos, ya que estos tienen que estar actualizados.
La extranet se dirige a usuarios tanto de la empresa como externos, pero la información que se
encuentra en la extranet es restringida, solo tienen acceso a esta red aquellos que tengan
permiso. En cambio a la intranet solo acceden los empleados y las áreas internas de la
empresa y permite el intercambio de información entre los trabajadores. Por último, a la Internet
puede dirigirse cualquier usuario y tiene distintos usos, como recabar información de los
productos, contactar con cualquier persona de la empresa, etc.
FTP: El Servicio FTP es ofrecido por la capa de Aplicación del modelo de capas de red TCP/IP
al usuario, utilizando normalmente el puerto de red 20 y el 21. Un problema básico de FTP es
que está pensado para ofrecer la máxima velocidad en la conexión, pero no la máxima
seguridad, ya que todo el intercambio de información, desde el login y password del usuario en
el servidor hasta la transferencia de cualquier archivo, se realiza en texto plano sin ningún tipo
de cifrado, con lo que un posible atacante puede capturar este tráfico, acceder al servidor, o
apropiarse de los archivos transferidos.
En 1969, nació ARPANET (Ver Historia de Internet) como una pequeña red de pocos
ordenadores que transmitían información de unos a otros mediante paquetes conmutados (lo
que sería en el futuro Internet), y tres años más tarde un grupo de investigadores del MIT
presentó la propuesta del primer "Protocolo para la transmisión de archivos en Internet" (RFC
114). Era un protocolo muy sencillo basado en el sistema de correo electrónico pero sentó las
bases para el futuro protocolo de transmisión de archivos (FTP).
En 1985, quince años después de la primera propuesta, se termina el desarrollo del aún
vigente protocolo para la transmisión de archivos en Internet (FTP), basado en la filosofía de
cliente-servidor.
El gran boom de Internet se produce en 1995. Este año puede ser considerado como el
nacimiento de la Internet comercial. Desde ese momento su crecimiento ha superado todas las
expectativas. En este año la World Wide Web supera a FTP transformándose en el servicio
preferido de la red, después de que el año anterior superase en popularidad a Telnet.
Con la llegada del World Wide Web, y de los navegadores, ya no es necesario conocer los
complejos comandos de FTP, este protocolo se puede utilizar escribiendo la URL del servidor
al que queramos conectar en el navegador web, indicando con ftp: // que vamos a contactar
con un servidor FTP y no con un servidor web (que sería http://).
1
2. Guatemala 2010. Seminario de Gerencia. Consulta http://seminarios.juanpablomata.es.tt
Usenet: Usenet es uno de los sistemas más antiguos de comunicaciones entre redes de
computadoras, aún en uso. Permite a un usuario intercambiar opiniones y experiencias…con
otras personas interesadas en el mismo tema específico que él. Comenzó a funcionar en 1980,
originalmente concebida como un “ARPANET para pobres” empleando UUCP para ofrecer mail
y transferencia de archivos, así como noticias sobre el nuevo software desarrollado. El sistema,
desarrollado por la Universidad del Norte de Carolina en Chapel Hill y la Universidad de Duke,
fue denominado Usenet con la esperanza de que la organización USENIX tuviera un papel
activo en ella.
Los usuarios pueden leer o enviar mensajes a distintos grupos de noticias ordenados de forma
jerárquica. Cuando un usuario se suscribe a un grupo de noticias, el software cliente de noticias
mantiene el hilo de los artículos que ha leído ese usuario. En muchos grupos de noticias, la
mayoría de los artículos son respuestas a algún otro. El conjunto de artículos que puede ser
rastreados hasta un artículo inicial se denomina hilo. Las últimas versiones muestran los
artículos ordenados en hilos y subhilos, para facilitar la búsqueda de discusiones en un grupo
de noticias.
La asignación de jerarquías y subgrupos en ciertos casos es anárquica. Inicialmente tan sólo
estaban definidas unas pocas jerarquías de nivel superior como comp.*, y posteriormente
aparecieron otras libremente como alt.*. Es prácticamente imposible determinar el número total
de grupos, ya que cada servidor puede definir los suyos propios (algo que suele suceder con
frecuencia).
Usenet gira en torno al artículo, cada uno de los cuales puede ser publicado en uno o más
grupos. Los artículos son los datos que se actualizan y propagan mundialmente a través de
esta red. Los artículos tienen un formato de texto simple con algunas otras restricciones, y son
similares a un mensaje de correo electrónico, salvo por sus cabeceras.
Los artículos no suelen emplear la extensión MIME, y contienen texto sin formato. Cada
servidor de news establece el tiempo de vida de cada artículo en función de sus cabeceras, su
tamaño, fecha de publicación, etc. En ciertas ocasiones se utilizan los artículos para incluir
archivos binarios codificados en formato de texto, utilizando algoritmos como UUEncode,
Base64, o recientemente y Encode. De hecho, existen grupos dedicados exclusivamente al
envío de mensajes con archivos binarios codificados, como la rama alt.binaries.*, llegando a
ser el origen de una gran cantidad de material ilegal.
El gran número de usuarios y grupos, la escasez de recursos requeridos, la velocidad, el
anonimato, su libre acceso y su descentralización, entre otros, hacen de Usenet la mayor red
de intercambio de información y debate del mundo.
Usenet tiene también una importancia cultural significativa en el mundo reticulado, habiendo
dado lugar al nacimiento, o popularizado, conceptos ampliamente reconocidos, como "FAQ" y
"spam".
Java. Java es un lenguaje de programación orientado a objetos desarrollado por Sun
Microsystems a principios de los años 90. El lenguaje en sí mismo toma mucha de su sintaxis
de C y C++, pero tiene un modelo de objetos más simple y elimina herramientas de bajo nivel,
que suelen inducir a muchos errores, como la manipulación directa de punteros o memoria.
Las aplicaciones Java están típicamente compiladas en un bytecode, aunque la compilación en
código máquina nativo también es posible. En el tiempo de ejecución, el bytecode es
normalmente interpretado o compilado a código nativo para la ejecución, aunque la ejecución
directa por hardware del bytecode por un procesador Java también es posible.
La implementación original y de referencia del compilador, la máquina virtual y las bibliotecas
de clases de Java fueron desarrolladas por Sun Microsystems en 1995.
2
3. Guatemala 2010. Seminario de Gerencia. Consulta http://seminarios.juanpablomata.es.tt
Desde entonces, Sun ha controlado las especificaciones, el desarrollo y evolución del lenguaje
a través del Java Community Process, si bien otros han desarrollado también
implementaciones alternativas de estas tecnologías de Sun, algunas incluso bajo licencias de
software libre.
Entre noviembre de 2006 y mayo de 2007, Sun Microsystems liberó la mayor parte de sus
tecnologías Java bajo la licencia GNU GPL, de acuerdo con las especificaciones del Java
Community Process, de tal forma que prácticamente todo el Java de Sun es ahora software
libre (aunque la biblioteca de clases de Sun que se requiere para ejecutar los programas Java
aún no lo es).
Memoria Caché. Un caché es un sistema especial de almacenamiento de alta velocidad.
Puede ser tanto un área reservada de la memoria principal como un dispositivo de
almacenamiento de alta velocidad independiente. Hay dos tipos de caché frecuentemente
usados en las computadoras personales: memoria caché y caché de disco. Una memoria
cache, llamada también a veces almacenamiento caché o RAM caché, es una parte de
memoria RAM estática de alta velocidad (SRAM) más que la lenta y barata RAM dinámica
(DRAM) usada como memoria principal. La memoria cache es efectiva dado que los programas
acceden una y otra vez a los mismos datos o instrucciones. Guardando esta información en
SRAM, la computadora evita acceder a la lenta DRAM.
Cuando se encuentra un dato en la caché, se dice que se ha producido un acierto, siendo un
caché juzgado por su tasa de aciertos (hit rate). Los sistemas de memoria caché usan una
tecnología conocida por caché inteligente en la cual el sistema puede reconocer cierto tipo de
datos usados frecuentemente. Las estrategias para determinar qué información debe de ser
puesta en el cache constituyen uno de los problemas más interesantes en la ciencia de las
computadoras. Algunas memorias cache están construidas en la arquitectura de los
microprocesadores. Por ejemplo, el procesador Pentium II tiene una caché L2 de 512 Kbytes.
La caché de disco trabaja sobre los mismos principios que la memoria caché, pero en lugar de
usar SRAM de alta velocidad, usa la convencional memoria principal. Los datos más recientes
del disco duro a los que se ha accedido (así como los sectores adyacentes) se almacenan en
un buffer de memoria. Cuando el programa necesita acceder a datos del disco, lo primero que
comprueba es la cache del disco para ver si los datos ya están ahí. La cache de disco puede
mejorar drásticamente el rendimiento de las aplicaciones, dado que acceder a un byte de datos
en RAM puede ser miles de veces más rápido que acceder a un byte del disco duro.
La tecnología de información (IT), según lo definido por la asociación de la tecnología de
información de América (ITAA) es “el estudio, diseño, desarrollo, implementación, soporte o
dirección de los sistemas de información computarizados, en particular de software de
aplicación y hardware de computadoras.” Se ocupa del uso de las computadoras y su software
para convertir, almacenar, proteger, procesar, transmitir y recuperar la información. Hoy en día,
el término “tecnología de información” se suele mezclar con muchos aspectos de la
computación y la tecnología y el término es más reconocible que antes.
La tecnología de la información puede ser bastante amplia, cubriendo muchos campos. Los
profesionales TI realizan una variedad de tareas que van desde instalar aplicaciones a diseñar
complejas redes de computación y bases de datos. Algunas de las tareas de los profesionales
TI incluyen, administración de datos, redes, ingeniería de hardware, diseño de programas y
bases de datos, así como la administración y dirección de los sistemas completos. Cuando las
tecnologías de computación y comunicación se combinan, el resultado es la tecnología de la
información o “infotech”. La Tecnología de la Información (IT) es un término general que
describe cualquier tecnología que ayuda a producir, manipular, almacenar, comunicar, y/o
esparcir información.
3
4. Guatemala 2010. Seminario de Gerencia. Consulta http://seminarios.juanpablomata.es.tt
Historia de la tecnología de información. El término “tecnología de información” vino
alrededor de los años 70. Su concepto básico, sin embargo, puede ser remontado atrás,
incluso fomenta. A través del vigésimo siglo, una alianza entre las industrias militares y varias,
ha existido en el desarrollo de la electrónica, de computadoras, y de la teoría de información.
Los militares han conducido históricamente tal investigación proporcionando la motivación y
financiándola para la innovación en el campo de la mecanización y de la computadora.
La primera computadora comercial era el UNIVAC I. Fue diseñada por John Presper Eckert y
John William Mauchly para la oficina de censo de los EE.UU. En los años 70s se vio la subida
de microordenadores, seguida de cerca por el ordenador personal de IBM en 1981. Desde
entonces, cuatro generaciones de computadoras se han desarrollado. Cada generación
representó un paso que fue caracterizado por el hardware del tamaño disminuido y de
capacidades crecientes. La primera generación utilizó los tubos de vacío, segundos circuitos
integrados de los transistores, y los terceros. La cuarta (y corriente) generación utiliza sistemas
más complejos por ejemplo Muy-grande-escala la integración o el Sistema-en-uno-viruta.
El código de barras es un código basado en la representación mediante un conjunto de líneas
paralelas verticales de distinto grosor y espaciado que en su conjunto contienen una
determinada información. De este modo, el código de barras permite reconocer rápidamente un
artículo en un punto de la cadena logística y así poder realizar inventario o consultar sus
características asociadas. Actualmente, el código de barras está implantado masivamente de
forma global.
Es un sistema que permite la identificación de las unidades comerciales y logísticas de forma
única, global y no ambigua. Este conjunto de barras y espacios codifican pequeñas cadenas de
caracteres en los símbolos impresos.
La correspondencia o mapeo entre la información y el código que la representa se denomina
simbología. Estas simbologías pueden ser clasificadas en dos grupos atendiendo a dos
criterios diferentes:
Continua o discreta: los caracteres en las simbologías continuas comienzan con un
espacio y en el siguiente comienzan con una barra (o viceversa). Sin embargo, en los
caracteres en las simbologías discretas, éstos comienzan y terminan con barras y el
espacio entre caracteres es ignorado, ya que no es lo suficientemente ancho.
Bidimensional o multidimensional: las barras en las simbologías bidimensionales
pueden ser anchas o estrechas. Sin embargo, las barras en las simbologías
multidimensionales son múltiplos de una anchura determinada (X). De esta forma, se
emplean barras con anchura X, 2X, 3X, y 4X.
La primera patente de código de barras fue registrada en octubre de 1952 (US Patent #2,612,
994) por los inventores Joseph Woodland, Jordin Johanson y Bernard Silver en Estados
Unidos. La implementación fue posible gracias al trabajo de los ingenieros Raymond Alexander
y Frank Stietz. El resultado de su trabajo fue un método para identificar los vagones del
ferrocarril utilizando un sistema automático. Sin embargo, no fue hasta 1966 que el código de
barras comenzó a utilizarse comercialmente y no fue un éxito comercial hasta 1980.
Modelo de las 5 fuerzas de Porter
Un enfoque muy popular para la planificación de la estrategia corporativa ha sido el propuesto
en 1980 por Michael E. Porter en su libro Competitive Strategy: Techniques for Analyzing
Industries and Competitors.
El punto de vista de Porter es que existen cinco fuerzas que determinan las consecuencias de
rentabilidad a largo plazo de un mercado o de algún segmento de éste. La idea es que la
corporación debe evaluar sus objetivos y recursos frente a éstas cinco fuerzas que rigen la
competencia industrial:
4
5. Guatemala 2010. Seminario de Gerencia. Consulta http://seminarios.juanpablomata.es.tt
Amenaza de entrada de nuevos competidores
El mercado o el segmento no es atractivo dependiendo de si las barreras de entrada son fáciles
o no de franquear por nuevos participantes que puedan llegar con nuevos recursos y
capacidades para apoderarse de una porción del mercado.
La rivalidad entre los competidores
Para una corporación será más difícil competir en un mercado o en uno de sus segmentos
donde los competidores estén muy bien posicionados, sean muy numerosos y los costos fijos
sean altos, pues constantemente estará enfrentada a guerras de precios, campañas
publicitarias agresivas, promociones y entrada de nuevos productos.
Poder de negociación de los proveedores
Un mercado o segmento del mercado no será atractivo cuando los proveedores estén muy bien
organizados gremialmente, tengan fuertes recursos y puedan imponer sus condiciones de
precio y tamaño del pedido. La situación será aún más complicada si los insumos que
suministran son claves para nosotros, no tienen sustitutos o son pocos y de alto costo. La
situación será aun más crítica si al proveedor le conviene estratégicamente integrarse hacia
delante
Poder de negociación de los compradores
Un mercado o segmento no será atractivo cuando los clientes están muy bien organizados, el
producto tiene varios o muchos sustitutos, el producto no es muy diferenciado o es de bajo
costo para el cliente, lo que permite que pueda hacer sustituciones por igual o a muy bajo
costo. A mayor organización de los compradores mayores serán sus exigencias en materia de
reducción de precios, de mayor calidad y servicios y por consiguiente la corporación tendrá una
disminución en los márgenes de utilidad. La situación se hace más crítica si a las
organizaciones de compradores les conviene estratégicamente integrarse hacia atrás.
Amenaza de ingreso de productos sustitutos
Un mercado o segmento no es atractivo si existen productos sustitutos reales o potenciales. La
situación se complica si los sustitutos están más avanzados tecnológicamente o pueden entrar
a precios más bajos reduciendo los márgenes de utilidad de la corporación y de la industria.
Para éste tipo de modelo tradicional, la defensa consistía en construir barreras de entrada
alrededor de una fortaleza que tuviera la corporación y que le permitiera, mediante la
protección que le daba ésta ventaja competitiva, obtener utilidades que luego podía utilizar en
investigación y desarrollo, para financiar una guerra de precios o para invertir en otros
negocios.
5
6. Guatemala 2010. Seminario de Gerencia. Consulta http://seminarios.juanpablomata.es.tt
Cuadro de Mando Integral. El concepto de cuadro de mando integral – CMI (Balanced
Scorecard – BSC) fue presentado en el número de Enero/febrero de 1992 de la revista
Harvard Business Review, con base en un trabajo realizado para una empresa de
semiconductores (La empresa en cuestión sería Analog Devices Inc.). Sus autores, Robert
Kaplan y David Norton, plantean que el CMI es un sistema de administración o sistema
administrativo (Management system), que va más allá de la perspectiva financiera con la que
los gerentes acostumbran evaluar la marcha de una empresa.
Es un método para medir las actividades de una compañía en términos de su visión y
estrategia. Proporciona a los administradores una mirada global de las prestaciones del
negocio.
Es una herramienta de administración de empresas que muestra continuamente cuándo una
compañía y sus empleados alcanzan los resultados definidos por el plan estratégico. También
es una herramienta que ayuda a la compañía a expresar los objetivos e iniciativas necesarias
para cumplir con la estrategia.
El modelo de referencia de Interconexión de Sistemas Abiertos (OSI, Open System
Interconnection) fue el modelo de red descriptivo creado por la Organización Internacional para
la Estandarización lanzado en 1984. Es decir, fue un marco de referencia para la definición de
arquitecturas de interconexión de sistemas de comunicaciones.
A principios de 1980 el desarrollo de redes sucedió con desorden en muchos sentidos. Se
produjo un enorme crecimiento en la cantidad y tamaño de las redes. A medida que las
empresas tomaron conciencia de las ventajas de usar tecnologías de conexión, las redes se
agregaban o expandían a casi la misma velocidad a la que se introducían las nuevas
tecnologías de red.
Para mediados de 1980, estas empresas comenzaron a sufrir las consecuencias de la rápida
expansión. De la misma forma en que las personas que no hablan un mismo idioma tienen
dificultades para comunicarse, las redes que utilizaban diferentes especificaciones e
implementaciones tenían dificultades para intercambiar información. El mismo problema surgía
con las empresas que desarrollaban tecnologías de conexiones privadas o propietarias.
"Propietario" significa que una sola empresa o un pequeño grupo de empresas controlan todo
uso de la tecnología. Las tecnologías de conexión que respetaban reglas propietarias en forma
estricta no podían comunicarse con tecnologías que usaban reglas propietarias diferentes.
Para enfrentar el problema de incompatibilidad de redes, la Organización Internacional para la
Estandarización (ISO) investigó modelos de conexión como la red de Digital Equipment
Corporation (DECnet), la Arquitectura de Sistemas de Red (SNA) y TCP/IP a fin de encontrar
un conjunto de reglas aplicables de forma general a todas las redes. Con base en esta
investigación, la ISO desarrolló un modelo de red que ayuda a los fabricantes a crear redes que
sean compatibles con otras redes.
Heurística, base para el desarrollo de Shell
Se denomina heurística a la capacidad de un sistema para realizar de forma inmediata
innovaciones positivas para sus fines. La capacidad heurística es un rasgo característico de los
humanos, desde cuyo punto de vista puede describirse como el arte y la ciencia del
descubrimiento y de la invención o de resolver problemas mediante la creatividad y el
pensamiento lateral o pensamiento divergente.
La palabra heurística procede del término griego εὑρίσκειν, que significa «hallar, inventar»
1
2
(etimología que comparte con eureka ). La palabra heurística aparece en más de una
categoría gramatical. Cuando se usa como sustantivo, identifica el arte o la ciencia del
descubrimiento, una disciplina susceptible de ser investigada formalmente. Cuando aparece
como adjetivo, se refiere a cosas más concretas, como estrategias heurísticas, reglas
heurísticas o silogismos y conclusiones heurísticas.
6
7. Guatemala 2010. Seminario de Gerencia. Consulta http://seminarios.juanpablomata.es.tt
Claro está que estos dos usos están íntimamente relacionados ya que la heurística usualmente
propone estrategias heurísticas que guían el descubrimiento.
La popularización del concepto se debe al matemático George Pólya, con su libro Cómo
resolverlo (How to solve it). Habiendo estudiado tantas pruebas matemáticas desde su
juventud, quería saber cómo los matemáticos llegan a ellas. El libro contiene la clase de
recetas heurísticas que trataba de enseñar a sus alumnos de matemáticas. Cuatro ejemplos
extraídos de él ilustran el concepto mejor que ninguna definición:
Si no consigues entender un problema, dibuja un esquema.
Si no encuentras la solución, haz como si ya la tuvieras y mira qué puedes deducir de
ella (razonando a la inversa).
Si el problema es abstracto, prueba a examinar un ejemplo concreto.
Intenta abordar primero un problema más general (es la “paradoja del inventor”: el
propósito más ambicioso es el que tiene más posibilidades de éxito).
La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que
reside de manera implícita en los datos. Dicha información era previamente desconocida y
podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea
y explora los datos para sacar la información oculta en ellos.
Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a
la extracción de conocimiento procesable, implícito en las bases de datos. Está
fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para
aprovechar los datos almacenados en las bases de datos.
Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis
estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda
la solución a problemas de predicción, clasificación y segmentación.
Proceso:
Un proceso típico de minería de datos consta de los siguientes pasos generales:
1. Selección del conjunto de datos, tanto en lo que se refiere a las variables
dependientes, como a las variables objetivo, como posiblemente al muestreo de los
registros disponibles.
2. Análisis de las propiedades de los datos, en especial los histogramas, diagramas de
dispersión, presencia de valores atípicos y ausencia de datos (valores nulos).
3. Transformación del conjunto de datos de entrada, se realizará de diversas formas
en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de
minería de datos que mejor se adapte a los datos y al problema.
4. Seleccionar y aplicar la técnica de minería de datos, se construye el modelo
predictivo, de clasificación o segmentación.
5. Extracción de conocimiento, mediante una técnica de minería de datos, se obtiene
un modelo de conocimiento, que representa patrones de comportamiento observados
en los valores de las variables del problema o relaciones de asociación entre dichas
variables. También pueden usarse varias técnicas a la vez para generar distintos
modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los
datos.
6. Interpretación y evaluación de datos, una vez obtenido el modelo, se debe proceder
a su validación comprobando que las conclusiones que arroja son válidas y
suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante
el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se
ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados,
debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
7
8. Guatemala 2010. Seminario de Gerencia. Consulta http://seminarios.juanpablomata.es.tt
Si el modelo final no superara esta evaluación el proceso se podría repetir desde el principio o,
si el experto lo considera oportuno, a partir de cualquiera de los pasos anteriores. Esta
retroalimentación se podrá repetir cuantas veces se considere necesario hasta obtener un
modelo válido.
Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con
márgenes de error admisibles) éste ya está listo para su explotación. Los modelos obtenidos
por técnicas de minería de datos se aplican incorporándolos en los sistemas de análisis de
información de las organizaciones, e incluso, en los sistemas transaccionales. En este sentido
cabe destacar los esfuerzos del Data Mining Group, que está estandarizando el lenguaje
PMML de manera que los modelos de minería de datos sean ínter operables en distintas
plataformas, con independencia del sistema con el que han sido construidos. Los principales
fabricantes de sistemas de bases de datos y programas de análisis de la información hacen
uso de este estándar.
Tradicionalmente, las técnicas de minería de datos se aplicaban sobre información contenida
en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y
alimentan bases de datos especialmente diseñadas para proyectos de minería de datos en las
que centralizan información potencialmente útil de todas sus áreas de negocio. No obstante,
actualmente está cobrando una importancia cada vez mayor la minería de datos
desestructurados como información contenida en ficheros de texto, en Internet, etc.
Protocolo de un proyecto de minería de datos
Un proyecto de minería de datos tiene varias fases necesarias que son, esencialmente:
Comprensión del negocio y del problema que se quiere resolver.
Determinación, obtención y limpieza de los datos necesarios.
Creación de modelos matemáticos.
Validación, comunicación, etc. de los resultados obtenidos.
Integración, si procede, de los resultados en un sistema transaccional o similar.
La relación entre todas estas fases sólo es lineal sobre el papel. En realidad, es mucho más
compleja y esconde toda una jerarquía de subfases. A través de la experiencia acumulada en
proyectos de minería de datos se han ido desarrollando metodologías que permiten gestionar
esta complejidad de una manera más o menos uniforme. Ejemplo de ella es CRISP-DM, se
cree que SEMMA es una metodología SAS declara en su página que ésta NO es una
metodología
Ejemplo del uso de la minería de datos
Negocios
La minería de datos puede contribuir significativamente en las aplicaciones de administración
empresarial basada en la relación con el cliente. En lugar de contactar con el cliente de forma
indiscriminada a través de un centro de llamadas o enviando cartas, sólo se contactará con
aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una
determinada oferta o promoción.
Por lo general, las empresas que emplean minería de datos ven rápidamente el retorno de la
inversión, pero también reconocen que el número de modelos predictivos desarrollados puede
crecer muy rápidamente.
En lugar de crear modelos para predecir qué clientes pueden cambiar, la empresa podría
construir modelos separados para cada región y/o para cada tipo de cliente. También puede
querer determinar qué clientes van a ser rentables durante una ventana de tiempo (una
quincena, un mes) y sólo enviar las ofertas a las personas que es probable que sean rentables.
8
9. Guatemala 2010. Seminario de Gerencia. Consulta http://seminarios.juanpablomata.es.tt
Para mantener esta cantidad de modelos, es necesario gestionar las versiones de cada modelo
y pasar a una minería de datos lo más automatizada posible.
Hábitos de compra en
El ejemplo clásico de aplicación de la minería de datos tiene que ver con la detección de
hábitos de compra en supermercados. Un estudio muy citado detectó que los viernes había
una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se
detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya
perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo
la televisión con una cerveza en la mano. El supermercado pudo incrementar sus ventas de
cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas.
Patrones de fuga
Un ejemplo más habitual es el de la detección de patrones de fuga. En muchas industrias —
como la banca, las telecomunicaciones, etc. — existe un comprensible interés en detectar
cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para,
posiblemente, pasarse a la competencia. A estos clientes —y en función de su valor— se les
podrían hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo
último de retenerlos. La minería de datos ayuda a determinar qué clientes son los más
proclives a darse de baja estudiando sus patrones de comportamiento y comparándolos con
muestras de clientes que, efectivamente, se dieron de baja en el pasado.
Fraudes
Un caso análogo es el de la detección de transacciones de blanqueo de dinero o de fraude en
el uso de tarjetas de crédito o de servicios de telefonía móvil e, incluso, en la relación de los
contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen
seguir patrones característicos que permiten, con cierto grado de probabilidad, distinguirlas de
las legítimas y desarrollar así mecanismos para tomar medidas rápidas frente a ellas.
Recursos humanos
La minería de datos también puede ser útil para los departamentos de recursos humanos en la
identificación de las características de sus empleados de mayor éxito. La información obtenida
puede ayudar a la contratación de personal, centrándose en los esfuerzos de sus empleados y
los resultados obtenidos por éstos. Además, la ayuda ofrecida por las aplicaciones para
Dirección estratégica en una empresa se traducen en la obtención de ventajas a nivel
corporativo, tales como mejorar el margen de beneficios o compartir objetivos; y en la mejora
de las decisiones operativas, tales como desarrollo de planes de producción o gestión de mano
de obra.
Comportamiento en Internet
También es un área en boga el del análisis del comportamiento de los visitantes —sobre todo,
cuando son clientes potenciales— en una página de Internet. O la utilización de la información
—obtenida por medios más o menos legítimos— sobre ellos para ofrecerles propaganda
adaptada específicamente a su perfil. O para, una vez que adquieren un determinado producto,
saber inmediatamente qué otro ofrecerle teniendo en cuenta la información histórica disponible
acerca de los clientes que han comprado el primero.
9
10. Guatemala 2010. Seminario de Gerencia. Consulta http://seminarios.juanpablomata.es.tt
Sistemas de Información en el apoyo de la toma de decisiones
En un sentido amplio, se define a los sistemas de apoyo a las Decisiones como un conjunto de
programas y herramientas que permiten obtener oportunamente la información requerida
durante el proceso de la toma de decisiones, en un ambiente de incertidumbre.
A lo anterior se agrega que, en la mayoría de los casos, lo que constituye el detonante de una
decisión es el tiempo límite o máximo en el que se debe tomar. Así, en cada decisión que se
toma, siempre se podrá pensar en que no se tiene toda la información requerida; sin embargo,
al llegar al límite de tiempo, se deberá llegar a una decisión. Esto implica necesariamente que
al verdadero objetivo de un sistema de apoyo a las decisiones sea proporcionar la mayor
cantidad de información relevante en el menor tiempo posible, con el fin de decidir lo más
adecuado.
Características de los Sistemas de Apoyo a las Decisiones
Características Generales
a) Suelen introducirse después de haber implantado los Sistemas transaccionales más
relevantes de la empresa, ya que estos últimos constituyen su plataforma de
información
b) La información que generan sirve de apoyo a los mandos intermedios y al alta
administración en el proceso de toma de decisiones.
c) Suelen ser intensivos en cálculos y escasos en entradas y salidas de información
d) No suelen ahorrar mano de obra.
e) Debido a lo anterior, la justificación económica para el desarrollo de estos sistemas es
difícil, ya que no se conocen los ingresos del proyecto de inversión.
f) Suelen ser Sistemas de Información interactivos y amigables, con altos estándares de
diseño grafico y visual, ya que están dirigidos al usuario final.
g) Apoyan la toma de decisiones que por naturaleza son repetitivas y de decisiones no
estructuradas que no suelen repetirse.
h) Estos sistemas pueden ser desarrollados directamente por el usuario final sin la
participación operativa de los analistas y programadores del área de informática.
i) Este tipo de sistemas pueden incluir la programación de la producción, compra de
materiales, flujo de fondos, proyecciones financieras, modelos de simulación de
negocios, modelos de inventarios, etc.
Sistema de Información Transaccional
Suelen introducirse después de haber implantado los Sistemas transaccionales más relevantes
de la empresa, ya que estos últimos constituyen su plataforma de información
La información que generan sirve de apoyo a los mandos intermedios y al alta administración
en el proceso de toma de decisiones.
Suelen ser intensivos en cálculos y escasos en entradas y salidas de información
No suelen ahorrar mano de obra.
Debido a lo anterior, la justificación económica para el desarrollo de estos sistemas es difícil, ya
que no se conocen los ingresos del proyecto de inversión. Suelen ser Sistemas de Información
interactivos y amigables, con altos estándares de diseño grafico y visual, ya que están dirigidos
al usuario final.
Apoyan la toma de decisiones que por naturaleza son repetitivas y de decisiones no
estructuradas que no suelen repetirse.
Estos sistemas pueden ser desarrollados directamente por el usuario final sin la participación
operativa de los analistas y programadores del área de informática.
10
11. Guatemala 2010. Seminario de Gerencia. Consulta http://seminarios.juanpablomata.es.tt
Este tipo de sistemas pueden incluir la programación de la producción, compra de materiales,
flujo de fondos, proyecciones financieras, modelos de simulación de negocios, modelos de
inventarios, etc.
Característica Especificas:
a) Interactividad
b) Sistema computacional con la posibilidad de interactuar con el tomador de decisiones
en forma amigable y con respuesta a tiempo real.
Tipos de decisiones
a) Apoya el proceso de toma de decisiones estructuradas y no estructuradas.
b) Frecuencia de uso
c) Tiene la utilización frecuente por parte de la administración media y alta para el
desempeño de su función.
Variedad de usuarios
Puede ser utilizada por usuarios de diferentes áreas funcionales como ventas, producción,
administración, finanzas y recurso humanos.
Flexibilidad
Permite acoplarse a una variedad determinada de estilos administrativos.
Desarrollo
Permite el desarrollo de modelos de decisión directamente por el usuario interesado, sin la
participación operativa de profesionales en informática.
Sistemas de apoyo a la toma de decisiones
• Se introducen después de haber implantado los Sistemas Transaccionales.
• La información que genera sirve de apoyo a los mandos intermedios y a la alta dirección en la
toma de decisiones.
• Suelen ser sistemas de información interactivos y amigables con altos estándares de diseño
grafico y visual, están dirigidos al usuario final
• Este tipo de sistemas puede incluir la programación de la producción, compra de materiales,
flujo de fondos, proyecciones financieras, modelos de simulación de negocios, modelos de
inventarios etc.
11