Guía de arquitectura de computadoras II-Preguntas y Respuestas
1. Managua, Nicaragua 22 de Abril del 2013.
UNIVERSIDAD POLITÉCNICA DE NICARAGUA.
“Sirviendo a la Comunidad”
Arquitectura de
Computadoras II
Nombre: Maritza Contreras Cruz
Prof.: Ing. Francisco Hernández.
2. 1- Que es Arquitectura CISC.
R= CISC (Complex Instruction set Computer) Computadoras con un conjunto de
instrucciones complejo, CISC es un tipo de arquitectura de computadoras que
promueve el uso de gran numero de instrucciones, permitiendo operaciones
complejas entre operandos situados en memoria o registros internos.
2- Que es Arquitectura RISC.
R= RISC (Reduced Instruction Set Computer) o computadora de conjunto de
Instrucciones reducidas. Estas tienen un número menor de instrucciones para permitir
mayor velocidad de ejecución dentro de la CPU, sin tener que usar la memoria con tanta
frecuencia.
3- Características y Evolución de los Microprocesadores Intel.
R=
EVOLUCION Y CARACT. DE LOS MICROPROCESADORES
Intel 8008
(1972)
Diseñado para utilizarlo en terminales informáticas, continuaba siendo formato DIP
y se basaba en la tecnología PMOS, pero casi duplicaba la velocidad del anterior con
sus 200 Kilohercios (KHz)
Intel 8080
(1974)
Era de 8 bits que se utilizaría como “cerebro” para la Altair 8800, considerada por
muchos como la primera PC de la historia; su velocidad 2 MHz
Intel 8086
(1978)
El procesador de la primera PC. Tenía 29000 transistores y capacidad para gestionar
1MB de memoria. Apareció en versiones 5,6,8 y 10 MHz
Intel 8088
(1979)
Idéntico al 8086, pero con capacidad para gestionar mas memoria y convivir con el
8087, el coprocesador matemático.
Intel 80186
(1980)
Nunca se monto en PC, pero hasta los 90 dio muy buenos resultados en robots, llego
a tener versiones de 25 MHz
Intel 80286
o 286 (1982)
El primer procesador de 16 Bits. Tenía 134.000 transistores, 16 MB y era multitarea.
IBM lo utilizo en la primera evolución de su PC, la PC/AT.
Intel 80386
o 386 (1985)
Procesadores de 32 bits, Modo protegido, es compatible con el 286 y fue llamado
modo Nativo, Registros internos de 32 bits.
Intel 486
(1989)
Da el primer salto histórico en densidad de transistores al superar el millón
(1.200.000), lo que le permitía procesar, a 33 MHz Gracias a la tecnología overdrive
(1992) alcanza 50 y 66 MHz, de 32 Bits la memoria principal, y dos memorias caché
de 4KB cada una.
Intel
Pentium
(1993)
Las primeras versiones de este tenían una frecuencia de reloj de 60 MHz y una
memoria de 32 MB, fue el primer salto generación a la arquitectura 80x86 al
incorporar un bus externo de 64 Bits y ser capaz de transportar el doble de
información. Fue el primer chip compatible con todos los sistemas operativos del
3. 4- Explique por medio de un Diagrama en bloques los principales Componentes
de un Microprocesador.
R=
momento (DOS, Windows 3.1, Unix, aund OS/2).
Pentium Pro
(1995-1999)
Incorpora la estructura RISC de los chips para supercomputadoras, aunque
manteniendo la compatibilidad hacia atrás mediante un emulador interno de 486.
También permite ejecutar más instrucciones por ciclo de reloj que el Pentium.
Pentium II
(1997)
Introduce notables mejoras internas que impulsan la potencia de la familia x86. A
partir de él, la refrigeración se hace crítica. Se distingue por una carcasa plástica,
más manejable pero también aparatosa lo que, sumado al gran ventilador, es objeto
de queja de los fabricantes.
Pentium II
Xeon (1998)
Arranca con 400MHz. Con una frecuencia FBS de 100MHz a 6.5 GT/s. con núcleos
de 1, 2, 4, 6 u 8 hasta la actualidad. Este microprocesador es fabricado especialmente
para servidores.
Pentium III
(1999)
Manteniendo los 32 Bits, Intel introduce todo su saber para impulsar el rendimiento.
Parte de los 450 MHz e inicia la carrera hacia los 1000 MHz.
Pentium 4
(2000)
Consciente de la ventaja de AMD Intel trabaja y adelanta la nueva generación para
responder al Athlon. El Pentium 4 renueva toda la arquitectura interna y sienta la
base para los futuros desarrollos.
Xeon (2001) Procesador para las estaciones de trabajo basado en la tecnología Pentium 4 y
especialmente indicado para el procesamiento de imágenes 3D.
ItaniumT
(2001)
Primer procesador de 64 Bits de Intel. Diseñado para servidores empresariales.
Itanium T 2
(2002)
Evolución del anterior con mejoras en la gestión interna. Pensado para servidores
empresariales de gran volumen.
Pentium M
Centrino
(2003)
Se trata de una versión de bajo consumo del Pentium 4, combinado con un conjunto
de chips auxiliares capaces de integrar comunicaciones inalámbricas.
2005 Intel Pentium D, Intel Extreme Edition con hyper threading, Intel Core Duo.
2006 Intel Core 2 Duo, Intel Core 2 Extreme.
2007 Intel Core 2 Quad.
2008 Procesadores Intel Core i7.
4. 5- Características de los registros del procesador 80386.
Registros de propósito general:
Características:
Los ocho registros de propósito general de 32 bits mantienen datos y direcciones. Estos
registros soportan operandos de 1, 8, 16, 32 y 64 bits y campos de bits de 1 a 32 bits.
Soportan operandos de direcciones de 16 y de 32 bits. Los nombres simbólicos
son: EAX, EBX, ECX, EDX, ESI, EDI, EBP y ESP. Los 16 bits menos significativos se
pueden acceder separadamente. Esto se hace usando los
nombres AX, BX, CX, DX, SI, DI, BP y SP, que se utilizan de la misma manera que en los
procesadores previos. Al igual que en el 80286 y anteriores, AX se divide
en AH y AL, BX se divide en BH y BL, CX se divide en CH y CL y DX se divide
en DH y DL.
Puntero de instrucciones:
Características:
El puntero de instrucciones es un registro de 32 bits llamado EIP, el cual mantiene el offset
de la próxima instrucción a ejecutar. El offset siempre es relativo a la base del segmento de
código (CS). Los 16 bits menos significativos de EIP conforman el puntero de
instrucciones de 16 bits llamado IP, que se utiliza para direccionamiento de 16 bits.
5. Registro de indicadores:
Características:
Es un registro de 32 bits llamado EFlags. Los bits definidos y campos de bits controlan
ciertas operaciones e indican el estado del 80386. Los 16 bits menos significativos (bits 15-
0) llevan el nombre de Flags, que es más útil cuando se ejecuta código de 8086 y 80286.
Registros de segmento:
Características:
Son seis registros de 16 bits que mantienen valores de selectores de segmentos
identificando los segmentos que se pueden direccionar. Los seis segmentos direccionables
en cualquier momento se definen mediante los registros de
segmento CS, DS, ES, FS, GS, SS.
Registros de control:
Características:
Tiene tres registros de control de 32 bits, llamados CR0, CR2 y CR3, para mantener el
estado de la máquina de naturaleza global (no el específico de una tarea determinada).
Estos registros, junto con los registros de direcciones del sistema, mantienen el estado de la
máquina que afecta a todas las tareas en el sistema.
Registros de direcciones del sistema:
Características:
Cuatro registros especiales se definen en el modelo de protección del 80286/80386 para
referenciar tablas o segmentos. Estos últimos son:
GDT (Tabla de descriptores globales).
IDT (Tabla de descriptores de interrupción).
LDT (Tabla de descriptores locales).
TSS (Segmento de estado de la tarea).
Registros de depuración:
Características:
1) El código de operación de punto de parada INT 3 (0CCh).
2) La capacidad de ejecución paso a paso que provee el indicador TF.
6. Los seis registros de depuración de 32 bits accesibles al programador, proveen
soporte para depuración (debugging) por hardware.
Registros de test:
Características:
Se utilizan dos registros para verificar el funcionamiento del RAM/CAM (Content
Addressable Memory) en el buffer de conversión por búsqueda (TLB) de la unidad de
paginado del 80386. TR6 es el registro de comando del test, mientras que TR7 es el registro
de datos que contiene el dato proveniente del TLB. ElTLB guarda las entradas de tabla de
página de uso más reciente en un caché que se incluye en el chip, para reducir los accesos a
las tablas de páginas basadas en RAM.
6- Explicar la ejecución de programas en modo Real y en modo virtual del
procesador 80386.
R= El 80386 permite la ejecución de programas para el 8086 tanto en modo real como en
modo virtual 8086.
En modo real el 80386 opera como un 8086 muy rápido, con extensiones de 32 bits si se
desea. El modo real se requiere primariamente para preparar el procesador para que opere
en modo protegido.
El modo protegido provee el acceso al sofisticado manejo de memoria y paginado. Dentro
del modo protegido, el software puede realizar un cambio de tarea para entrar en tareas en
modo 8086 virtual (V86 mode).
Las tareas en modo 8086 virtual pueden aislarse entre sí y del sistema operativo (que debe
utilizar instrucciones del 80386), mediante el uso del paginado y el mapa de bits de permiso
de entrada/salida
7- Explique los bloques que conforman el procesador 80486.
7. 1. Unidad de ejecución: Incluye los registros de uso general de 32 bits, la unidad
lógico-matemática y un barrel shifter de 64 bits. La unidad de ejecución está
mejorada con lo que se necesita un sólo ciclo de reloj para las instrucciones más
frecuentes.
2. Unidad de segmentación: Incluye los registros de segmento, los cachés de
información de descriptores y la lógica de protección. No tiene diferencias con
respecto al 80386.
3. Unidad de paginación: Es la encargada de traducir las direcciones lineales
(generadas por la unidad anterior) en direcciones físicas. Incluye el buffer de
conversión por búsqueda (TLB). Los últimos modelos (DX4, algunos DX2)
soportan páginas de 4MB aparte de las de 4KB del 80386.
4. Unidad de caché: La evolución de las memorias hizo que el tiempo de acceso de
las mismas decrecieran lentamente, mientras que la velocidad de los
microprocesadores aumentaba exponencialmente. Por lo tanto, el acceso a memoria
representaba el cuello de botella. La idea del caché es tener una memoria
relativamente pequeña con la velocidad del microprocesador. La mayoría del código
que se ejecuta lo hace dentro de ciclos, con lo que, si se tiene el ciclo completo
8. dentro del caché, no sería necesario acceder a la memoria externa. Con los datos
pasa algo similar: también ocurre un efecto de localidad. El caché se carga
rápidamente mediante un proceso conocido como "ráfaga", con el que se pueden
transferir cuatro bytes por ciclo de reloj. Más abajo se da información más detallada
de esta unidad.
5. Interfaz con el bus: Incluye los manejadores del bus de direcciones (con salidas de
A31-A2 y BE0# a BE3# (mediante esto último cada byte del bus de datos se habilita
por separado)), bus de datos de 32 bits y bus de control.
6. Unidad de instrucciones: Incluye la unidad de prebúsqueda que le pide los bytes
de instrucciones al caché (ambos se comunican mediante un bus interno de 128
bits), una cola de instrucciones de 32 bytes, la unidad de decodificación, la unidad
de control, y la ROM de control (que indica lo que deben hacer las instrucciones).
7. Unidad de punto flotante: Incluye ocho registros de punto flotante de 80 bits y la
lógica necesaria para realizar operaciones básicas, raíz cuadrada y trascendentes de
punto flotante. Es tres o cuatro veces más rápido que un 386DX y 387DX a la
misma frecuencia de reloj. Esta unidad no está incluida en el modelo 486SX.
8- Explique mediante un diagrama en bloque el procesador Pentium II.
El Pentium II incluye dos caches on-chip, una para datos otra para instrucciones. Cada
cache es de 8 KBytes, utilizando un tamaño de línea de 32 bytes y una organización
asociativa por conjunto de dos vías. Incluye además una cache L2 que alimenta a las dos
cache L1. La cache L2 es asociativa por conjunto de cuatro vías, y con tamaños que oscilan
entre 256 Kbytes y 1Mbyte.
9. 9- Explicar por medio de un diagrama en bloque la Unidad de Captación/
decodificación del Procesador Pentium II.
Etapa IFU1: Capta instrucciones desde la cache de instrucciones, una línea (32 bytes) cada
vez.
Etapa IFU2: Esta unidad lleva a cabo dos operaciones en paralelo. IFU2 examina los bytes
para determinar los límites de las instrucciones.
Etapa IFU3: Para comprender el funcionamiento de esta etapa, es necesario describir la
primera etapa de la unidad de decodificación de instrucciones, ID1. Esta etapa es capaz de
manejar tres instrucciones en paralelo. ID1 traduce cada instrucción en de una a cuatro
microoperaciones cada una de 118 bits. ID1 contiene tres decodificadores. El primero de
ellos puede manejar instrucciones que se traduzcan hasta en cuatro microoperaciones. El
segundo y el tercer decodificador manejan instrucciones sencillas que correspondan a una
única microoperación.
La salida de ID1 o MIS se introduce en la segunda etapa de decodificación, ID2, es un
bloque de hasta seis microoperaciones a la vez. En este punto, hay una segunda ocasión
para predecir saltos. Las microoperaciones encoladas en ID2 pasan a través de una fase de
renombramiento de registro (RAT, register allocator). El RAT transforma las referencias a l
10. o 16 registros de la arquitectura. Después el RAT introduce las microoperaciones revisadas
al buffer de reordenación (ROB, reorder buffer). Las microoperaciones entran al ROB en
orden; después son enviadas desde el ROB a la unidad de envío/ejecución sin orden.
10- Explicar por medio de un diagrama en bloque la Unidad de Envío/ Ejecución
del Procesador Pentium II.
La central de reservas (RS, reservation station) es responsable de recuperar las
microoperaciones del ROB., enviándolas a su ejecución y guardando los resultados de
nuevo en el ROB. La RS busca en el ROB microoperaciones cuyo estado indique que la
microoperación dispone de todos sus operandos. Si está disponible la unidad de
ejecución que necesita una microoperación, la RS capta esa microoperación y la envía a
11. la unidad de ejecución conveniente. Se pueden enviar hasta cinco microoperaciones en
un ciclo.
Hay cinco puertos que unen la RS a las cinco unidades de ejecución. El puerto 0 se usa
para instrucciones con enteros y coma flotante, con la excepción de las operaciones
sencillas con enteros y la gestión de las predicciones de saltos erróneas que se asignan
al puerto 1. Las unidades de ejecución MMX se asignan también a estos puertos. Los
puertos restantes se utilizan para cargas y almacenamientos en memoria. Cuando se
completa una ejecución, se actualiza la entrada adecuada del ROB, y la unidad de
ejecución queda disponible para otra microoperación.
12. 11- Que es la memoria Caché.
R= Es una memoria rápida que permite reducir los tiempos de espera de las distintas
informaciones almacenada en la RAM (Random Access Memory o Memoria de
Acceso Aleatorio).
12- Si se comparara la Arquitectura del Microprocesador 80386 con la del 80436
no se encontrarán diferencias.
Sin embargo el tiempo de ejecución de las instrucciones varía
significativamente de un microprocesador a otro.
Con base a la información analice cómo ha evolucionado el tiempo de
ejecución de las instrucciones en otros microprocesadores para la
mejora del desempeño.
R= En el 80486 casi la mitad de las instrucciones son ejecutadas en un período de reloj, en
vez de los dos períodos que necesita el 80386 para ejecutar instrucciones similares.
13- Qué es Intel® Atom TM.
R= Intel®
Atom™ es el nombre de la nueva familia de procesadores con consumo
eficiente de energía diseñados específicamente para “dispositivos móviles para Internet”
(Mobile Internet Devices, MID) y una nueva clase de equipos portátiles (netbooks) y PC
de escritorio (nettops) económicos y sencillos centrados en Internet. Además, esta nueva
familia de procesadores es una importante oportunidad de crecimiento general del
mercado para el silicio de Intel®
utilizando el procesador Intel®
Atom como la base. La
compañía anunció la tecnología de procesador Intel®
Centrino®
Atom™ para plataformas
MID que consta de múltiples chips que hacen posible la mejor experiencia en Internet en
un dispositivo de bolsillo, así como varios SoC en un futuro inmediato.
14- Explique la arquitectura básica del microprocesador Intel Atom.
R=
La arquitectura es completamente nueva, diseñada específicamente para dispositivos
pequeños y para ofrecer un bajo consumo de energía, conservando total compatibilidad con
el conjunto de instrucciones Intel®
Core™2 Duo Por otra parte, el reducido tamaño del
chip, que mide menos de 25 mm², lo que lo convierte en el procesador más pequeño y de
más bajo consumo de energía.
13. • Pipeline de 16 etapas in-order, sin ejecución especulativa o renombrado de
registros, optimizada para dar un eficiente throughput, pero siempre con el
consumo como principal clave.
• Pipeline dual, para posibilitar la decodificación, expedición y ejecución de dos
instrucciones por ciclo.
• Lógica avanzada de Stack Pointer, para mejorar la eficiencia en llamadas y
retornos a rutinas.
15- Explique el diagrama en bloque del microprocesador Intel Atom.
R= El microprocesador Intel Atom formado por cinco clusters y dos colas del
planificador;
• Bus cluster; Contiene la cache L2, el controlador de interrupciones y el interfaz de
bus.
• Memory execution cluster; Formado por la cache L1 de datos, y la lógica para
ejecución de instrucciones con acceso a memoria.
• Integer execution cluster; Dos ALUs y desplazadores, separados en los dos
pipelines existentes.
• FP/SIMD execution cluster; Bloque para la ejecución de instrucciones en coma
flotante, así como de las instrucciones de aceleración multimedia.
• Front-End cluster; En este bloque se encuentra la cache L1 de instrucciones, así
como la lógica de predicción de salto. También la lógica para el control del doble
pipeline.
14. 16- Explique el funcionamiento del contador de un programa.
R= Es el registro que contiene la dirección de memoria desde donde hay que leer la
instrucción en curso, tras la ejecución el registro se incrementa para continuar con la
siguiente, o se sustituye su valor por otro si se ha de ejecutar un salto o una llamada
a subrutina. En el momento de conectar el ordenador, la señal de RESET pone este
registro a "cero", por lo que la ejecución comienza desde la primera dirección de
memoria.
17- Explique el funcionamiento del puntero de pila.
R= Una pila es una zona reservada de memoria cuyos datos están organizados como
"último en entrar, primero en salir" (LIFO: Last In FirstOut), y sirve para almacenar
determinados datos, como por ejemplo, la dirección de retorno tras una llamada a
subrutina.
De una pila sólo se puede recuperar cada vez el último dato que se ha introducido.
El registro SP es el puntero de la Pila de Máquina. Apunta siempre al último dato
Ilustración 3: Diagrama de bloques de la arquitectura
15. introducido, los datos que se introducen en la pila de máquina tienen siempre dos
bytes de longitud. Durante la rutina de inicialización, se carga este registro con un
valor (inmediatamente debajo de RAMTOP) y cada vez que se mete un dato en la
pila, el puntero (SP) se decrementa dos veces (la pila se expande hacia abajo).
18- Explique el funcionamiento de Registro de Estado. (FLAGS)
R= El registro de estado indica la ocurrencia de determinadas condiciones, tales
como: paridad, cero, signo, acarreo, desbordamiento, que se producen tras una
operación aritmética o lógica y que serán de gran utilidad en los saltos
condicionales.
19- Enumere los tipos de Registros en un Microprocesador.
R=
Registros de propósito general.
Registros de segmento.
Puntero de instrucciones
Banderas.
Registros de control
Registros de direcciones de sistema.
Registros de depuración (debug)
Registros de test (nuevos en el 80386)
20- Que es la señal de reloj.
R= La señal clock CLK2 provee la temporización para el 80386. Se divide por dos
internamente para generar el reloj interno del microprocesador que se utiliza para la
ejecución de las instrucciones. El reloj interno posee dos fases: "fase uno" y "fase
dos". Cada período de CLK2 es una fase del reloj interno. Si se desea, la fase del
reloj interno se puede sincronizar a una fase conocida aplicando la señal de RESET
con los tiempos que se indican en el manual del circuito integrado. El terminal
correspondiente es el F12.
21- Que es la unidad de control.
R= La unidad de control (UC) es uno de los tres bloques funcionales principales en
los que se divide una unidad central de procesamiento (CPU). Los otros dos bloques
son la unidad de proceso y el bus de entrada/salida. Su función es buscar las
instrucciones en la memoria principal, decodificarlas (interpretación) y ejecutarlas,
empleando para ello la unidad de proceso.
16. 22- Que es la unidad de Ejecución.
R=Es una pieza del CPU que realiza las operaciones y los cálculos llamados por los
programas. Tiene a menudo su propia unidad de control, registros y otros
componentes eléctricos, tales como una unidad aritmética-lógica, unidad de punto
flotante o cierto componente especifico más pequeño.
23- Que es la unidad de Instrucción.
R= Es aquella que Incluye la unidad de prebúsqueda que le pide los bytes de
instrucciones al caché (ambos se comunican mediante un bus interno de 128 bits),
una cola de instrucciones de 32 bytes, la unidad de decodificación, la unidad de
control, y la ROM de control (que indica lo que deben hacer las instrucciones).
24- Explicar el funcionamiento de la Unidad de Punto flotante.
R= Incluye ocho registros de punto flotante de 80 bits y la lógica necesaria para realizar
operaciones básicas Su función principal es realizar las operaciones básicas que toda FPU
puede realizar como son la suma, la multiplicación, y la división, si bien algunos sistemas
más complejos que son capaces también de realizar como los
cálculos trigonométricos o exponenciales.
25- Qué tipo de números flotantes soporta el coprocesador.
R= Se ha reconstruido por completo la unidad de punto flotante (FPU), a partir de la de los
386 y 486 y ahora tiene algunas de las características de los RISC. Hay ocho etapas de vía y
las cinco primeras se comparten con la unidad de enteros. La unidad cumple con la norma
IEEE-754, usa algoritmos más rápidos y aprovecha la arquitectura con vías para lograr
mejoras de rendimiento de entre 4 y 10 veces, dependiendo de la optimización del
compilador.
26- Para qué tipo de Aplicaciones están diseñadas específicamente las instrucciones
MMX.
R= Este conjunto de instrucciones está orientado a programación multimedia.
27- Explicar el funcionamiento de la Instrucción Simple, Múltiples Datos (SIMD).
R= El proceso denomina SIMD (Single InstructionMultiple Data) hace posible que una
instrucción realice la misma función sobre múltiples datos, en otras palabras, las
instrucciones ejecutan las operaciones simultáneamente en varios datos en paralelo. Un
ejemplo de su funcionamiento en la realidad es con el vídeo: En los procesadores conocidos
hasta la llegada del MMX llegaban 8 pixeles de datos gráficos de una en una y se
17. procesaban separadamente. En los procesadores MMX, los 8 pixeles llegan al procesador
en un paquete de 64 bits y se procesan a todos en una sola instrucción.
28- Explicar las instrucciones MMX del Pentium II.
R= La instrucción PADDB toma como operando un byte empaquetado, y realiza en
paralelo sumas con cada posición de byte para producir un byte empaquetado de salida.
Una característica inusual que presenta el conjunto de instrucciones MMX es la
introducción de la aritmética de saturación. Con la aritmética sin signo ordinaria, cuando
una operación produce un desbordamiento (es decir, se produce una acarreo en la posición
del bit mas significativa) el bit se trunca. Considere, por ejemplo las dos palabras en
hexadecimal, F000H y 3000H. Su suma se expresaría como:
F000H = 1111 0000 0000 0000
+3000H = 0011 0000 0000 0000
1 0010 0000 0000 0000 = 2000H
Acarreo
Si los dos números representaban intensidad de imagen, el resultado de la suma hace que la
combinación de zonas sombreadas oscuras aparezca como más clara. Esto no es lo que se
pretende normalmente. Mediante la aritmética con saturación, cuando la suma produce un
desbordamiento, o la resta produce un desbordamiento negativo, el resultado se fija
respectivamente al mayor o al menor valor representable. Para el ejemplo dado, la
aritmética con saturación daría como resultado:
F000H = 1111 0000 0000 0000
+3000H = 0011 0000 0000 0000
1 0010 0000 0000 0000 = 2000H
Acarreo
18. 1111 1111 1111 1111 = FFFFH
Suma con saturación
29- A continuación se presenta la sesión de un programa que emplea las
instrucciones MMX tales como:
PADDB
MM1
MM2
Para la instrucción dada, responda lo siguiente:
¿Qué tipo de Operación permite realizar?
¿Describa qué función realiza esta función?
PADDB: La instrucción PADDB toma como operando un byte empaquetado, y realiza en
paralelo sumas con cada posición de byte para producir un byte empaquetado de salida.
La instrucción permite realizar la operación aritmética de la suma.
Esta instrucción suma el contenido completo de 64 bits del registro MM2 al contenido del
registro MM1, byte por byte. El resultado es ubicado en MM1.