El documento describe el condicionamiento instrumental, una forma de aprendizaje asociativo en la que una respuesta se refuerza o castiga para aumentar o disminuir su probabilidad de ocurrencia. Thorndike estudió el aprendizaje de animales en cajas truco, mientras que Skinner desarrolló procedimientos operantes para estudiar el refuerzo y castigo de respuestas voluntarias. Variables como la contingencia, contigüidad y características del refuerzo afectan la eficacia del condicionamiento instrumental.
2. El condicionamiento instrumental es una forma de
aprendizaje asociativo.
Clásico
La consecuencia (el EI)
se presenta
automáticamente, sin
importar si el
organismo da o no una
respuesta
Instrumental
La consecuencia es
resultado de una
conducta.
El organismo es el
instrumento para
producir una
consecuencia.
3. Thorndike
∙ Cómo el animal aprendía
a escapar de las cajas
truco.
∙ Al principio realizaban
conductas ineficaces,
después de algunos
ensayos, los gatos
aprendían a escapar de
manera eficiente.
∙ Ensayos discretos: el
experimentador decide el
momento y la frecuencia
con que empieza un
nuevo ensayo. 3
Caja truco
4. Thorndike: Ley del efecto
4
Curva de
aprendizaje
en la caja
truco.
∙ La probabilidad de una respuesta (R) ante un
estímulo (E) es una función de la consecuencia (C)
que ha seguido a R en el pasado: E R C
∙ Cuando a una R le sigue una C satisfactoria, se
incrementa la probabilidad de ocurrencia; por otro
lado, si la R va seguida de una C insatisfactoria, la
probabilidad de que se repita disminuye.
5. Aprendizaje de operante libre
5
∙ El animal permanece en
la caja de Skinner y puede
responder cuando lo
decida.
∙ A medida que el animal
aprende la relación entre
la respuesta (presionar la
palanca o el disco) y la
consecuencia (obtener la
comida), hay un
incremento en la tasa de
respuesta.
6. Procedimiento de ensayos
discretos (Thorndike)
Procedimiento de operante
libre (Skinner)
El ensayo se completa cuando
el sujeto resuelve el problema
o cuando el tiempo asignado
se termina
No existe un problema
evidente a resolver. Hay
libertad y se registra la
conducta.
VD: tiempo y número de
errores
VD: Número de veces que
ocurre una conducta
Ventajas: 1) aplicación en
ambientes de laboratorio
Ventajas: 1) registro
automático, 2) el registro de la
frecuencia permite medir los
efectos sobre la VI y 3)
aplicación en ambientes
naturales
Thorndike y Skinner
7. Componentes de la asociación
aprendida
E R C
El condicionamiento instrumental consta de tres
componentes:
Las personas actúan sobre el mundo
y lo cambian, y a su vez ellas
mismas cambian como consecuencia
de sus actos.
Skinner
8. Estímulos (E)
∙Objeto o evento que el organismo logra detectar.
∙ Estímulos discriminativos: Indican si una
respuesta particular dará lugar a un resultado
específico.
E R C
luz
encendida
presionar
la palanca
obtener
comida
E R C
silbato correr ventaja en
la carrera
9. Error por hábito
∙ Los estímulos son tan importantes que pueden
provocar las respuestas aprendidas.
∙ Ejemplo: Dar un número telefónico conocido
(madre) en lugar del propio.
Efecto de la ética protestante
∙ Después del entrenamiento, los animales siguen
emitiendo la conducta para obtener el reforzador
aún cuando éste se otorgue libremente.
La fuerza con la que los estímulos discriminativos
provocan una respuesta asociada, anula otras
conductas posibles.
Estímulos (E)
10. ∙ En el condicionamiento instrumental, el organismo
aprende a dar una respuesta particular para obtener
o evitar una consecuencia.
∙ La respuesta se define por sus efectos en el
ambiente.
Respuestas (R)
E R C
palanca presionar
la palanca
obtener
comida
11. Moldeamiento
∙ Se refuerzan las
aproximaciones sucesivas a la
respuesta deseada.
∙ Al inicio se da el reforzador
ante cualquier conducta que
se asemeje a la respuesta
deseada.
∙ Permite producir respuestas
complejas que quizá no
ocurrirían.
Respuestas (R)
Nutrias-crías
Caza
12. Encadenamiento
∙ Entrenamiento gradual para realizar secuencias
complicadas de respuestas discretas.
∙ Cadena de respuesta: Serie conectada de conductas.
∙ Análisis de tarea: Descomponer la tarea en sus
elementos (eslabones). Una vez identificados, es
posible reforzar el desempeño de éstos en la
secuencia correcta.
∙ Dos tipos: hacia adelante y hacia atrás
Respuestas (R)
13. Reforzador
∙ Es una consecuencia de la conducta que
aumenta la probabilidad de que ésta se
repita.
∙ Dos tipos:
1. Primarios: Son reforzantes de manera
natural o innata. No dependen de la
asociación con otros. Son poderosos pero
relativamente pocos en número.
2. Secundarios o condicionales: Dependen
de la asociación con otros reforzadores.
Consecuencias (C)
14. Ventajas de reforzadores secundarios
1. Sacian con mucha más lentitud
2. Es más fácil reforzar la conducta de manera
inmediata
3. Son menos desorganizantes
4. Se utilizan en diferentes situaciones.
Desventajas de reforzadores secundarios
1. Su eficacia depende de su asociación con
reforzadores primarios.
Consecuencias (C)
15. Contraste negativo
Los organismos a los que se cambia de un
reforzador preferido a uno menos aceptado,
responderán con menos fuerza.
Consecuencias (C)
E R C
palanca presionar
la palanca
plátano
E R C
lechuga
16. Estímulos punitivos
∙ Consecuencias de una conducta disminuyen la
probabilidad de que ésta se produzca en el
futuro.
∙ Animales: dolor, ruidos fuertes, exposición a
depredadores.
∙ Humanos: multas, desaprobación social o
encarcelamiento.
Consecuencias (C)
17. Castigo
∙ Proceso en que una conducta recibe consecuencias
que disminuye su probabilidad de ocurrencia
∙ Factores que determinan su eficacia:
Consecuencias (C)
1. Estímulos discriminativos
del castigo pueden alentar
las trampas.
2. El reforzamiento
concurrente puede debilitar
al castigo
3. La intensidad inicial es
importante
Ejemplo 1:
Hembra-macho alfa
Hembra-otros machos
Ejemplo 2:
Alta velocidad
Patrulla-baja velocidad
Ejemplo 1:
Palanca-comida; palanca-
descarga; Hambre:
Presión de la palanca
Ejemplo 2:
Hablar en clase-regaño;
hablar en clase-risas de los
compañeros.
Ejemplo 1:
Descargas 1 ó 2 mV,
aumento gradual a 40 mV
Ejemplo 2:
Regaño, suspensión,
expulsión.
19. Reforzamiento positivo
∙ A una respuesta le sigue la aparición (o aumento en
la intensidad) de un estímulo.
∙ El organismo busca obtenerlo.
∙ Su efecto es fortalecer la conducta que lo precede. Es
decir, a la ocurrencia de una respuesta ( R ) sigue la
aparición de un estímulo reforzante (ER)
R ER
ladrido recibe comida
El perro ladra y alguien le da
comida. En el futuro, es
probable vuelva a ladrar
cuando quiera comer
20. Reforzamiento negativo
∙ La respuesta se fortalece al eliminar o disminuir la
intensidad de un estímulo.
∙ Es algo que el organismo trata de evitar.
R ER
Colocarse
debajo de
un techo
escapar
del
granizo
El animal se coloca debajo de
un techo y escapa del granizo.
En la siguiente tormenta,
incrementa la probabilidad de
que busque un techo.
21. El reforzamiento positivo (añadir) y el
negativo (quitar) mantienen o aumentan la
frecuencia de la conducta.
Diferencias.
En el positivo la consecuencia reforzante es la
aparición de un estímulo mientras que en el
negativo, la consecuencia es la eliminación de
éste.
21
22. Comparación entre los procedimientos
operante y pavloviano
1. En el condicionamiento pavloviano un estímulo
(EI) depende de otro (EC), mientras que en los
procedimientos operantes un estímulo (la
consecuencia reforzante o de castigo) depende
de una respuesta.
Clásico: E-E
Operante: E-R
23. Comparación entre los procedimientos
operante y pavloviano
2. El procedimiento operante requiere de los
elementos conocidos como contingencia de tres
términos: situación (S), conducta (R) y su
consecuencia (C).
Las contingencias pavlovianas implican sólo
dos términos: EC y EI.
24. Comparación entre los procedimientos
operante y pavloviano
3. Función de los estímulos que preceden la conducta.
Clásico: Un estímulo antecedente (EC) es
suficiente para evocar una RC.
Operante: Los estímulos antecedentes establecen la
ocasión para la respuesta.
4. En el clásico el la campana evoca la respuesta,
mientras que en los operantes simplemente
establece la ocasión para ésta.
5. Tipos de conducta.
Clásico: Involuntaria o refleja
Operante: Conducta voluntaria
25. Variables que afectan al reforzamiento
1. Contingencia E-R
∙ La contingencia quiere decir que una
consecuencia depende de la ejecución de una
conducta en particular.
∙ La tasa a la cual cambia una conducta varía
según el grado en que un reforzador es
contingente a la misma.
26. Variables que afectan al reforzamiento
1. Contingencia E-R
Si existía la misma probabilidad de que las ratas obtuvieran
comida al oprimir la palanca que cuando no lo hacían, éstas
dejaban de hacerlo. Era esencial una contingencia entre la
respuesta y el reforzador.
Hammond
manipuló la
probabilidad de
que la comida
saliera después
de la presión de
la palanca o en
su ausencia.
27. Variables que afectan al reforzamiento
2. Contigüidad E-R
∙Espacio entre una respuesta y sus consecuencias.
∙Entre más corto sea este intervalo, más rápido ocurrirá el
aprendizaje.
28. Variables que afectan al reforzamiento
2. Contigüidad E-R
∙ ¿Por qué las consecuencias inmediatas producen mejores
resultados?
La demora da tiempo para que se presente otra conducta,
por lo tanto, lo que se refuerza es esta conducta y no la
respuesta apropiada.
∙ ¿Cómo eliminar los efectos de la demora?
Si ésta es precedida de manera regular por un estímulo
particular.
29. Variables que afectan al reforzamiento
2. Contigüidad: Demora señalizada vs no señalizada
Schlinger et al. (1994).
Colocaron un rayo fotoeléctrico en el techo de la cámara.
Cuando la rata bloqueaba el haz de luz al levantarse sobre
sus patas traseras, recibía comida. En algunas ratas, el
bloqueo del rayo resultaba en la presentación inmediata del
alimento; en otras, el reforzamiento demorado duró 4 ó 10
seg. Con algunas de éstas, se hacía sonar un tono
inmediatamente después de que la rata alcanzaba el haz de
luz.
30. ∙Superioridad del reforzamiento inmediato vs demorado.
∙La demora de 4 segundos era menos dañina que la de 10 seg.
Variables que afectan al reforzamiento
2. Contigüidad: Demora señalizada vs no señalizada
31. Cantidad: Pryor (1984) consideró que proporcionar de
manera ocasional cantidades de reforzamiento mayores a las
usuales puede ser útil en el entrenamiento. Algunos sugieren
que muchos reforzadores pequeños son más efectivos que
unos cuántos más grandes (Schneider, 1973; Todorov, 1984).
Tipo: Simmons (1924) entrenó a ratas para que corrieran en
un laberinto. El reforzador para algunas eran semillas de
girasol; para otras, pan y leche. Las ratas que recibieron el
último, tuvieron mejor desempeño que las primeras.
Variables que afectan al reforzamiento
3. Características del reforzador
32. ∙ El grado en que puede modificarse la conducta
refleja a través de procedimientos operantes es
incierto.
∙ El reforzamiento procede de manera más rápida
y fácil de predecir cuando se aplica a la conducta
voluntaria (músculos esqueléticos) que a la
involuntaria (por ejemplo, frecuencia cardíaca
regulada por músculos lisos y glándulas).
Variables que afectan al reforzamiento
4. Características de la respuesta
33. ∙ La eficacia de la comida, agua y calor como
reforzadores varía según el grado en el que se ha
privado a un organismo de éstos.
∙ Entre mayor es el grado de privación (ejemplo,
entre más largo es el intervalo desde la última
comida), más eficaz es el reforzador.
∙ La privación es menos importante cuando se trata
de reforzadores secundarios.
Variables que afectan al reforzamiento
5. Nivel de privación
34. Efectos de la
privación de
comida en la
resolución de
un laberinto
Variables que afectan al reforzamiento
5. Nivel de privación
6. Experiencia previa
35. Retener las consecuencias que refuerzan una conducta.
Extinción de la conducta reforzada
Alguien debía estar a su
lado mientras dormía la
siesta. Si no ocurría,
lloraba hasta que el
adulto regresaba y
cuando lo hacía, lloraba
más. Williams, 1959
∙ Consejo: Colocar al niño en la cama y no regresar al cuarto.
∙ Resultado: Reducción en la duración del llanto.
∙ En ocasiones reaparece la respuesta y por error puede ser
reforzada
36. La extinción operante tiene otros efectos
sobre la conducta. Un posible efecto es
la reaparición de conductas que antes
fueron eficaces, a este fenómeno se le
denomina resurgimiento. (Epstein, 1983,1985)
Resurgimiento
37. 1. Se entrena a un pichón
para que picotee un disco
hasta lograr el
condicionamiento
2. Extinción: picoteo.
3. Se refuerza otra
respuesta, el aleteo, hasta
lograr condicionamiento
4. Se suprime el
reforzamiento
• En la segunda extinción, la frecuencia del aleteo disminuye
pero el ave comienza a picotear de nuevo el disco.
• A medida que se reduce la tasa de aleteo, aumenta la de
picoteo en el disco.
• Conceptos del área clínica: regresión
Resurgimiento
38. Si una respuesta se mantiene de manera continua en
extinción, seguirá disminuyendo su frecuencia. Cuando la
respuesta deja de ocurrir, o no sucede con mayor frecuencia
que antes del entrenamiento, se dice que se ha extinguido.
La tasa a la que ocurre la extinción depende de varios factores
que incluyen: la cantidad de reforzamientos y el esfuerzo.
39. Aunque varía la tasa a la que disminuye la
extinción, el resultado es el mismo, sin
embargo, no es posible decir que la
extinción borra por completo los efectos de
un reforzamiento anterior.
Resurgimiento
40. Programas de reforzamiento
Reforzamiento continuo
Cada respuesta va seguida siempre de una consecuencia.
Ejemplo: Cada vez que la rata presiona la palanca, obtiene un
trozo de queso.
Razón fija (RF)
El reforzamiento ocurre después de un número fijo de
respuestas. Ejemplo1: RF1 a RF3. Ejemplo 2: obrero que trabaja
a destajo.
Razón variable (RV)
La cantidad de respuestas requeridas para reforzar varía
alrededor de un promedio. Ejemplo: En un RV5 el número de
respuestas requeridas puede variar de 2 a 10, pero en
promedio se requieren cinco respuestas.
41. Programas de reforzamiento
Intervalo fijo (IF)
La respuesta se refuerza la primera vez que ocurre después de
un intervalo específico.
IF 5”: Un pichón ha aprendido a picotear un disco. La primera
vez que picotea, la comida cae dentro del recipiente, pero en
los siguientes 5 segundos, picotear el disco no produce
reforzamiento. Entonces, al final del intervalo de 5 segundos,
se refuerza el siguiente picoteo del disco.
Ejemplo: Hornear un pastel sin reloj
42. Programas de reforzamiento
Intervalo variable (IV)
La duración de los intervalos durante los cuales las respuestas
no se refuerzan varía alrededor de algún promedio.
Ejemplo: Se puede reforzar una respuesta después de 5 seg.
luego después de 8, 6 y 4 seg.
Ejemplo: Revisar el correo electrónico. Al día, en promedio
recibes 15 mensajes pero no sabes con certeza a qué hora
recibirás uno…si cada hora ingresas a tu cuenta, se reducirá el
tiempo que permanecen sin leer y podrás hacer mientras otras
cosas.
43. La práctica es
importante
sólo en cuanto
a que
proporciona
oportunidades
de
reforzamiento.
¿Por qué los
reforzadores
fortalecen la
conducta?
Teorías del reforzamiento
44. Teoría de Hull sobre la reducción de la pulsión
∙ Los animales y personas exhiben conductas debido a
estados motivacionales llamados pulsiones.
∙ En el animal privado de comida, el alimento es un
reforzador eficaz para reducir el hambre. El animal
satisfecho aprenderá con lentitud cuando el reforzador es
la comida.
∙ Hull consideraba que los reforzadores secundarios
obtienen su poder de reforzamiento de su asociación con
los reforzadores primarios.
∙ El problema es que son pocos los reforzadores primarios
45. Teoría del valor relativo y el principio de
Premack
∙Los reforzadores se pueden considerar como conductas.
Ejemplo: se consideraba que el reforzador es la comida y
se puede considerar también que el reforzador es el acto de
comer.
∙Teoría del valor relativo: Para determinar si una actividad
dada reforzará a otra, es necesario conocer los valores
relativos de las actividades.
∙Principio de Premack: De entre dos respuestas, aquella
más probable reforzará a la menos probable; es decir, la
conducta con alta probabilidad refuerza a aquélla con baja
probabilidad.
46. 1. Libre acceso al agua pero tiempo restringido de acceso a la rueda.
2. Contingencia entre correr y beber (para acceder a la rueda, tenían que
beber)
Aumentó la conducta
de ingestión de agua.
Correr reforzó a la
acción de beber.
∙Si una rata muestra una inclinación a beber más que a correr en
una rueda, la ingestión de agua puede utilizarse para reforzar la
conducta de correr.
∙Premack (1962) entrenó a ratas para que el beber dependiera del
correr por lo que la ingestión de agua reforzaba la conducta de
correr.
47. Teoría de privación de respuesta
∙ La conducta se vuelve reforzante cuando se impide
que el organismo la lleve a cabo.
∙ Toda conducta tiene una línea base. Si se restringe el
acceso al líquido, la rata realizará la conducta que le
proporcione acceso al agua. Es decir, beber será
reforzante.
∙ La diferencia con la Teoría de Premack es que lo
importante es el grado en el que ocurre cada conducta
por debajo de su tasa de línea base. Una respuesta es
reforzante al grado en que se haya impedido que el
organismo ejecute esa respuesta a su nivel normal.
48. Teoría de evitación
Solomon y Wynne (1953):
1) Colocaron a un perro en uno de dos compartimientos.
2) Después de un tiempo, se apagaba la luz en uno de ellos y
10 segundos después el perro recibía un choque a través del
piso
3) El perro gemía y durante un tiempo se movía por todas
partes y después saltaba al otro compartimiento; la luz en
ése estaba encendida y no había choque.
4) Después de un tiempo, se apagaba la luz en ese
compartimiento y 10 segundos después, se aplicaba un
choque a través del piso. El perro escapaba del choque si
brincaba al otro compartimiento.
49. Solomon y Wynne (1953):
Resultados:
1. Con cada ensayo, el perro soportaba el choque durante un
período más corto antes de saltar. Al poco tiempo saltaba en
el instante en que comenzaba el choque
2. El perro comenzó a saltar cuando se apagaba la luz y con
ello evitaba por completo el choque.
Conclusión: El reforzamiento negativo inicia con una respuesta
de escape y termina con una de evitación; se denomina
aprendizaje de escape-evitación.
Teoría de evitación
51. Las respuestas
motoras voluntarias
surgen en la corteza
motora. Ésta recibe
sus entradas
primarias de las
áreas corticales que
procesan la
información
sensorial, como la
corteza visual (V1) y
la corteza
somatosensorial (S1),
así como de la
corteza frontal.
Corteza motora
52. Ganglios basales
Los ganglios basales reciben
información de las áreas
sensoriales de la corteza y la
proyectan a la corteza motora,
donde se produce una
respuesta conductual.
Participan en el
condicionamiento,
especialmente ante estímulos
discriminativos.
Necesarios para el aprendizaje
de asociaciones estímulo-
respuesta basadas en la
retroalimentación sobre
reforzamiento y castigo.
53. Mecanismos de reforzamiento
El aprendizaje ocurre si se modifican las conexiones
entre las neuronas de la corteza visual y las neuronas
del sistema motor, lo que cambia la probabilidad de que
futuros encuentros con el mismo estímulo provoquen la
misma respuesta.
Si esta conexión se fortalece es más probable que E
provoque R, pero si se debilita la probabilidad es
menor.
54. Condicionamiento instrumental
Cerebro
∙ El estímulo E activa neuronas de la corteza sensorial (cx
visual). La información viaja al sistema motor, incluyendo los
ganglios basales y la corteza motora
∙ Las salidas pueden producir una respuesta conductual (R),
como presionar la palanca.
∙ Si la respuesta es reforzada por una consecuencia (C), como el
alimento, se activa el sistema del gusto (núcleos del tallo
cerebral). Las salidas del sistema gustativo, aunadas al
hambre (hipotálamo) activan el sistema de reforzamiento.
∙ Las salidas del sistema de reforzamiento viajan al sistema
motor, donde se fortalecen las asociaciones activas de la
corteza visual.
∙ Esto hace más probable que la próxima vez que se encuentre
el estímulo se produzca la misma respuesta.
55. Mecanismos de reforzamiento
Estímulo
E (visión de
la palanca)
Sistema
visual
(corteza
visual)
Sistema
motor
(ganglios
basales y
corteza motora)
Respuesta
R (presionar la
palanca)
Sistema de reforzamiento
Sistema gustativo
(núcleos gustativos del
tallo cerebral)
Hambre
(hipotálamo)
Consecuencia
C
(comer el alimento)
56. Estimulación eléctrica
∙ 1954 James Old: Estimulación eléctrica en el tallo cerebral,
específicamente en en el área tegmental ventral (ATV)
∙ Algunas neuronas en el ATV proyectan al núcleo accumbens
(parte de los ganglios basales) y se libera dopamina.
∙ Las neuronas
dopaminérgicas del núcleo
accumbens proyectan al
estriado dorsal para
impulsar respuestas
motoras.
∙ Las ratas aprenden a
presionar la palanca para
administrarse estimulación
en ATV o el núcleo
accumbens.