Evolución de las teorías del aprendizaje: CONDICIONAMIENTO INSTRUMENTAL U OPERANTE

1.2. Condicionamiento instrumental u operante

Siendo sus represntantes Hull, Thorndike y Skinner.

Burrhus Frederic Skinner:

Teoria De Skkiner:

Al Igual que Pavlov, Watson y Thorndike, Skinner creía en los patrones estímulo-respuesta de la conducta condicionada. Su historia tiene que ver con cambios observables de conducta ignorando la posibilidad de cualquier proceso que pudiera tener lugar en la mente de las personas. El libro de Skinner publicado en 1948, Walden Two, presenta una sociedad utópica basada en el condicionamiento operante. También escribió Ciencia y Conducta Humana, (1953) en el cual resalta la manera en que los principios del condicionamiento operatorio funcionan en instituciones sociales tales como, gobierno, el derecho, la religión, la economía y la educación. El trabajo de Skinner difiere de sus predecesores (condicionamiento clásico), en que él estudió la conducta operatoria (conducta voluntaria usada en operaciones dentro del entorno). El sistema de Skinner al completo está basado en el condicionamiento operante. El organismo está en proceso de "operar" sobre el ambiente, lo que en términos populares significa que está irrumpiendo constantemente; haciendo lo que hace. Durante esta "operatividad", el organismo se encuentra con un determinado tipo de estímulos, llamado estímulo reforzador, o simplemente reforzador. Este estímulo especial tiene el efecto de incrementar el operante (esto es; el comportamiento que ocurre inmediatamente después del reforzador).

Esto es el condicionamiento operante: el comportamiento es seguido de una consecuencia, y la naturaleza de la consecuencia modifica la tendencia del organismo a repetir el comportamiento en el futuro." Imagínese a una rata en una caja. Esta es una caja especial (llamada, de hecho, "la caja de Skinner") que tiene un pedal o barra en una pared que cuando se presiona, pone en marcha un mecanismo que libe

ra una bolita de comida. La rata corre alrededor de la caja, haciendo lo que las ratas hacen, cuando "sin querer" pisa la barra y ¡presto!, la bolita de comida cae en la caja. Lo operante es el comportamiento inmediatamente precedente al reforzador (la bolita de comida). Prácticamente de inmediato, la rata se retira del pedal con sus bolitas de comida a una esquina de la caja. Un comportamiento seguido de un estímulo reforzador provoca una probabilidad incrementada de ese comportamiento en el futuro. ¿Qué ocurre si no le volvemos a dar más bolitas a la rata? Aparentemente no es tonta y después de varios intentos infructuosos, se abstendrá de pisar el pedal. A esto se le llama extinción del condicionamiento operante. Un comportamiento que ya no esté seguido de un estímulo reforzador provoca una probabilidad decreciente de que ese comportamiento no vuelva a ocurrir en el futuro. Ahora, si volvemos a poner en marcha la máquina de manera que el presionar la barra, la rata consiga el alimento de nuevo, el comportamiento de pisar el pedal surgirá de nuevo, mucho más rápidamente que al principio del experimento, cuando la rata tuvo que aprender el mismo por primera vez. Esto es porque la vuelta del reforzador toma lugar en un contexto histórico, retroactivándose hasta la primera vez que la rata fue reforzada al pisar el pedal.

Esquemas De Refuerzo

A Skinner le gusta decir que llegó a sus diversos descubrimientos de forma accidental (operativamente). Por ejemplo, menciona que estaba "bajo de provisiones" de bolitas de comida, de manera que él mismo tuvo que hacerlas; una tarea tediosa y lenta. De manera que tuvo que reducir el número de refuerzos que le daba a sus ratas para cualquiera que fuera el comportamiento que estaba intentando condicionar. Así que, las ratas mantuvieron un comportamiento constante e invariable, ni más ni menos entre otras cosas, debido a estas circunstancias. Así fue como Skinner descubrió los esquemas de refuerzo. El refuerzo continuo es el escenario original: cada vez que la rata comete el comportamiento (como pisar el pedal), consigue una bolita de comida. El programa de frecuencia fija fue el primero que descubrió Skinner: si, digamos, la rata pisa tres veces el pedal, consigue comida. O cinco. O veinte. O "x" veces. Existe una frecuencia fija entre los comportamientos y los refuerzos: 3 a 1; 5 a 1; 20 a 1, etc. Es como una "tasa por pieza" en la producción industrial de ropa: cobras más mientras más camisetas hagas. El programa de intervalo fijo utiliza un artilugio para medir el tiempo. Si la rata presiona el pedal por lo menos una vez en un período de tiempo particular (por ejemplo 20 segundos), entonces consigue una bolita de comida. Si falla en llevar a cabo esta acción, no consigue la bolita. Pero, ¡aunque pise 100 veces el pedal dentro de ese margen de tiempo, no conseguirá más de una bolita!. En el experimento pasa una cosa curiosa si la rata tiende a llevar el "paso": bajan la frecuencia de su comportamiento justo antes del refuerzo y aceleran la frecuencia cuando el tiempo está a punto de terminar. Skinner también habló de los programas variables. Una frecuencia variable significa que podemos cambiar la "x" cada vez; primero presiona tres veces para conseguir una bolita, luego 10, luego 1, luego 7 y así sucesivamente. El intervalo variable significa que mantenemos cambiante ese período; primero 20 segundos, luego 5; luego 35 y así sucesivamente. Siguiendo con el programa de intervalos variables, Skinner también observó en ambos casos que las ratas no mantenían más la frecuencia, ya que no podían establecer el "ritmo" por mucho tiempo más entre el comportamiento y la recompensa. Más interesantemente, estos programas eran muy resistentes a la extinción. Si nos detenemos a pensarlo, verdaderamente tiene sentido. Si no hemos recibido una recompensa por un tiempo, bueno, es muy probable que estemos en un intervalo o tasa "errónea"…¡sólo una vez más sobre el pedal; Quizás ésta sea la definitiva!. De acuerdo con Skinner, este es el mecanismo del juego. Quizás no ganemos con demasiada frecuencia, pero nunca sabemos cuando ganaremos otra vez. Puede que sea la inmediatamente siguiente, y si no lanzamos los dados o jugamos otra mano o apostamos a ese número concreto, ¡perderemos el premio del siglo!.

Modelado

Una cuestión que Skinner tuvo que manejar es la manera en que llegamos a fuentes más complejas de comportamientos. Respondió a esto con la idea del modelado, o "el método de aproximaciones sucesivas". Básicamente, consiste en primer lugar en reforzar un comportamiento solo vagamente similar al deseado. Una vez que está establecido, buscamos otras variaciones que aparecen como muy cercanas a lo que queremos y así sucesivamente hasta lograr que el animal muestre un comportamiento que nunca se habría dado en la vida ordinaria. Skinner y sus estudiantes han tenido bastante éxito en enseñar a animales a hacer algunas cosas extraordinarias. Mi favorita es aquella de ¡enseñar a las palomas a tirar los bolos!.
Estímulo adverso (aversivo) en psicología iberoamericana se ha traducido el término como aversivo, N.T. Un estímulo adverso es lo opuesto al estímulo reforzador; algo que notamos como displacen tero o doloroso. Un comportamiento seguido de un estímulo adverso resulta en una probabilidad decreciente de la ocurrencia de ese comportamiento en el futuro. Esta definición describe además del estímulo adverso, una forma de condicionamiento conocida como castigo. Si le pegamos a la rata por hacer x, hará menos veces x. Si le doy un cachete a José por tirar sus juguetes, los tirará cada vez menos (quizás). Por otro lado, si removemos un estímulo adverso establecido antes de que la rata o José haga un determinado comportamiento, estamos haciendo un refuerzo negativo. Si cortamos la electricidad mientras la rata se mantiene en pie sobre sus patas traseras, durará más tiempo de pie. Si dejas de ser pesado para que saque la basura, es más probable que saque la basura (quizás). Podríamos decir que "sienta tan bien" cuando el estímulo adverso cesa, que ¡esto sirve como refuerzo!.
Nótese lo difícil que puede llegar a ser diferenciar algunas formas de refuerzos negativos de los positivos. Si te hago pasar hambre y te doy comida cuando haces lo que yo quiero, ¿es esta actuación positiva; es decir un refuerzo?; ¿o es la detención de lo negativo; es decir del estímulo adverso de ansia?.

Modificación De Conducta

La modificación de conducta (usualmente conocida en inglés como mod-b) es la técnica terapéutica basada en el trabajo de Skinner. Es muy directa: extinguir un comportamiento indeseable (a partir de remover el refuerzo) y sustituirlo por un comportamiento deseable por un refuerzo. Ha sido utilizada en toda clase de problemas psicológicos (adicciones, neurosis, timidez, autismo e incluso esquizofrenia) y es particularmente útil en niños. Hay una variante de mod-b llamada economía simbólica, la cual es utilizada con gran frecuencia en instituciones como hospitales psiquiátricos, hogares juveniles y prisiones. En éstas se hacen explícitas ciertas reglas que hay que respetar; si lo son, los sujetos son premiados con fichas o monedas especiales que son cambiables por tardes libres fuera de la institución, películas, caramelos, cigarrillos y demás. Si el comportamiento empobrece, se retiran estas fichas. Esta técnica ha demostrado ser especialmente útil para mantener el orden en estas difíciles instituciones.
Diferencias entre condicionamiento clásico y operatorioEn condicionamiento clásico, un estímulo neurológico se convierte en un reflejo asociado. El sonido de la campana, como un estímulo neurológico, se asocia al reflejo de salivaciónEn el condicionamiento operatorio el aprendiz "opera" en el entorno y recibe una recompensa por determinada conducta (operaciones). Eventualmente se establece la relación entre la operación (accionar una palanca) y el estímulo de recompensa (alimento).

Mecanismo de condicionamiento operatorio de skinner

El refuerzo positivo o recompensa: Las respuestas que son recompensadas tienen alta probabilidad de repetirse (Buen grado de refuerzo y cuidadoso estudio).
El refuerzo negativo: Respuestas que reflejan actitudes de escape al dolor o de situaciones no deseables tienen alta probabilidad de repetirse (han sido excluidas del escrito un final debido a un buen trabajo terminal).
Extinción o ausencia de refuerzo: Respuestas que no son reforzadas son poco probable que se repitan (Ignorando las conductas errores del estudiante la conducta esperada debe de extinguirse).
Castigo: Respuestas que son castigadas de consecuencias no deseables cambian (Un castigo retardado a un estudiante, mediante el retiro de privilegios podría no tener efecto)
Desarrollo de la conducta de skinnerSi colocas dentro de una caja a un animal podría requerir de una cantidad significativa de tiempo para darse cuenta que activando una palanca puede obtener comida. Para lograr esa conducta será necesario realizar una serie de repeticiones sucesivas de la operación acción-respuesta hasta que el animal aprenda la asociación entre la palanca y la recompensa (el alimento). Para comenzar a crear el perfil, la recompensa se le da al animal primero con tan solo voltear a ver la palanca, después cuando se acerque a ella, cuando olfatee la palanca y finalmente cuando la presione.

Evolución de las teorías del aprendizaje

martes, 20 de octubre de 2009

CONDICIONAMIENTO INSTRUMENTAL U OPERANTE

No hay comentarios:

Publicar un comentario

Seguidores

Archivo del blog

Datos personales