¿Qué es el refuerzo?
¿Has jugado alguna vez en una máquina tragamonedas? ¿Por qué sigues poniendo dinero una y otra vez? No eres recompensado con cada jugada. Sin embargo, es más probable que siga poniendo dinero en la máquina si gana de vez en cuando. Los fabricantes de máquinas tragamonedas son muy conscientes del poder de refuerzo de una ganancia, incluso si es pequeña y muy a menudo. Utilizan un tipo de programa de refuerzo para animar a los jugadores a seguir jugando incluso si no se refuerzan con cada tirón de la máquina.
Revisión de refuerzo
El refuerzo se define como una consecuencia de lo que sigue a una respuesta que aumenta (o intenta aumentar) la probabilidad de que esa respuesta ocurra en el futuro. En esta lección, nos centraremos en los horarios de refuerzo.
Horarios de refuerzo
Cuándo y cómo se refuerza una consecuencia es fundamental para el proceso de aprendizaje y la probabilidad de aumentar una respuesta. Un programa de refuerzo actúa como regla, indicando qué casos de un comportamiento se reforzarán. A veces, una instancia se reforzará cada vez que ocurran. En otros casos, el refuerzo solo puede ocurrir de forma esporádica o mediante sucesos programados. Hay dos tipos de programas de refuerzo: continuo y parcial. Ciertos tipos de horarios pueden ser más efectivos según la situación y el propósito de la capacitación.
Refuerzo continuo
En un programa de refuerzo continuo, la conducta deseada se refuerza cada vez que ocurre. Este horario continuo se utiliza durante las primeras etapas del aprendizaje para crear una fuerte asociación entre el comportamiento y la respuesta. Con el tiempo, si la asociación es fuerte, el programa de refuerzo se cambia a un programa de refuerzo parcial.
En el aula, los maestros observarán mejoras rápidas en el comportamiento de los estudiantes si refuerzan las respuestas deseadas cada vez que las observan. Por ejemplo, si un maestro observa a un estudiante trabajando diligentemente en una tarea mientras otros estudiantes se mueven ruidosamente, ese maestro debe reforzar al estudiante apto con elogios para alentar el comportamiento positivo a continuar. El maestro debe, entonces, continuar reforzando este comportamiento cada vez que ocurra para poder vincular una fuerte relación entre el comportamiento positivo y el refuerzo.
Críticas a la teoría humanista en Psicología: Limitaciones científicas y cuestionamientos
La ventaja del refuerzo continuo es que el comportamiento deseado generalmente se aprende rápidamente. Sin embargo, este tipo de refuerzo es difícil de mantener durante un largo período de tiempo debido al esfuerzo de tener que reforzar una conducta cada vez que se realiza. Además, este tipo de refuerzo se extingue rápidamente. La extinción es la desaparición gradual de una respuesta adquirida, como resultado de la falta repetida de refuerzo de la respuesta. En pocas palabras, una vez que el refuerzo se detiene, el comportamiento también lo hará.
Refuerzo parcial
En un programa de refuerzo parcial, la respuesta se refuerza solo una parte del tiempo. Esto también puede denominarse programa de refuerzo intermitente. La ventaja aquí con un programa de refuerzo parcial es que es más resistente a la extinción. La desventaja es que los comportamientos aprendidos tardan más en adquirirse.
4 tipos de refuerzo parcial
Hay cuatro tipos de programas de refuerzo parcial : programa de razón fija, razón variable, programa de intervalo fijo e intervalo variable. Los programas de proporción fija ocurren cuando una respuesta se refuerza solo después de un número específico de respuestas. Por ejemplo, en el videojuego Donkey Kong recibes una vida extra por cada cien plátanos recolectados. En el aula, un ejemplo sería un estudiante que es recompensado por cada cinco libros que lee.
La ventaja en un programa de proporción fija es que los resultados son una productividad alta y constante, o en otras palabras, una alta tasa de respuesta. En el ejemplo que acabamos de discutir, el estudiante continuará leyendo libros mientras continúe la recompensa. La desventaja es que este horario conduce a agotamiento y potencialmente a un trabajo de menor calidad. En nuestro ejemplo, el estudiante puede leer libros demasiado rápido para obtener más recompensas y no comprender lo que realmente está leyendo.
El segundo tipo de horario que discutiremos es el de razón variable . Este es el programa en el que se refuerza una respuesta después de un número impredecible de respuestas. ¿Recuerdas el ejemplo de la máquina tragamonedas? Los juegos de azar y de lotería son ejemplos de recompensas basadas en un programa de proporción variable. En el aula, un ejemplo sería recompensar a los estudiantes por algunas tareas, pero no todas.
Principales Exponentes del Humanismo: El Legado de Maslow y Rogers
La ventaja de este tipo de programa es que si se hace de manera que el reforzador no sea predecible, esto puede conducir a un mantenimiento o aumento del ritmo de una conducta. Si el estudiante no puede determinar el horario en el que se recompensaría la tarea, será más probable que continúe trayendo siempre su tarea. Sin embargo, la desventaja es que este tipo de horario podría conducir a un comportamiento perjudicial. En el caso de los juegos de azar, la persona continúa tratando de obtener la recompensa incluso después de perder la mayor parte o la totalidad de su dinero con la esperanza de ganar el premio mayor.
Nuestro siguiente ejemplo son los intervalos fijos. Un intervalo fijo es donde la respuesta se recompensa solo después de que haya transcurrido un período de tiempo específico. Un ejemplo del mundo real de horarios de intervalo fijo es un cheque de pago. Se refuerza a los empleados semanalmente, quincenalmente o mensualmente según el programa de pago. En el aula, esto puede ser recompensar a un estudiante al final de cada período de clase o día por su buen comportamiento. Es importante que el maestro determine la cantidad correcta de trabajo dado el programa de recompensas.
La ventaja en este caso es que las respuestas aumentarán gradualmente a medida que se acerque el tiempo de refuerzo. En nuestro caso del estudiante, el estudiante comenzaría a comportarse más hacia el final de la clase o al final del día para asegurar que se le proporcione la recompensa. La desventaja es que este tipo de programa puede provocar una respuesta lenta inmediatamente después de la entrega del refuerzo. El mismo estudiante, que acaba de recibir una recompensa, puede tener un mal comportamiento hacia el comienzo de la siguiente clase o el comienzo del día siguiente, sabiendo que la próxima recompensa no se producirá por un tiempo.
Nuestro programa final para discutir es intervalo variable. Un programa de intervalo variable es donde se recompensa una respuesta después de que ha pasado una cantidad de tiempo impredecible. Ejemplos de este tipo de horarios serían una promoción o un reconocimiento especial en el trabajo. Si el empleado sabe que existe la posibilidad de un ascenso, pero desconoce el momento, esto generalmente provocaría un comportamiento positivo, que se mantiene durante un largo período de tiempo. En el aula, los maestros pueden recompensar a los estudiantes en diferentes momentos del día por su buen comportamiento.
La ventaja aquí es que este horario es muy resistente a la extinción. Si el estudiante sabe que si trabaja duro en una tarea o en clase y eventualmente será recompensado, persistirá y trabajará duro en promedio. Sin embargo, la desventaja aquí es que este programa de refuerzo no involucra a la persona rápidamente porque la recompensa no es inminente.
Mentalidad Progresista: Qué es, características y ejemplos
Elegir un horario
El uso de un refuerzo en el aula para controlar el comportamiento es exitoso siempre que el maestro elija un horario de refuerzo apropiado. El programa de refuerzo debe basarse en los comportamientos deseados, se deben mantener las asociaciones entre los comportamientos y las recompensas y los comportamientos durante un período de tiempo. Probemos algunos escenarios para probar sus conocimientos. En los siguientes escenarios, identifique qué tipo de programa de refuerzo se está utilizando :
Escenario 1 : Starbucks quiere garantizar un flujo constante de clientes. La empresa decide proporcionar tarjetas de recompensa a sus clientes: por cada cinco lattes comprados, el cliente recibe una gratis. La respuesta correcta aquí es un programa de proporción fija.
Escenario 2 : un maestro da exámenes sorpresa para garantizar que los estudiantes estén preparados para cada clase. La respuesta correcta es un programa de intervalo variable.
Escenario 3 : Un estudiante recibe una calificación al final de cada semestre, que cuenta para el crédito de graduación. La respuesta correcta aquí es intervalo fijo.
Escenario 4 : una persona compra billetes de lotería para raspar con la esperanza de ganar millones. ¿Respuesta correcta? Programa de razón variable.
Resumen de la lección
Resumamos las cosas. Al elegir un programa de refuerzo, uno debe considerar cómo y por qué se refuerza el comportamiento. Un horario continuo permitirá un comportamiento aprendido más rápido, pero está sujeto a extinción ya que reforzar un comportamiento cada vez es difícil de mantener durante un largo período de tiempo. Los horarios parciales o intermitentes permiten más flexibilidad y mantenimiento de la conducta, pero deben elegirse con cuidado.
Cada programa tiene ventajas y desventajas y es importante monitorear continuamente las tasas de respuesta para determinar si el programa es el más efectivo. Con un horario continuo la ventaja es que el comportamiento se aprende rápidamente, pero es difícil mantener el tiempo extra y se extingue rápidamente. Con un horario parcial , será más resistente a la extinción, pero los comportamientos pueden tomar tiempo en adquirir.
Con nuestro programa de proporción fija, hay una tasa de respuesta alta y constante, pero podría provocar agotamiento. Nuestro programa de razón variable podría conducir a una mayor tasa de comportamiento, pero también podría conducir a un comportamiento perjudicial. El intervalo fijo podría llevar a que las respuestas aumenten gradualmente, pero dado que se trata de un programa basado en el tiempo, hay una respuesta lenta inmediatamente después de que se haya producido el comportamiento o la recompensa. Y finalmente, intervalo variable , que es muy resistente a la extinción, pero la tasa de respuesta puede ser más lenta.
Explora más sobre este tema
Selecciona un tema y sigue aprendiendo...
