Активное научение. Оперантное обуславливание

Примером активного научения служит оперантное научение, которое по-другому называют еще инструментальным условным рефлексом. При оперантном научении награда (например, пища) следует не автоматически за сочетанием безусловного и условного стимула, а зависит от правильной реакции организма. Ранние исследования оперантного научения проводились Э. Л. Торндайком. Он помещал кошку в особый «проблемный» ящик, из которого животное пыталось выбраться. Вне клетки помещалась рыба.

Для того чтобы покинуть ящик, нужно было нажать на педаль, однако кошка не получала никаких «подсказок». Активность кошки представляла собой образец действия методом проб и ошибок: сначала она беспорядочно металась по клетке и мяукала, пыталась достать приманку, просовывая лапу сквозь решетку, пока случайно не задевала педаль и дверца не распахивалась. В результате многочисленных повторных процедур кошки постепенно переставали совершать лишние действия и сразу нажимали на педаль.

Торндайк назвал это научением путем проб и ошибок, поскольку перед тем, как животное научается совершать нужный акт, оно реализует множество ошибочных. Наблюдая за кошками в проблемных ящиках, Торндайк вывел закон эффекта, гласящий, что реакция, за которой следует награда, закрепляется в поведении. Другими словами, Торндайк считал, что научение основано на постепенном закреплении эффективных действий и отмирании неэффективных.

Возможные реакции (специфичные для данного вида):

P1 — мяукать

Р2 — царапаться

Р3 — кусаться

Р4 — прыгать на стенки

Р5 — нажать на педаль — награда

До научения: Вероятность P1 = Вероятности Р2 = Вероятности Р3 = Вероятности Р4 = Вероятности Р5.

После научения: Вероятность Р5 > В Р2, В Р3, В Р4.

Согласно Торндайку, механизм научения заключается в установлении связей между стимулами и реакциями.

Концепция Торндайка была значительно развита Б. Ф. Скиннером, который подверг критике случайный характер нахождения верного решения в модели Торндайка (представим, что мы случайным образом гадаем, сколько будет пятью пять — скорее всего, мы никогда не отыщем правильный ответ). Он предложил метод научения (формирования реакций) с помощью последовательных приближений. Этот метод заключается в том, что экспериментатор разбивает весь путь решения на несколько этапов. Тогда награда следует не за правильным решением, а за каждым шагом в верном направлении. Например, Скиннер проводил следующий эксперимент. Голубя сажают в клетку, в которой нет ничего, кроме кнопки и находящейся под ней кормушки. Голодная птица, попав в клетку, начинает все исследовать и в результате ударяет клювом по кнопке. Количество клеваний за полчаса условно принимают за исходный оперантный уровень.

Затем включают кормушку, и после каждого клевания по кнопке голубь получает по зернышку. Через некоторое время птица научается клевать кнопку, так как это действие подкрепляется. Чем больше она будет клевать кнопку, тем больше пищи получит. Отсюда следует, что если птица клюет кнопку с высокой частотой, оперантный уровень будет высоким, если редко — то действие будет иметь низкий оперантный уровень.

В оперантном научении особую роль играет подкрепление. Подкреплением называется любой предмет или событие, которое значимо для организма и ради достижения которого им совершается определенное поведение.

Скиннер отмечал, что научение путем последовательных приближений спонтанно используется родителями при воспитании детей. Например, младенец произносит какие-то нечленораздельные звуки (это естественные реакции ребенка). Случайно в его лепете родители слышат сочетание звуков «ме-ме», что вызывает у них бурный восторг. Младенец, воодушевленный вниманием старших (что в данном случае является подкреплением его действий), начинает повторять на разные лады это сочетание, пока случайно не произнесет «ма-ма». Как только это происходит, «ме-ме» перестает вызывать интерес взрослых и они концентрируются на первом слове «мама».

Скиннер разработал метод программированного обучения в школе, в котором применительно к детям реализовывался данный подход. Кроме того, Скиннер провел тщательную классификацию эффективных видов наград, которые являлись подкреплениями. Главным в его концепции стало понятие социального подкрепления (одобрение окружающих, повышение оценки), в отличие от прямо физиологического подкрепления (пища, тепло).

В своей знаменитой книге «По ту сторону свободы и достоинства» (1973) Скиннер разработал утопическую модель идеального общества, в которой психологи-«планификаторы» будут жестко контролировать различные подкрепления, которые человек будет получать в течение своей жизни для того, чтобы сформировать из каждого полезного для общества гражданина.