КОНЦЕПЦИЯ СИСТЕМООБРАЗУЮЩЕГО ФАКТОРА В ТЕОРИИ ФУНКЦИОНАЛЬНЫХ СИСТЕМ (06.07.2009)

Автор: Салтыков Александр Борисович

Описанная методика предполагает, что каждый имитируемый инструментальный акт с определенной вероятностью сопровождается соответствующим подкреплением. Указанное условие соблюдается не всегда, примером чего служат наши собственные исследования на животных (см. "Материал и методы"). В этом случае компьютерное моделирование усложняется необходимостью учета дополнительных параметров: среднего числа поисковых реакций, приходящихся на единицу времени; продолжительности условной стимуляции, длительности межстимульных интервалов.

Б. Результаты компьютерного моделирования.

Компьютерная имитация позволяет прогнозировать число поисковых инструментальных реакций, необходимых для обучения при вероятностном безусловном подкреплении. Создан атлас 3-мерных графиков (примеры на рис. 5, 6), показывающих скорость выработки рефлекса при различных комбинациях изучаемых параметров.

Компьютерная имитация демонстрирует большую или меньшую "инерционность" процесса обучения, в том числе в жестко детерминированных усло-

Рис. 5. Зависимость скорости обучения от параметров "случайной" среды при 100% вероятности подкрепления правильных реакций [p(k/a)=1]. По абсциссе - р(а) случайного выполнения правильной реакции; по ординате - p(k/b) положительного подкрепления неправильных реакций; по аппликате - число поисковых реакций, необходимых для установления связи между условным сигналом и подкреплением; ( = 0,001 - величина ошибки 1-го рода, достижение которой в процессе имитации означает установление гипотетическим животным связи между условным сигналом и подкреплением.

виях (рис. 5). Это согласуется с экспериментами на животных и человеке: для формирования рефлекса обычно требуется не менее 5 сочетаний (Воронин Л.Г., 1977; Батуев А.С.; и мн.др.). Однако при относительно больших значениях параметра"альфа" (ошибки 1-го рода) имитируемый рефлекс "образуется" сразу после первого сочетания, т.е. практически без вероятностных оценок.

Наибольшая скорость обучения прогнозируется в "жестко детерминированных" условиях [p(k/a) = 1, p(k/b) = 0], что воспроизводит известный из литературы эффект (Меницкий Д.Н., Трубачев В.В., 1974; Bitterman M.E., 1979; Mazur J.E., 1997). При этом если значение p(k/b) близко к нулю, процесс выработки рефлекса существенно не меняется (рис. 5). Иная картина складывается, если вероятность положительного подкрепления в связи с действием условного раздражителя существенно ниже единицы (рис. 6). В этом случае даже незначительное изменение величины p(k/b) на всем интервале ее варьирования заметно влияет на скорость обучения и, соответственно, на формирование информационной патологии ВНД. Именно об этом свидетельствуют и экспериментальные данные (Grey D.A., 1978; McNamara J.M. e.a., 1983).

Компьютерное моделирование воспроизводит и другие известные эффекты: невозможность обучения при одинаковых вероятностях подкрепления реакций, выполненных в связи и вне связи с условным сигналом [p(a/k) = p(b/k)]; высокую устойчивость к угасанию рефлексов, выработанных в условиях вероятностного подкрепления (Меницкий Д.Н., 1986; Фейгенберг И.М., 2008; Kinlston J.F., 1987); замедление обучения после неоднократных предварительных предъявлений стимула, используемого в дальнейшем в качестве условного [Тверицкая И.Н., 1985; Larats D.B. e.a., 1988). Поскольку компьютерное моделирование не предполагает использования каких-либо эмпирических данных, соответствие полученных результатов уже известным закономерностям подтверждает адекватность интеграции ТФС и представления о вероятностном прогнозировании.

Рис. 6. Зависимость скорости обучения от параметров "случайной" среды при 55% вероятности подкрепления правильных реакций [p(k/a)=0,55; альфа = 0,001]. Обозначения такие же, как на рис. 5.

Представленные графики иллюстрируют также закономерности формирования 100%-но подкрепляемого рефлекса на околопороговый по интенсивности сигнал. Предположим, вырабатывается классический слюноотделительный рефлекс на слабый звуковой сигнал, правильно воспринимаемый индивидуумом с вероятностью 0,55. Тогда в ходе обучения 55% безусловных подкреплений будет ассоциироваться с условным стимулом, а 45% - с его отсутствием [р(а/к) = 0,55; р(b/к) = 0,45]. При этом расчетная величина N резко повышается (рис. 6), что согласуется с низкой скоростью обучения при околопороговой интенсивности условного сигнала (Clifton R.K., e.a., 1994; Commons M.L., 1991; Macmillan N.A., 2005) и возможностью формирования информационной патологии.

Таким образом, компьютерная имитация выявляет оптимальные и неблагоприятные для обучения комбинации параметров вероятностно организованной среды. Неблагоприятные условия характеризуются сложностью информационного взаимодействия индивидуума со средой и способствуют развитию информационной патологии ВНД, особенно на этапе афферентного синтеза.. При этом процесс обучения может существенно зависеть от величины р(а) - вероятности случайного выполнения правильной реакции (в дальнейшем - ВСПР). Между тем, при проведении экспериментальных исследований этот параметр традиционно не учитывается, не разработана и общепринятая методика его оценки.

4. Экспериментальная проверка некоторых закономерностей условнорефлекторного обучения, выявленных с помощью компьютерного моделирования.

А. Методика оценки инструментального рефлекса, учитывающая вероятность случайной правильной реакции (ВСПР)

Теоретическая оценка ВСПР основывается на предположении о том, что до выявления связи между условным сигналом и подкреплением инструментальные реакции животного равномерно распределены во времени относительно биологически индифферентного условного раздражителя (это предположение использовалось и при компьютерном моделировании). Например, при выработке рефлекса нажатия на педаль на фоне действия условного сигнала первоначальные (поисковые, пробные) нажатия следует считать равномерно распределенными во времени. В таком случае математическое ожидание ВСПР равно отношению длительности предъявления условного раздражителя к общей продолжительности эксперимента. При этом из расчетов следует исключить интервалы, в течение которых невозможно осуществление дополнительных поисковых реакций: время, затрачиваемое на реализацию собственно нажатий, а также периоды электрокожной стимуляции и последующего восстановления поисковой активности (прекращения хаотических перемещений).

Зная математическое ожидание ВСПР, а также количество выполненных обучаемым животным правильных и ошибочных инструментальных реакций, по критерию (2 проводится выбор между статистическими гипотезами: Н0 - связь между инструментальными реакциями и предъявлением условного раздражителя отсутствует и Н1 - связь между инструментальными реакциями и предъявлением условного раздражителя существует. Принятие гипотезы Н1 (р < 0,05) свидетельствует о формировании у животного условного рефлекса. При этом критерий (2 комплексно учитывает правильные и неправильные реализации инструментальных реакций, а также статистическую погрешность: она не превышает достигнутого уровня значимости. Последнее обстоятельство позволяет сравнивать экспериментальные результаты, полученные при разных значениях ВСПР.

Соответствие математического ожидания ВСПР реальным значениям проверялось экспериментально. Для графического изображения динамики частоты правильных реакций выделяли 5 периодов обучения (I-V). Для этого общее число инструментальных реакций, потребовавшееся каждому животному для формирования рефлекса, делили на 5 равных частей и определяли процент правильных реализаций в каждой из них. В дальнейшем вычисляли среднюю арифметическую и доверительный интервал для всех периодов обучения в соответствующей группе животных. Рис. 7 иллюстрирует такое представление данных (1-я серия экспериментов)

Из рисунка видно, что в начальный период обучения частота правильных реакций совпадала с теоретически предсказанными значениями ВСПР; результаты других экспериментов оказались аналогичными, что свидетельствует об адекватности теоретической оценки ВСПР.

Рис. 7. Динамика изменения частоты правильных реакций в зависимости от вероятности их безусловного подкрепления и величины ВСПР (1-я серия экспериментов)

1 - 1-я группа (ВСПР = 0,05, 100% подкрепление правильных реакций); 2 - 2-я группа (ВСПР = 0,25, 100%); 3 - 3-я группа (ВСПР = 0,05, 50%); 4 - 4-я группа (ВСПР = 0,25, 50%). По ординате - частота правильных реакций (% к общему числу реакций); по абсциссе - периоды обучения.

Б. Влияние величины ВСПР на скорость формирования инструментального рефлекса у крыс.

Изучалось влияние величины ВСПР на формирование рефлекса при разных режимах безусловного подкрепления. Сравнивались результаты только тех групп животных, условия обучения которых были идентичны по длительностям условной стимуляции и межстимульных интервалов.

1-я серия экспериментов (табл. 6). Сопоставление результатов I-й и III-й групп (ВСПР = 0,05) показало, что снижение частоты подкрепления со 100% до 50% достоверно, почти в 3 раза замедляет выработку рефлекса. При этом уже на этапе афферентного синтеза животные совершали частые хаотические перемещения, царапали клетку, пищали и демонстрировали другие признаки информационного стресса (Хананашвили М.М., 1983). Это согласуется с распро-

Таблица 6

Различия в числе инструментальных реакций, потребовавшихся для обучения крыс 1-й серии (в скобках указаны номера экспериментальных групп)

ВСПР Число реакций

100%-е подкрепление 50%-е подкрепление

0,25 76,7 ( 36,6 (I)

96,2 (35,4 (II) 202,1 ( 93,4 (III)*

88,9 ( 24,0 (IV)

* - p < 0,05 (достоверность отличий)

страненным мнением о затруднении процесса обучения при вероятностном режиме подкрепления (Пигарева М.Л., Мац В.Н., 1984; Cohen S.L., 1981; McNamara J.M., 1983; и мн.др.).

Однако сопоставление результатов II-й и IV-й групп (ВСПР = 0,25) выявило иную закономерность: независимо от частоты подкрепления для формирования рефлекса требовалось примерно одинаковое число поисковых инструментальных реакций. Ранее некоторые авторы (Трубачев В.В., 1968; Хананашвили М.М., 1970, 1972; Ishida M., 1978) отмечали парадоксальную неизменность скорости обучения при 100%-м и 50%-м режимах подкрепления, объясняя это влиянием не учитываемых факторов. По-видимому, одним из таких факторов является ВСПР.

Аналогичные результаты получены во 2-й серии экспериментов, в которой использовались 100% и 25%-й режимы подкрепления, а также другие длительности условной стимуляции и межстимульных интервалов. Если ВСПР равнялась 0,125 или 0,25, варьирование частоты подкрепления в диапазоне 25-100% практически не влияло на скорость обучения (табл. 7). Это видно из попарного сравнения экспериментальных групп, обучавшихся при одинаковой длительности предъявления условного стимула и межстимульных интерва-

Таблица 7

Различия в числе инструментальных реакций, потребовавшихся для обучения крыс 2-й серии (в скобках - номера экспериментальных групп)

ВСПР Число реакций

100%-е подкрепление 25%-е подкрепление

429,3 ( 169,8 (I)

88,9 ( 72,0 (II)

88,6 ( 44,2 (III)


загрузка...