Полная версия
Современные представления о механизмах зрительного внимания
Л. Н. Подладчикова, Т. И. Колтунова, А. И. Самарин
Современные представления о механизмах зрительного внимания
Введение
Зрительная система является для человека важнейшим источником информации о внешнем мире. Небольшая область в центре сетчатки глаза (фовеа), на которую проецируются около двух градусов поля зрения, имеет высокую плотность рецепторов; за ее пределами плотность рецепторов и острота восприятия элементов формы и цвета падает по экспоненциальному закону от центра поля зрения к периферии (Шахнович, 1974; Ярбус, 1965). Для получения необходимой зрительной информации в мозге активируются процессы внимания, связанные с выбором наиболее значимых объектов как в центре, так и на периферии поля зрения. Согласно известным данным (Шахнович, 1974; Ярбус, 1965; Martinez-Conde, Macknik, 2008, 2015; Rolfs, 2015; Shepherd et al., 1986), процессы выбора включают механизмы явного (overt), сопровождающегося быстрыми высокоамплитудными движениями глаз (более одного градуса) – саккадами – и скрытого (covert) зрительного внимания, которые отражаются, в основном, в длительности фиксаций взгляда и микросаккадах – движениях глаз с амплитудой менее одного градуса – (Hafed, Clark, 2002). Взаимосвязь механизмов внимания и движений глаз достаточно сложна. В частности, иногда направление взгляда однозначно связано с тем, какая информация будет воспринята в фокусе внимания, в других случаях информация, находящаяся в окрестностях текущей фиксации взгляда, не осознается человеком – происходит так называемый эффект ослепления по невниманию (Inattentional Blindness) в отношении нерелевантной информации (Rock, Gutman, 1981; Simons, Chabris, 1999; Most at al., 2001). Кроме того, скрытое внимание иногда предваряет переход фокуса внимания, сопряженный с движением глаз, в определенное место поля зрения (Laubrock at al., 2010). По-видимому, увеличение количества анализируемых параметров движений глаз и синхронная регистрация моментов принятия того или иного решения человеком позволят установить иерархию отношений между различными типами глазных движений и процессами зрительного внимания.
Исследование механизмов зрительного внимания прошло ряд этапов. Каждому этапу были присущи свои методы исследования и представления о механизмах зрительного внимания, часть из которых сохраняется до настоящего времени.
Одна из групп факторов, регулирующих зрительное внимание, – физические свойства изображений, например, локальные скопления перепадов яркости, цвета или других характеристик изображения, или же как-то отличающиеся от окружения области. Они провоцируют привлечение внимания в большинстве случаев в начальные периоды решения зрительной задачи, такое внимание называется восходящим (bottom-up). При наличии задачи, ожидания или какой-либо другой предустановки влияние этой формы внимания ослабевает, и внимание с большей вероятностью направляется туда, где есть искомые свойства, или же семантически значимые для человека объекты. Такая форма внимания основана на работе иерархически более высоких структур мозга и называется нисходящей (top-down). Необходимо отметить, что эти формы внимания не эквивалентны фокальному и пространственному вниманию, несмотря на то что следствия их функционирования могут быть похожими, и отчасти доминирование восходящей или нисходящей форм внимания может быть обусловлено доминированием пространственного или фокального внимания соответственно. Очевидно, взаимоотношения между этими формами внимания еще предстоит выяснить. В равной мере это относится и к временной динамике вклада механизмов фокального и пространственного внимания. В частности, в ряде работ обосновывается доминирование сначала пространственной, а затем фокальной формы внимания; в других работах представлены данные, указывающие на то, что оба этих механизма участвуют на всех этапах решения зрительной задачи, постоянно сменяя друг друга (Staub et al., 2010; Stigchel et al., 2009). Как подчеркивается в ряде работ (Pastuchov et al., 2009; Stigchel et al., 2009), критерии, позволяющие определить или предсказать моменты перехода от одной формы внимания к другой, не описаны в известной литературе.
Следует отметить, что данные, касающиеся нисходящей и восходящей формы внимания, получены в основном при использовании простых стимулов (наборы локальных линейных сегментов с различной ориентацией, стрелок с различным направлением, букв и т. д.) при решении задач их поиска и распознавания. В свою очередь данные, касающиеся функционирования фокального и пространственного внимания, получены в основном в экспериментах со сложными изображениями в качестве зрительных стимулов – сцен, художественных произведений, динамически изменяющейся виртуальной реальности, искусственно синтезированных интерьеров и т. д. Задачи, формулируемые в этих экспериментах, – в случае, если изучается не просто свободный осмотр, – также обращаются к поиску, распознаванию и моторной реакции на стимулы, но часто они формулируются более сложным образом и требуют обращения к зрительной памяти, сравнения разных стимулов, самопроверки и участия других высших когнитивных функций.
Другая особенность большинства исследований с регистрацией движений глаз (Torralba et al., 2006; Williams et al., 2007; Underwood et al., 2008 и многие другие) состоит в том, что длительность теста устанавливается экспериментатором, а не определяется испытуемым самостоятельно (self-termined paradigm). Первая парадигма не позволяет наблюдать полностью завершенный акт решения зрительной задачи при использовании сложных изображений в качестве стимула. При этом индивидуальные особенности (Schiefele, Krapp, 1996) в темпе психической деятельности и восприятия делают невозможным выбор длительности теста, универсальной для всех испытуемых. Вполне вероятно, что некоторые испытуемые могут завершить осмотр раньше окончания теста, и последующие движения глаз будут совершаться при возрастающей активности незрительных видов внимания, что позволит неучтенным факторам влиять на параметры движений глаз. Кроме того, осмотр изображения или сцены – не неизменное статичное состояние. У него есть своя динамика, периоды развития и окончания, смены другими процессами. Периоды начала осмотра описаны в работах Unema et al. (2005) и Velichkovsky et al. (2000), однако сведения о характерных изменениях движений глаз на этапе завершения текущей зрительной задачи незначительны (Podladchikova et al., 2009).
Новый этап (Active Vision Era) исследований механизмов зрительного внимания, оцениваемых по параметрам глазных движений (Wade, Tatler, 2005; Tatler et al., 2009), начался после выхода монографии Альфреда Ярбуса (1965, 1967), в которой описаны типичные параметры произвольных и непроизвольных движений глаз, а также экспериментально обосновано влияние зрительной задачи и мотивации испытуемого на траекторию осмотра и положение точек фиксации взгляда. После издания переведенной монографии Альфреда Ярбуса количество исследований в этой области многократно возросло (рис. 1). Отмечается (Wade, Tatler, 2005; Tatler et al., 2009), что на этом этапе разработан ряд новых методов проведения экспериментов и анализа данных. Кроме того, совершенствование и уменьшение стоимости айтрекеров расширило круг применения методов регистрации глазных движений для решения практических задач.
Таким образом, несмотря на большое количество исследований движений глаз на современном этапе невозможно однозначно определить степень связи положения взгляда с фокусом внимания (Белопольский, 1989, 2007; Smith, Ratcliff, 2009; Belopolsky, 2015). Сложность решения этой задачи обусловлена в первую очередь одновременным участием механизмов разного уровня (от первичных сенсорных до когнитивных), взаимодействующих между собой и находящихся под воздействием многих факторов. По-видимому, один из подходов к решению ключевых проблем в этой области состоит в разработке новых методических приемов проведения эксперимента и анализа данных, которые дадут возможность количественно оценить вклад различных механизмов зрительного внимания (Ярбус, 1965; Подладчикова и др., 2011; Carrasco, 2011; Graupner et al., 2007; Henderson, Pierce, 2008; Lavie, 2006; Reingold E. M., Stampe, 2002).
Рис. 1. Динамика цитирования книги А. Ярбуса Eye Movements and Vision на момент выхода статьи (Fig. 14 из статьи Tatler et al. 2010)
Одним из методов, который может применяться для провокации смены типа зрительного внимания, является использование неожиданных кратковременных стимулов – дистракторов. До настоящего времени механизмы дистрактор-эффекта остаются предметом дискуссий (Corneil, Munoz, 1996; Foley, Schwarz, 1998; Graupner et al., 2007; 2011; Hodsoll et al., 20011; Miles et al., 2009; Tandonnet et al., 2012). В частности, некоторые авторы указывают на фазическую природу эффекта дистрактора, тогда как другие указывают на зависимость длительности дистрактор-эффекта от характеристик стимулов. Если длительность дистрактор-эффекта не изменяется, это может говорить о его независимости от процессов, происходящих во время осмотра, а задержка фиксации может объясняться только временем, которое необходимо для оценки новой информации и генерации саккады. Если же длительность эффекта зависит от параметров зрительных стимулов, то это дает возможность количественного измерения влияния тех факторов, которые не влияют напрямую на длительность фиксаций, но отражают особенности протекания процессов внимания.
Другим методом, позволяющим направленно воздействовать на внимание, является использование разных уровней перцептивной нагрузки. Исследования в этом направлении проведены в основном с помощью метода изменения количества простых стимулов разного типа в поле зрения. Они позволили объяснить, почему в разных случаях информация о нерелевантных стимулах может обрабатываться на ранних или поздних этапах восприятия. Было показано, что эффективность и скорость обработки зрительной информации о целевых стимулах может зависеть от количества одинаковых нецелевых стимулов, предъявляемых одновременно, а также что их меньшее количество более вероятно вызовет смещение внимания от решения задачи, связанной с целевым стимулом (Lavie, Fox, 2000; Lavie, 1995, 2006; Wei, Zhou, 2006; Cartwright-Finch, 2007; Di Stasi et al., 2010). Однако в этих работах не оценивалось воздействие зрительной нагрузки при усложнении стимулов, а также ее влияние на характеристики движений глаз.
Исследование динамики зрительного внимания не только важно для поиска механизмов, лежащих в основе системы позиционирования и перевода взгляда, но и представляет интерес в прикладном отношении. В частности, разработка эффективных средств контроля зрительного внимания человека-оператора остается актуальной задачей, поскольку до настоящего времени отсутствуют широко внедренные в практику тесты, не препятствующие основной деятельности (Бурдин и др., 2013; Кирой и др., 2014; Ahlstroma., Friedman-Bergb, 2006; Mathan et al., 2010) и использующие параметры глазных движений. Известны лишь единичные примеры такого рода, такие как Index of Cognitive Workload (http://www.eyetracking.com) и Index of Cognitive Efficacy, основанных на оценке динамики диаметра зрачка и временных параметрах морганий и отчасти – ЭЭГ активности.
Таким образом, выбор областей интереса для переключения внимания и фиксации взгляда при осмотре изображений и сцен зависит от множества факторов и определяется перцептуальными и когнитивными механизмами, взаимодействующими между собой (Ярбус, 1965; Unema et al., 2005; Podladchikova et al., 2009; Velichkovsky et al., 2005 и многие другие). Несмотря на значительный прогресс в изучении механизмов зрительного внимания, достигнутый за последние 25 лет, многие аспекты этой проблемы далеки от полного понимания до настоящего времени (Carrasco, 2011). Неполнота имеющихся данных и в ряде случаев их противоречивость (Pastukhov et al., 2009), а также отсутствие стандартизации экспериментальных условий затрудняют возможность обобщения и формализации результатов, полученных в различных психофизических исследованиях. В силу этого математические модели, имитирующие нейробиологические феномены, рассматриваются как важный инструмент при исследовании механизмов зрительного внимания (Ho-Phuoc, 2012; Tandonnet et al., 2011; Tatler et al., 2011; Wang et al., 2011; Judd et al., 2010; Henderson et al., 2007; Li, Gilbert, 2002; Lowe, 2004; Navalpakkam, Itti, 2005; Podladchikova et al., 2009; Priviterra, Stark, 2005; Rao et al., 1997–2008; Rybak et al., 1998–2005; Samarin et al., 2015; Saykol et al., 2004; Simion et al., 2001; Wolfe, 1997–2005; Trappenberg et al., 2001; Brockmann, Geisel, 2000). Подчеркивается (Nuthmann et al., 2010; Walther, Koch, 2007), что создание реалистичной модели зрительного внимания позволит анализировать вклад факторов различного типа и механизмов разного уровня при формировании траектории осмотра и формулировать предположения, доступные экспериментальной проверке.
В настоящее время складывается понимание необходимости пересмотра подходов к моделированию управления глазными движениями (Tatler et al., 2011). В частности, большинство известных моделей формирования траекторий осмотра изображений, вслед за работой Koch, Ullman (1985), основано на обработке первичных признаков изображений, получении карт выделенности (saliency maps) и анализе пространственного распределения точек фиксации взгляда при осмотре изображений человеком. Имеются лишь единичные работы, в которых рассматриваются возможные подходы к моделированию длительности фиксаций (Nuthmann et al., 2010; Sutcliffe, Namoune, 2008) и когнитивных механизмов (Judd et al., 2009; Wang et al., 2011), основанные на эвристических алгоритмах.
В свою очередь для разработки реалистических моделей осмотра изображений необходимо получение детальных количественных оценок вклада различных факторов в экспериментальные исследования. На получение такого рода оценок и направлены наши психофизические исследования. Результаты этих исследований, полученные в последние годы с помощью разработанных специальных методов проведения эксперимента и анализа данных, представлены в соответствующих разделах монографии.
1. Эволюция представлений о механизмах зрительного внимания (обзор литературы)
1.1. Известные классификации механизмов и типов зрительного внимания
Необходимым условием нормального функционирования зрительного восприятия у человека являются движения глаз (Ярбус, 1965; Buswell, 1935; Stratton, 1906). При осмотре изображений и сцен человек выполняет от трех до четырех скачков взгляда, или саккад, в секунду. В основном, зрительное восприятие происходит в промежутках между саккадами (Ярбус, 1965; Барабанщиков, Белопольский, 2008; Underwood et al., 2008). Однако взгляд человека не остается полностью стабильным: даже во время фиксации совершаются микродвижения – тремор, дрейф, микросаккады, вергентные движения (Martinez-Conde, Macknik, 2008, 2015). В интервалах между двумя скачками взгляд смещается медленно, и зрительное восприятие происходит именно в это время, также называемое фиксацией взгляда. Во время фиксации человек четко видит не все зрительное поле, а только небольшой участок диаметром от 1,5–2 (область фовеа) до 6–8 (область макулы) угловых градусов (Ярбус, 1965; Шахнович, 1974; Velichkovsky et al., 2000). Выбор участка, который будет осматриваться в ближайшее время, происходит во время предыдущей фиксации взгляда и зависит от того, куда направлено внимание человека. Таким образом, наблюдая за характеристиками и положением точек фиксации и скачков можно изучать внешние проявления функционирования системы зрительного внимания человека.
Зрительное внимание – один из самых неуловимых психических процессов. Оно не имеет собственного продукта, но всегда сопровождает мышление, восприятие, запоминание и другие когнитивные процессы (Rayner, 1978). Существует множество определений и подходов к изучению внимания, которые объясняют некоторые закономерности его функционирования. Рассмотрим основные подходы к изучению механизмов, определяющих зрительное внимание.
1.1.1. Представление о нисходящих (top-down) и восходящих (bottom-up) механизмах зрительного внимания
Несмотря на большое количество исследований, посвященных осмотру сложных зрительных сцен и изображений, наиболее важные результаты, касающиеся механизмов работы зрительного внимания, были получены при использовании простых зрительных стимулов (Treisman, Gelade., 1980; Henderson, 2003; Awh et al., 2012).
Еще Вильям Джемс (1890) ввел различие двух форм внимания – «пассивного» и «активного». В то время, как в качестве методического подхода при изучения психической деятельности применялся интроспективный подход, основным критерием для различия этих форм внимания оказалось наличие цели или волевого решения. «Пассивное» внимание означало, что человек не выбирает, что осматривать, а его взгляд как бы «притягивается» объектами или свойствами поля зрения к той или иной области зрительного пространства. «Активное» внимание при этом направлялось к тем объектам, которые могли способствовать достижению осознаваемой конкретной цели, стоящей перед человеком. В дальнейшем, после исследований, проведенных Найссером, Ярбусом и многими другими учеными сформировался подход к пониманию зрительного восприятия как процесса, в норме всегда сопровождающегося активностью разной степени осознанности (Найссер, 1981).
Движения глаз, головы и тела происходят как при целенаправленном поиске зрительной информации, так и при случайном привлечении внимания человека к элементам зрительной сцены. Кроме того, при восприятии человек отчасти пытается «предвосхитить» события, и этот процесс происходит непрерывно, все время дополняется новой информацией, поступающей через сенсорные системы. Найссер называл такой процесс «перцептивным циклом», представляя его модель в виде взаимосвязанных элементов – «объект», модифицирует «схему», которая направляет «исследование», которое в свою очередь отвечает за выбор объекта (Найссер, 1981). При этом Найссер считал, что внимание является следствием специфической организации функционирования комплекса структур мозга, отвечающих за восприятие стимулов. Исходя из того, что нет никаких специфических систем, отвечающих за селекцию признаков, была предложена гипотеза, согласно которой трудности при выполнении двух или более видов деятельности могут быть преодолены путем упражнения.
Вывод был сделан в пользу того, что селективное внимание работает с помощью механизма преднастройки – например, при оценке кинетической информации строятся предположения о будущей позиции искомого объекта. Влияние преднастройки может ослабить стимуляция, вызывающая ориентировочные ответы: громкий звук, вспышка или движение в поле зрения, собственное имя, названное во время осмотра. Такие события прерывают поиск или восприятие информации, имеющей отношение к решаемой задаче, и оцениваются с высокой скоростью независимо от предыдущей задачи. Найссер предложил отказаться от понятия «предвнимания» поскольку оно создает ложное представление, будто внимание имеет отделенные друг от друга этапы, когда на самом деле это непрерывный процесс.
Преднастройку, которая объяснялась ранее через предвнимание, Найссер объясняет работой простых, врожденных механизмов, которые необходимы для запуска новых «перцептивных циклов». Согласно представлениям Найссера, эти процессы могут лежать за пределами основного потока деятельности, но при этом в разной степени контролируются и осознаются субъектом (Найссер, 1981). Предполагалась принципиальная возможность одновременного восприятия нерелевантного стимула с релевантным в том случае, если субъект достаточно практиковался.
В дальнейшем исследованию процессов, относящихся к селективному вниманию, было посвящено большое количество работ (Duncan, Humphreys, 1989; LaBerge, Brown, 1989; Wolfe et al., 1989). Авторы этих работ сходятся в том, что, когда человек ищет определенный объект в поле зрения, он использует знания о свойствах этого объекта для направления внимания; в этом случае контроль внимания имеет большой нисходящий компонент (top-down в англоязычных работах). В случае, если наблюдатель ищет необычный элемент в поле зрения, но не знает, чем именно он может выделяться, можно говорить о преобладающей роли восходящего (bottom-up) компонента. В работах, вышедших в 80–90 годах XX в., авторы уже не говорят об автономности восходящих и нисходящих компонентов внимания.
Treisman, Gelade (1980) предложили гипотезу, описывающую возможные механизмы функционирования нисходящей системы управления вниманием. Согласно этой гипотезе, зрительная система содержит всю информацию о свойствах поля зрения как функционально разграниченные карты. Например, существует карта, указывающая на расположение вертикальных перепадов яркости, карта смещения элементов вправо, карта, содержащая признаки зеленого цвета. LaBerge and Brown (1989) предположили, что если наблюдатель знает об уникальных свойствах искомого объекта, то он может использовать подходящую карту из этого набора для направления внимания. Таким образом, если целевой и отвлекающие стимулы достаточно различны, чтобы активировать разные наборы признаковых карт, то поиск таких целевых стимулов будет происходить одинаково быстро, вне зависимости от количества отвлекающих стимулов – в том случае, если испытуемый знает, каковы уникальные свойства целевого стимула.
В то же время другая группа исследователей, изучая восходящую систему управления вниманием, предложила гипотезу о важности локального торможения связей внутри карты признаков, которое определяет заметность цели и ее последующие отношения с фокусом внимания (Itti, Koch, 2000). Похожие идеи были предложены Treisman (1988) и Huang, Pashler (2005). Когда многие нецелевые стимулы имеют сходные признаки, активность, которую они генерируют в соответствующей признаковой карте, подавляется из-за взаимного торможения. Такое торможение не может проявиться в отношении активности, генерируемой уникальным свойством целевого объекта, поскольку он не является одним из сети элементов, взаимно тормозящих друг друга. Активность во всех позициях стимулов затем суммируется, и внимание направляется к местоположению с наибольшей активностью.
Альтернативный механизм, объясняющий работу восходящих процессов управления вниманием, был предложен Sagi et al. (1986). Согласно утверждению этих авторов, механизмы, которые сравнивают признаки соседних элементов, затем направляют внимание к положению изменения признаков. Поскольку оба механизма восходящего управления вниманием основаны на обработке локальных признаков, они оба работают наиболее хорошо, когда расстояние между всеми стимулами минимальное. В тех случае, когда внимание должно быть направлено на неизвестный целевой стимул, время поиска должно зависеть от расстояния между стимулами.
Результаты, полученные в рассмотренных выше работах, позволили сделать ряд предположений. В частности, в задачах, требующих фокального внимания, в том случае, если испытуемый не знает, какими уникальными свойствами будет обладать целевой стимул, то время поиска такого стимула будет сокращаться с увеличением количества отвлекающих стимулов; напротив, если уникальное свойство целевого объекта известно, то время поиска не должно зависеть от количества отвлекающих стимулов. В задачах, требующих пространственного, или распределенного внимания, количество отвлекающих стимулов не влияет на скорость поиска, независимо от того, известны ли свойства целевого стимула; кроме того, расстояние между элементами может влиять на время поиска.
При проверке этих предположений необходимо учитывать, что большинство данных, касающихся работы нисходящих и восходящих процессов управления вниманием, было получено в экспериментах с абстрактными и примитивными стимулами, которые мало походили на естественные сцены, воспринимаемые человеком в обычных условиях. Эти результаты показали наличие динамики взаимодействия восходящих и нисходящих процессов. В ряде работ было обнаружено, что эти системы функционируют одновременно (Egeth, Yantis, 1997; Itti, Koch, 2001; Corbetta et al., 2008), в то время как в других обнаружено различие во времени активации обоих механизмов, по меньшей мере в коротких временных периодах: сразу после появления новых стимулов восходящий контроль доминирует до той поры, пока нисходящий контроль постепенно не станет более активным (Stigchel et al., 2009; Hickey et al., 2010). Есть также данные о том, что сразу же после появления стимулов влияние нисходящего контроля становится доминирующим (Einhäuser et al., 2008).
Backer, Mertsching (2003) в своей концептуальной модели рассматривают возможный двухступенчатый выбор фокуса внимания. Авторы разделили процесс селекции признаков на следующие этапы: сначала с учетом всей доступной информации составляются признаковые карты, и на их основе выбирается небольшое количество отдельных объектов; затем собирается информация об этих объектах; на второй стадии из этих объектов выбирается один, к которому и направляется фокус внимания. На первой стадии используется уже описанный выше подход Treisman (1998) к теории интеграции признаков, а также направленный поиск, схожий с тем, который описан в работах Wolfe (2006).