За последние несколько столетий визуализация данных развилась настолько, что мы ежедневно пользуемся ей во всех сферах нашей жизни. Многие считают ее эффективным инструментом как сторителлинга, так и аналитики, способным преодолеть большинство языковых и образовательных барьеров. Но почему? Каким образом абстрактные формы и цвета порой способны передавать большие объемы данных эффективнее, чем таблицы с числами или абзацы текста? Понимание механизмов работы человеческого восприятия не только ответит на этот вопрос, но также обеспечит вас четким руководством и инструментами, позволяющими улучшить дизайн ваших собственных визуализаций.
Для того чтобы понять, как человеку удается интерпретировать визуализацию данных настолько эффективно, стоит начать с исследования основ восприятия и обработки информации, в частности визуальной информации.
Система 1 против Системы 2
Даниэль Канеман, в книге «Мышление, быстрое и медленное» — Thinking, Fast and Slow, вводит термины Система 1 и Система 2, чтобы дифференцировать обработку информации, которая происходит, соответственно, подсознательно и сознательно. Первый вариант подразумевает неуправляемые функции, которые не требуют от человека никаких усилий и работают непрерывно, в то время как последний ссылается на функции, которыми управляют, которые требуют участия и усилия с нашей стороны.
Чтобы лучше понять отличия между Системой 1 и Системой 2, рассмотрим рисунок 1. На фотографии слева мы сразу узнаем злого человека и, вероятно, ассоциируем изображенную сцену с громким криком и агрессивным поведением. Это чрезвычайно сложное истолкование простых пикселей происходит почти мгновенно, не требует никакого усилия и проходит совершенно естественно. Сравните этот процесс с умножением справа. Мы немедленно понимаем, о чем нас спрашивают, осознаем, что мы в состоянии решить задачку, но большинство из нас не станет делать вычисления в уме просто потому, что для этого потребуется сознательное усилие. Первоначальные реакции в обоих случаях – это чистая Система 1, в то время как вычисления в уме — пример Системы 2.
Рисунок 1. Задачи восприятия, которые первоначально инициировали Систему 1 и Систему 2, соответственно.
Эти отдельные системы развились достаточно, чтобы наши головы не засорялись примитивными задачами. Система 2 может сосредоточиться на более сложных осмыслениях и вычислениях, пока Система 1 обеспечивает ее необходимой информацией для таких задач. В визуализации данных мы должны стремиться закодировать как можно больше информации таким образом, чтобы она правильно воспринималась нашей Системой 1, которая затем освобождает Систему 2 для более вовлеченного понимания и анализа данных.
Почему визуализация?
Теперь, когда мы получили общее, абстрактное представление о том, как человек обрабатывает информацию, мы можем обратить внимание на то, как нуждающаяся в обработке информация проникает в наше сознание на первом этапе. Существенная часть человеческого мозга предназначена для обработки визуальной информации, благодаря этому по резкости восприятия наше зрение намного превосходит другие органы чувств. Как это видно из рисунка 2, в любой момент времени, как на подсознательном так и на сознательном уровне, через зрение мы получаем гораздо большее количество информации, чем через любой другой канал восприятия окружающей действительности. Фактически, примерно 70% чувствительных рецепторов нашего тела имеют отношение к зрению.
Рисунок 2. Сенсорная пропускная способность сознания и подсознания. Тор Норретрандерс, «Иллюзия пользователя: преуменьшение важности сознания» — The User Illusion: Cutting Consciousness Down to Size.
Из рисунка 2 также становится понятно, что объем визуальной информации, как и любой другой сенсорной информации, значительно сокращается между нашим подсознанием и сознанием. Это происходит не потому, что информация отбрасывается, скорее она дистиллируется нашей Системой 1 так, чтобы Система 2 получила меньший объем более насыщенной информации, релевантной той задаче, которой мы заняты в настоящий момент. Именно благодаря сочетанию пропускной способности и вычислительной мощности зрения, оно является наиболее подходящим для осмысления наборов данных, чем другие доступные нам способы восприятия.
Как мы видим
Чтобы максимизировать эффективность дистилляции необработанной визуальной информации, которой занимается Система 1, мы должны погрузиться в подробности визуальной обработки данных, представленной на рисунке 3. Свет, попадая в наши глаза стимулирует сетчатку, а это провоцирует пересылку импульсов с массовым параллелизмом в графическую память. Графическая память служит очень краткосрочным буфером и процессором, который убеждается, что мы всегда поддерживаем четкую картину мира. Кроме этого графическая память обогащает проходящую через нее информацию посредством восприятия основных визуальных атрибутов, таких как формы, очертания, относительные размеры и участки цвета. Их называют предвнимательными атрибутами.
Базовая визуальная информация из графической памяти передается визуальной оперативной памяти — другой форме краткосрочного хранилища — сильно лимитированная емкость которого дает начало известному ограничению в «семь, плюс или минус два» предмета, которые мы можем запомнить в конкретный момент времени. Чтобы мы могли распознавать объекты и сцены, описываемый до сих пор канал («восходящая обработка»), сходится в визуальной оперативной памяти с каналом, приводящим элементы и ассоциации, полученные из долговременной памяти («нисходящая обработка»).
Рисунок 3. Наше визуальное восприятие: от момента, когда свет попадает в наши глаза, до распознавания и понимания.
Предвнимательные атрибуты
В то время, как действия визуальной оперативной памяти и долговременной памяти происходят в значительной степени в Системе 2, быстрая, автоматическая и восходящая обработка с массовым параллелизмом – это целиком Система 1. Поэтому, чтобы максимизировать мощность и эффективность визуализации, мы должны стремиться закодировать как можно больше информации в предвнимательных деталях, воспринимаемых во время восходящей обработки.
Жак Бертен изложил основные правила интуитивного, точного и универсального кодирования данных в виде абстрактных форм в своей книге 1967 года, «Графическая семиотика» — Semiologie Graphique. Последующее работы разных авторов, основанные на этом материале, усовершенствовали наше понимание этих правил и принципов ассоциативного восприятия, а также объяснили, почему они имеют непосредственное отношение к визуализации данных.
Чтобы объяснить, как лучше всего визуально закодировать предвнимательную информацию, мы отдельно исследуем две фундаментальные концепции, на которых базируются данные: значения и взаимосвязи между ними.
Восприятие значений
Рисунок 4 показывает некоторые предвнимательные визуальные атрибуты, которые могут использоваться, чтобы закодировать данные, как их описывает Колин Уэйр в книге «Визуализация информации: восприятие дизайна» — Information Visualization: Perception for Design. Стивен Фью утверждает, что только некоторые из них — атрибуты, которые мы естественно и универсально интерпретируем как количественные. Из них длина и двухмерное расположение воспринимаются более точно, чем другие атрибуты. С длиной, например, мы воспринимаем недвусмысленную величину, которая хорошо соотносится с объективным измерением: крупный — «больше», а мелкий — «меньше». В отличие от длины, о форме мы не можем сказать, значит ли круг больше или меньше квадрата без изображения дополнительной шкалы с использованием условных обозначений.
Рисунок 4. Некоторые предвнимательные визуальные атрибуты и точность их количественного восприятия
Мы можем сравнивать значения, используя количественно воспринятые предвнимательные атрибуты, но не можем сделать выводы об их фактических значениях. Например, мы можем легко понять, что одна строка длиннее другой, и таким образом она представляет большую важность, но для того, чтобы воспринять определенное численное значение, передаваемое строкой (например 100, а не 200), мы должны добавить подробную шкалу с числами или текстом. К сожалению, числа и текст не воспринимаются предвнимательно, потому что они являются изученными символами, требующими вспоминания. В результате сравнение предвнимательных визуальных атрибутов подпадает под Систему 1, но декодирование зашифрованных значений требует несущественного использования Системы 2.
Восприятие взаимосвязей
Теперь давайте исследуем восприятие взаимосвязей в данных, которые обычно лучше всего представлены в структуре и компоновке визуализаций. На рисунке 4 мы видим, что предвнимательные атрибуты, которые не воспринимаются количественно, эффективны при дифференциации, то есть группировке информации. Однако, мы не станем сосредотачиваться на отдельных формах, которые мы можем использовать для группировки, вместо этого мы рассмотрим модели, предвнимательное восприятие которых зафиксировано в принципах восприятия гештальта (названы в честь школы Гештальт психологии, в рамках которой они были изначально изучены).
Некоторые из этих принципов показаны на рисунке 5 — они объясняют, каким образом человек воспринимает группы. Например, серии данных в столбиковых, линейных и точечных диаграммах обычно дифференцируются по цвету или форме, то есть по гештальт-принципу схожести. К сожалению, настоящее исследование часто недооцененных тонкости и силы принципов гештальта выходит далеко за пределы этой статьи.
Рисунок 5. Принципы восприятия гештальта, касающиеся группировки
Помимо группировки, еще одна чрезвычайно важная взаимосвязь в визуализации данных — это упорядочение. Вопросы «лучшего», «худшего» и более общего ранжирования информации распространены при рассмотрении наборов данных, и простое применение адекватного упорядочивания в визуализации гарантирует непосредственность и легкость понимания. Творческий подход может усилить эффект упорядочивания даже в ситуациях, когда это не представляется возможным, как в диаграмме, показанной на рисунке 6, где использование принципа смежности гештальта приводит к отличному эффекту.
Рисунок 6. Визуализация Анны Фэрфилд, Нью-Йорк Таймс
И наконец … начало!
Понимание представленных здесь механизмов визуализации данных — бесценно, когда дело доходит до обстоятельного дизайна новой визуализации. Однако, как с любым ориентированным на пользователя дизайн проектом, всегда стоит начинать с понимания его предполагаемых потребителей, целей и контекста прежде, чем браться за тонкости, описанные в этой статье.
В общем можно сказать, что задача любой визуализации находится где-то между чистой презентацией, то есть рассказыванием известной истории с помощью набора данных, например, статические диаграммы в газетах, и настоящим исследованием, то есть анализом и изучением еще непонятого набора данных, например, интерактивные аналитические диаграммы на финансовом веб-сайте. Исследование, проведенное Уильямом Кливлендом и Робертом Макгиллом, может подсказать, как лучше всего представить данные в зависимости от того, где на отрезке между презентацией и аналитикой мы хотим оказаться. Кливленд и Макгилл оценили относительную эффективность основных визуальных кодировок данных, используемых для сравнения. Полученные результаты представлены на шкале точности сравнения в зависимости от использованных методов, эта шкала изображена на рисунке 6.
Рисунок 7. Относительная точность сравнения в зависимости от использованных визуальных атрибутов, по Кливленду и Макгиллу
Теперь мы знаем, что нет ничего удивительного в том, что мы регулярно видим столбиковые, линейные и точечные диаграммы: учитывая, что все три используют визуальную форму, которая обеспечивает наиболее точное сравнение. К сожалению, многие полагают, что эти типы диаграмм «скучные», и поэтому склоняются к визуально более привлекательным, например, круговым диаграммам. Шкала Кливленда и Макгилла показывает, что данные, закодированные в круговых диаграммах, углах и, как следствие, в областях, не обеспечивают точного сравнения.
Как эти знания могут помочь нам в контексте выбора между презентацией и исследованием? Чем более аналитической и исследовательской должна быть ваша визуализация, тем выше вам стоит подниматься по шкале Кливленда и Макгилла, так как точность сравнения будет для вас наиболее приоритетной. Но это не означает, что презентационные визуализации никогда не должны использовать более точные формы визуальных кодировок. Скорее в этих ситуациях нам стоит постараться прийти к компромиссу между точностью восприятия и визуальным интересом, требуемым для определенной истории, которую мы пытаемся рассказать, и ее целевой аудитории.
Заключение
Полное понимание механизмов, лежащих в основе визуализации данных, — мощный инструмент осмысленного обогащения дизайна визуализации в любом контексте, будь то простая статическая столбиковая диаграмма или что-то значительно более сложное, многомерное и интерактивное.
Эта статья покрывает лишь некоторые из основных принципов науки, лежащих в основе визуализации данных. Существует множество более тонких аспектов когнитивной психологии и восприятия, которые имеют отношение к визуализации данных, понимание этих аспектов поможет развить ваши способности анализировать данные и рассказывать истории, основанные на данных, используя визуализацию.
Автор: Грэм Оддс
Оригинал статьи: The science behind data visualisation