В последнее время было создано немало чистой воды произведений искусства в формате визуализации, и некоторые из них попали на выставки в MoMA и другие многочисленные художественные экспозиции во всем мире. Но бизнес-лидеры все еще спрашивают, а применима ли визуализация данных на практике?
Как ученый-резидент исследовательской лаборатории Нью-Йорк Таймс я сотрудничаю с одной из самых продвинутых в области цифровых исследований и разработки команд в мире. Вместе мы стараемся выяснить, каким образом можно получить применимые на практике инсайты, используя большие данные. Насколько большие? Массивные: мы документируем каждый твит и ретвит, кликаем по каждой сокращенной ссылке из Twitter и Facebook, которая ссылается на материалы Нью-Йорк Таймс, а затем объединяем эту информацию с историей поведения пользователей, пришедших по этим ссылкам на страницы Таймс. Этот проект — родственник широко известного Cascade, Cascade 2.0.
Вышеупосянутые данные нужны нам для того, чтобы понять и предсказать, в каком случае завязавшееся в сети обсуждение выльется в приток посещений на сайт Таймс, а когда этого не произойдет. Нам важно знать, каким образом распространение информации из уст в уста может привести на сайт читателей, подписчиков и доход; как Таймс может улучшить свое участие в онлайн дискуссиях, чтобы стимулировать вовлеченность читателей; как мы можем идентифицировать по-настоящему влиятельных пользователей или лидеров мнений, которые мотивируют пользователей взаимодействовать с контентом издания и как Таймс может вовлечь этих влиятельных пользователей, удовлетворив при этом их собственные потребности и интересы. Проделав эту работу, мы можем превратить тот статистический анализ, который вы увидите ниже, в изящные, художественные потоки данных в реальном времени.
Обработка потоков, архивирование сессий, хранение и управление информацией сами по себе — гераклов труд. Но гораздо более сложная задача состоит в преобразовании красивых больших данных в применимое на практике, значимое и способное помочь в принятии решений знание. Мы обнаружили, что визуализация — один из самых важных путеводителей в этом поиске знаний, необходимых для понимания того, где нам стоит искать и что именно мы должны найти в нашем статистическом анализе.
Например, вот три визуализации, которые помогли нам получить определенное знание. В виде линий и точек на них отображены каскады твитов и ретвитов, связанных с тремя различными публикациями в Таймс. Эти данные мы объединили с информацией об уровне кликабельности каждой статьи, она синхронизирована по времени с твитами и выглядит как диаграмма черного цвета под каждым каскадом. Каждый график рассказывает новую историю о взаимодействии с контентом.
Вокруг первой статьи возникло большое обсуждение в Twitter и несколько больших скачков трафика. Но, похоже, что уровень кликабельности не зависел от обсуждений в Twitter: самый большой скачек трафика, выделенный на графике голубым цветом, произошел, когда наблюдалась очень низкая активность в микроблогах. В этом случае, вероятно, вовсе не дискуссия в Twitter, а заметная ссылка на нашу публикацию в стороннем блоге или новостной статье, привлекла большое количество трафика.
По второй статье обсуждение в Twitter было более интенсивным. Мы отследили большое количество твитов и ретвитов статьи, но все же, сама она получила совсем мало трафика. Люди говорят о статье в Twitter, но не читают ее. Иногда происходит так: основной посыл статьи разжигает дискуссию или спор, но они возникают и в том случае, если контент статьи не так важен, например, когда своевременное сообщение содержит небольшое исследование или редакционный контент, или когда разговор или спор уходят от темы статьи и таким образом начинает развиваться независимый контент.
В третьей и последней статье оживленное обсуждение в Twitter шагает в ногу с серьезным вовлечением читателей. Поскольку люди твитят и ретвитят статью, их последователи переходят по ссылке и непосредственно взаимодействуют с контентом. Тесная взаимосвязь между обсуждением онлайн и трафиком сайта наиболее резко выражена, когда твиты трех влиятельных пользователей, отмеченных на графике, вызывают два серьезных всплеска трафика на протяжении жизненного цикла вовлечения статьи.
Только благодаря этим трем визуализациям данных мы получили понимание важных нюансов так называемой вирусности. Отношение между передачей информации из уст в уста и уровнем вовлеченности вовсе не так просто, как сказать «стать вирусным». С различными типами контента проявляются различные модели.
И все-таки, визуальное отображение не может рассказать историю целиком. На графике мы видим некоторые четкие корреляции, но сложные условные зависимости, временная и сетевая автокорреляция вынуждают создавать более сложные причинно-следственные статистические модели, которые способны генерировать настоящие, достоверные инсайты о влиянии word-of-mouth или сарафанного радио.
Вот в чем действительно помогают такие визуализации — это понимание, где искать и какие вопросы задавать данным. Таким образом, мы не сможем создать более сложные модели, до тех пор, пока не найдем наиболее подходящее пространство для их создания.
Проект Каскад 2.0 будет основан на сложной аналитике и будет требовать визуализации данных. Постановка важных вопросов и избегание ненужных — являются жизненно важными для дальнейшего эффективного и разумного движения вперед в работе с большими данными. Без визуализации нам гораздо сложнее приблизиться к тем вопросам, ответы на которые способны нас чему-то научить. Именно поэтому визуализация данных должна быть одним из самых важных инструментов для ученых, работающих с данными. Это наш фонарь в темном и дремучем лесу.
Автор статьи:
Синан Арал, доцент кафедры информационных технологий и маркетинга в школе менеджмента MIT Sloan и ученый-резидент научно-исследовательской лаборатории Нью-Йорк Таймс.
Автор визуализаций:
Николаос Хансельманн — творческий технолог научно-исследовательской лаборатории Нью-Йорк.
Оригинал статьи: To Go from Big Data to Big Insight, Start with a Visual