Инфографика опытным взглядом. Алексей Новичков, Константин Варик.
В последнее время было создано немало чистой воды произведений искусства в формате визуализации, и некоторые из них попали на выставки в MoMA и другие многочисленные художественные экспозиции во всем мире. Но бизнес-лидеры все еще спрашивают, а применима ли визуализация данных на практике?
Как ученый-резидент исследовательской лаборатории Нью-Йорк Таймс я сотрудничаю с одной из самых продвинутых в области цифровых исследований и разработки команд в мире. Вместе мы стараемся выяснить, каким образом можно получить применимые на практике инсайты, используя большие данные. Насколько большие? Массивные: мы документируем каждый твит и ретвит, кликаем по каждой сокращенной ссылке из Twitter и Facebook, которая ссылается на материалы Нью-Йорк Таймс, а затем объединяем эту информацию с историей поведения пользователей, пришедших по этим ссылкам на страницы Таймс. Этот проект — родственник широко известного Cascade, Cascade 2.0.
Вышеупосянутые данные нужны нам для того, чтобы понять и предсказать, в каком случае завязавшееся в сети обсуждение выльется в приток посещений на сайт Таймс, а когда этого не произойдет. Нам важно знать, каким образом распространение информации из уст в уста может привести на сайт читателей, подписчиков и доход; как Таймс может улучшить свое участие в онлайн дискуссиях, чтобы стимулировать вовлеченность читателей; как мы можем идентифицировать по-настоящему влиятельных пользователей или лидеров мнений, которые мотивируют пользователей взаимодействовать с контентом издания и как Таймс может вовлечь этих влиятельных пользователей, удовлетворив при этом их собственные потребности и интересы. Проделав эту работу, мы можем превратить тот статистический анализ, который вы увидите ниже, в изящные, художественные потоки данных в реальном времени.
Обработка потоков, архивирование сессий, хранение и управление информацией сами по себе — гераклов труд. Но гораздо более сложная задача состоит в преобразовании красивых больших данных в применимое на практике, значимое и способное помочь в принятии решений знание. Мы обнаружили, что визуализация — один из самых важных путеводителей в этом поиске знаний, необходимых для понимания того, где нам стоит искать и что именно мы должны найти в нашем статистическом анализе.
Например, вот три визуализации, которые помогли нам получить определенное знание. В виде линий и точек на них отображены каскады твитов и ретвитов, связанных с тремя различными публикациями в Таймс. Эти данные мы объединили с информацией об уровне кликабельности каждой статьи, она синхронизирована по времени с твитами и выглядит как диаграмма черного цвета под каждым каскадом. Каждый график рассказывает новую историю о взаимодействии с контентом.
Вокруг первой статьи возникло большое обсуждение в Twitter и несколько больших скачков трафика. Но, похоже, что уровень кликабельности не зависел от обсуждений в Twitter: самый большой скачек трафика, выделенный на графике голубым цветом, произошел, когда наблюдалась очень низкая активность в микроблогах. В этом случае, вероятно, вовсе не дискуссия в Twitter, а заметная ссылка на нашу публикацию в стороннем блоге или новостной статье, привлекла большое количество трафика.