Я бы хотел внедрить в сознание неопределенность.
Снизить градус уверенности в мнениях и идеологиях
Этим летом Альберто Каиро запустил лекционный тур, который назвал Visual Trumpery. И он не про Трампа, как вы подумали, а про то, почему нами так легко манипулировать.
Само слово trumpery обозначает нечто привлекательное, но пуcтое. На русский переводится как показуха или мишура. Как ни печально, но такое часто встречается в дизайне и в курсирующих массах инфографики. Стоит облечь информацию в красивые картинки на компьютере или «серьезные» графики, и все уже думают, что это истина в последней инстанции. В своей лекции Альберто Каиро рассказывает, как выработать в себе привычку распознавать мишуру.
Журналисты упрощают информацию на графиках, потому что не умеют обращаться с данными. Люди не знают, как читать графики и не знакомы с теорией вероятностей, поэтому их легко ввести в заблуждение. Чаще всего мы верим в то, во что хотим верить, не проверяем источники информации, не задумываемся о градусе вероятности. Выходом из ситуации могут стать качественные комментарии с объяснениями, как читать график и как его интерпретировать.
Есть и более творческий вариант — самой формой графика показать, что в данные заложены разные уровни вероятности. Хороший пример — проект Моны Шалаби.
Люди адаптируют данные, чтобы они подтверждали их теорию и можно было убедить других в своей правоте. Это старый прием в новой оболочке. «Все», «лучший», «ученые доказали», нагромождение фактов без особого смысла так, чтобы никто ничего не понял, и оформление этого всего в нарядную оболочку. Про это мы публиковали отличную статью Максима Ильяхова.
Ложь — это не только искажение данных, но и их утаивание. Утаивание может быть умышленное или в связи с недостатком данных. Помните историю про репрессии в Советском Союзе?
Альберто Каиро настоятельно рекомендует проверять источники и информацию не только, когда вы сами что-то создаете, но и когда вы ее репостите. Прежде чем что-либо опубликовать, задумайтесь о своих предустановках — быть правдивым важнее, чем быть победителем.
Свежее про Visual Trumpery смотрите по #visualTrumpery в Twitter, слушайте в подкасте на Data Story и читайте в конспекте лекции Maria Crosas Batista. А ниже книги, рекомендованные Альберто Каиро.
Below some books to tackle the lack of knowledge on statistics in Journalism via @albertocairo #visualTrumpery pic.twitter.com/WgZfvLGESR
— Maria Crosas (@mcrosasb) June 9, 2017
Prescripció lectora a la xerrada #visualtrumpery avui a @FBiD_UB pic.twitter.com/3Ke7dCqUsP
— Cristóbal Urbano (@Xbal_Urbano) June 9, 2017
Сегодня компаниям приходится внедрять множество систем для автоматизации приложений, технологий хранения и анализа, чтобы не отставать от высокотехнологичной гонки, которая развернулась между бизнесом по всему миру.
Межмашинное обучение, искусственный интеллект, большие данные (Big Data) — сегодня все эти технологии уже активно используются крупными компаниями. Но сейчас в сфере интеллектуальных программ назревает новый прорыв — когнитивные системы. По подсчетам аналитиков IDC, к 2019 году объем мирового рынка когнитивных технологий превысит 31 миллиард долларов.
Когнитивные технологии представляют собой совокупность математических методов, алгоритмов и компьютерных технологий, которые позволяют создать умные машины. Одной из первых когнитивных систем в мире стал суперкомпьютер IBM Watson. Он представляет собой мощный инструмент для решения разнообразных вопросов. Например — распознавание естественного языка, динамическое обучение системы, построение и оценка гипотез. Когнитивная система умеет использовать для работы большие массивы глобальных неструктурированных данных, Big Data.
Сейчас таких систем появляется все больше, они расширяют возможности корпоративного программного обеспечения (ПО). По прогнозу международной группы «Делойт», уже в 2016 году более 80 из 100 крупнейших компаний мира по разработке программного обеспечения, скорее всего, будут встраивать в свои продукты когнитивные технологии, такие как самообучающиеся системы, обработка текстов на естественных языках или распознавание речи или объектов. Это на 25 процентов больше по сравнению с прошлым годом.
Почти 20 процентов мирового объема закупок когнитивных систем придется на долю банковской отрасли. В банках они применяются для выявления мошенничества, автоматизации анализа и ликвидации угроз, а также выработки рекомендаций. Второе и третье места по объему закупок занимают торговля, где когнитивные системы обеспечивают работу агентов автоматизированного обслуживания клиентов, и мерчандайзинг и здравоохранение, где они применяются в системах диагностики и лечения.
В последнее время одним из наиболее успешных подходов для решения отдельных задач является глубокое обучение, — отметил начальник отдела продуктизации аналитических решений компании «Техносерв» Георгий Шатиров. — В этом подходе используются глубокие нейронные сети различных типов (глубокие — с большим количеством слоев и сложными зависимостями, способные извлечь мельчайшие абстрактные признаки). Они дают возможность задействовать широкие классы алгоритмов в зависимости от данных, на которых они обучаются». Такие технологии могут применяться в медицине, например, для анализа изображений с УЗИ, МРТ, рентген-снимков (определение и выделение вероятных отклонений), анализа историй болезней и выдачи рекомендаций на их основе, создания умных протезов, управляемых через нейроинтерфейс (в том числе для восстановления моторных функций), для персонализированного лечения раковых опухолей.
Текст: Юлия Воронина для RG.ru
Евросоюз запустил новую версию портала открытых данных.
Размах доступа к данным впечатляет: транспорт, финансы, города, сельское хозяйсво, образование, здоровье, наука, — всего 433 800 наборов метаданных со всего континента. Данные собирают с открытых порталов во всей Европе.
Использовать данные может, кто угодно и для любых целей. На самом портале есть рекомендации о том, как с ними обращаться и какие навыки для этого нужны. Цель проекта — свободный доступ к данным, прозрачность и честная конкуренция.
В довесок к четырем инструментам, про которые мы уже писали, Knight Lab выпустил еще один бесплатный сервис — TwXplorer. Его задача — помочь журналистам и всем тем, кто работает с Big Data, находить и анализировать актуальные дискусии на Twitter.
По сравнению с поиском на самом сайте, в TwXplorer есть еще дополнительные функции, которые помогают эффективнее отследить текущие тренды и ответвления от темы.
С помощью TwXplorer можно:
— искать слова или фразы на 12 языках:
— отслеживать запросы, тэги и ссылки, имеющие отношение к вашему запросу:
— сохранять снэпшоты для дальнейшей работы
Для того, чтобы воспользоваться сервисом, нужно просто залогиниться прямо на сайте TwXplorer со своим Twitter аккаунтом.
Шэзна Нэсса — специалист по визуальному сторителлингу, член журналистского общества JFC в Стэнфордском университете, бывший заместитель главного редактора Associated Press — о понятии визуальная грамотность и средствах ее достижения.
«Важно не то на что вы смотрите, а то что вы видите» — Генри Дэвид Торо
В последние годы визуализация данных в журналистике востребована как никогда: к ней обращаются как для поиска и анализа данных в исследовательских целях, так и для того, чтобы представить информацию публике. Более десяти лет я провела в новостных редакциях: сначала делала интерактивную графику самостоятельно, а затем координировала и оптимизировала работу графических, интерактивных и мультимедийных команд. Новостные редакторы делали все возможное, чтобы наши работы были дерзкими и инновационными: создавали междисциплинарные команды, чтобы повысить наши творческие возможности; нанимали талантливых специалистов за пределами традиционной журналистики, с предыдущим опытом работы в информационных технологиях, статистике или искусстве. В результате такого подхода часть наших визуализаций стала склоняться в сторону все более специфической аудитории. И мы теряли читателей, потому что не принимали во внимание визуальную грамотность нашей аудитории.
Визуализация данных и журналистика
Когда-то слово «визуализация» описывало акт создания мысленного образа. Сегодня оно скорее означает графическое представление информации. Мы живем во все более и более визуальном мире, всматриваемся в экраны разных размеров, разрешение которых с каждой новой версией устройств постепенно увеличивается. Мы живем в мире с большим количеством доступных нам данных, чем когда бы то ни было. IBM утверждает, что 90% данных в мире были созданы за последние два года, и что ежедневно мы создаем 2.5 квинтильона байтов данных, способствуя развитию того, что некоторые называют новой нервной системой планеты. Объедините большие объемы данных с тем фактом, что человеческий мозг быстрее и проще воспринимает изображения, чем текст — вы получите расцветающий мир визуализации данных. Для нас это наиболее действенный способ обнаружения и понимания скрытых образов, взаимосвязей. Текст, фотографии и видео — это журналистские форматы, которые информируют общественность и дают ей возможность принимать решения. Визуализация данных быстро присоединяется к их разряду, как не менее важный формат.
Джули Стил из О’Рейлли выделяет три категории визуализации:
Инфографика — использует небольшой набор данных и много ручной работы над дизайном, например, вот эта работа National Geographic.
Визуализация данных — использует большие наборы данных с меньшим количеством ручной работы над дизайном; базируется на алгоритмах. Например, интерактивная работа New York Times.
Визуальное искусство — однонаправленное кодирование. Красивые, но трудно поддающееся расшифровке визуализации, например, вычислительное искусство Кунала Ананда.
В чем проблема?
Визуализация данных в журналистике часто подвержена влиянию компьютерных наук и математики. В результате, чтобы представить данные в журналистских работах, используются причудливые формы, очертания и взаимосвязи. Этот эффект усиливается еще и быстрым размножением инструментов, которые делают создание любых видов визуализации проще, таких как Many Eyes, Tableau, и общедоступные библиотеки, в том числе D3.
В итоге многие работы привлекают только изощренных пользователей, но не позволяют вникнуть в суть вопроса непосвященным читателям, тем самым причиняя вред цели визуализации – информировать общественность. Именно поэтому настолько важно осознать и понять проблему визуальной грамотности в контексте визуализации.
Новая «визуальная грамматика» журналистики
Приведу в пример три работы, которые экспериментируют со способами представления интерактивной журналистики. Они выглядят внушительно, но и их интерпретация может стать для многих непростой задачей.
Права гомосексуалистов в США, штат за штатом
Визуализация The Guardian о правах гомосексуалистов в Соединенных Штатах наделала много шума в журналистских кругах и в мире визуализации данных из-за ее экспериментального формата. В разговорах и спорах особо выделяют напряженность между новизной и более привычными форматами. Графика представляет страну в виде круга, который позволяет вывести на экран больше информации, чем в формате карты. Формы и цвета привлекательны, но они же — дополнительный уровень для читателя, требующий приложить больше усилий, чтобы добраться до сути.
За последние несколько лет довольно сильно изменилось отношение к понятию «персональные данные». Сейчас каждый из нас знает, каким образом может быть получен доступ к его личной информации, как она может быть использована и даже монетизирована. Нам известно и о тех опасностях, которые эта информация представляет в том случае, еcли ее владелец не осознает своей собственной открытости: простая привычка чекиниться в определенных местах может повлечь за собой не только месяцы безобидной таргетированной рекламы, но и активизацию гораздо более страшных механизмов, которыми пользуется Агентство Национальной Безопасности США. Как для персональных данных, так и для информации, которая находится в открытом доступе, наступили непростые времена, но это — лишь начало рассвета инновационных способов работы с данными.
Среди тех, кто всерьез озабочен этими вопросами — информационный дизайнер Николас Фелтон. На протяжении своей переменчивой карьеры — и как один из дизайнеров Хроники Facebook, и в своем собственном приложении по сбору персональных данных Daytum, и в постоянно меняющихся личных годовых отчетах — Фелтон неизменно переводит данные в концептуальную область и изобретает новые способы визуализации математических данных.
Власти Бостона запустили приложение Street Bump, которое само собирает информацию о выбоинах на дороге. Достаточно установить его на смартфон и взять с собой в машину, и Street Bump с помощью встроенного акселерометра сам будет находить ямы и сообщать о них городской администрации (опираясь на данные GPS). Все здорово. Только практика показала, что значительно больше сообщений поступает из обеспеченных районов. Там больше людей в состоянии купить личный автомобиль и смартфон, их жители, как правило, лучше информированы о возможности помочь таким образом городским властям и чаще видят в этом смысл. Такого рода перекосы в данных приводят к тому, что дороги лучше чинят в богатых районах. А это, в свою очередь, вызывает у публики недоверие к подобным инициативам.
У многих сталкивающихся с новыми алгоритмами сбора и анализа данных возникает надежда, что наконец-то мы будем получать реальную информацию, не подверженную тлетворному влиянию человеческого фактора. Это вам не социологические опросы, где ленивые низкооплачиваемые сотрудники норовят сами заполнить анкеты за респондентов. За дело берутся неутомимые, объективные и беспристрастные компьютеры!
На деле и здесь методы сбора информации во многом определяют ее ценность. Помимо очевидных ошибок при постановке задачи и неверных математических моделей, возникают и менее явные сложности. Например, сам принцип сбора данных может подразумевать определенный уклон, как в случае с Street Bump.
Это всего лишь один из промахов, которые встречаются на тернистом пути работы с Big Data. Slon разобрал еще 7 интересных кейсов и выяснил, почему же проваливаются амбициозные проекты по анализу данных. Вот линк на статью целиком: ИНТЕРПРЕТИРУЙ ЭТО. КАК ИЗБЕЖАТЬ ОШИБОК BIG DATA. Рекомендуем.
Небольшая и срочная новость, интересная тем, кто занимается анализом данных, и Больших Данных. Издательство O’Reilly устраивает распродажу своих книг, которая закончится 6 февраля. 50% скидка!
Как говорит Тим О’Рейли, «Data scientist — самая «горячая» работа в Силиконовой долине!»
Вы уже имеете данные, у вас уже есть инструменты и теперь пора погрузиться во все детали науки изучения данных! Вы сможете научиться думать как data scientist, включая навык задавания правильных вопросов, применения правильных аналитических методов, и использование правильных способов оформления данных.
В оффере следующие книги:
Совсем недавно в горячо любимом нами издательстве «Манн, Иванов и Фербер» вышла книга «Визуализации в бизнесе» Нейтана Яу (Nathan Yau). Нейтан — ведущий блога flowingdata.com, статистик по образованию и один из самых известных людей в мире современной инфографики. Поэтому мы с особым интересом отнеслись к его книге.
Итак, у нас в руках увесистые 340 полноцветных страниц книги, в оригинале называющейся Visualize this! Открываем на произвольной странице, и… начинаем смущаться. Простые столбиковые графики, коды программирования, и отсутствие ярких иллюстраций к которым привык интернет… Та ли эта книжка?
Начинаем вчитываться, и всё встаёт на свои места. Нейтан с первых страниц книги делится своим собственным опытом в визуализации больших массивов статистических данных. Вся его карьера — это донесение смысла исходных данных через графику. Ключевая сложность его работы — большие объемы, из которых необходимо вычленять закономерности, и для этих задач вся книга построена на примерах применения языка программирования R (эр).
Дизайнер начинает недоумённо смотреть и думать, зачем ему это нужно? Оказывается, для того чтобы нарисовать инфографику, необходимо сначала найти и подготовить к визуализации данные. Дизайнеру дали несколько скучных цифр и попросили сделать «wow»? — книга даёт ему ответ, что делать в этом случае: откладывать в сторону планшет и начинать работать с первичными источниками данных.
Менеджер начинает смущаться, стоит ли ему тратить столько времени на программирование кодов визуализации, чтобы получить простой график, нарисованной в книге? Вполне обоснованно, казалось бы — если его основная работа состоит в создани презентаций в MS PowerPoint. Но если ему попадётся большой набор цифр, который тяжело проворачивается в MS Excel — то сразу становится понятно, что без этой книги не обойтись. Вспомните про тренды Big Data, и вы поймёте что я не шучу.
Так кому же нужна эта книга? Продолжить чтение →