Власти Бостона запустили приложение Street Bump, которое само собирает информацию о выбоинах на дороге. Достаточно установить его на смартфон и взять с собой в машину, и Street Bump с помощью встроенного акселерометра сам будет находить ямы и сообщать о них городской администрации (опираясь на данные GPS). Все здорово. Только практика показала, что значительно больше сообщений поступает из обеспеченных районов. Там больше людей в состоянии купить личный автомобиль и смартфон, их жители, как правило, лучше информированы о возможности помочь таким образом городским властям и чаще видят в этом смысл. Такого рода перекосы в данных приводят к тому, что дороги лучше чинят в богатых районах. А это, в свою очередь, вызывает у публики недоверие к подобным инициативам.
У многих сталкивающихся с новыми алгоритмами сбора и анализа данных возникает надежда, что наконец-то мы будем получать реальную информацию, не подверженную тлетворному влиянию человеческого фактора. Это вам не социологические опросы, где ленивые низкооплачиваемые сотрудники норовят сами заполнить анкеты за респондентов. За дело берутся неутомимые, объективные и беспристрастные компьютеры!
На деле и здесь методы сбора информации во многом определяют ее ценность. Помимо очевидных ошибок при постановке задачи и неверных математических моделей, возникают и менее явные сложности. Например, сам принцип сбора данных может подразумевать определенный уклон, как в случае с Street Bump.
Это всего лишь один из промахов, которые встречаются на тернистом пути работы с Big Data. Slon разобрал еще 7 интересных кейсов и выяснил, почему же проваливаются амбициозные проекты по анализу данных. Вот линк на статью целиком: ИНТЕРПРЕТИРУЙ ЭТО. КАК ИЗБЕЖАТЬ ОШИБОК BIG DATA. Рекомендуем.