17 мин на чтение


Данный пост перенесён автоматически с предыдущего варианта сайта. Возможны артефакты. Если информация этого поста важна для вас, свяжитесь со мной для получения полного содержимого.


Книга Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим отлично подходит для первичного погружения в тему Больших Данных. Содержит описание интересных практических кейсов и общие базовые принципы. В книге нет математики и технической информации, читается легко даже при отсутствии специальной подготовки. Недостатком может оказаться недостаточная глубина изложения, но заинтересовать темой и вызвать желание прочитать что-то ещё книга вполне вызывает.

Авторы предлагают для лучшего понимания принципа больших данных отказаться от классической связки причина -> следствие в пользу простых корреляций: важно, что следует из данных, но не важно - почему.

По мнению авторов при работе с большими данными компании делиться на три типа: те, кто владеют данными, те, кто обладает метрологией работы с ними и, наконец, те, у кого рождаются идеи по практическому использованию. Иногда компании могут совмещать две или сразу три роли, как, например, в случае с Amazon и её рекомендательной системой. При этом даже некрупные игроки без значительных материальных затрат способны достичь многого, лицензия использование сторонних данных и проводя анализ, например, на недорогих облачных платформах.

Отдельно и довольно детально рассмотрен в книге вопрос прогнозирования поведения людей на основе анализа больших данных, авторы предостерегают от излишнего доверия таким прогнозам и предлагают не забывать, что предрасположенность предрасположенностью, но никто не вправе отнимать у человека право воли и обвинять в ещё несовершенных деяниях. Кстати, похожую аргументацию использовали противники идей Чезаре Ломброзо (изучал связь между преступными наклонностями и внешним видом человека: форма черепа и проч. и другими особенностями: нечувствительность к боли, взгляд исподлобья и т.п.)

Далее представлены цитаты, которые выписал себе при прочтении, сгруппированные по разделам:


Интересные кейсы про применение больших данных

  • «Подходящий пример — камера Lytro. Она стала революционным открытием, так как применяет большие данные к основам технологии фотографии. Эта камера захватывает не только одну световую плоскость, как обычные камеры, но и около 11 миллионов лучей всего светового поля. Точное изображение, получаемое из цифрового файла, можно в дальнейшем изменять в зависимости от того, на какой объект кадра нужно настроить фокус. Благодаря сбору всех данных не обязательно настраивать фокус изображения изначально, ведь он настраивается на любой объект изображения после того, как снимок уже сделан. Снимок содержит лучи всего светового поля, а значит, и все данные, то есть «N = всё». В результате информация лучше подходит для «повторного использования», чем обычные изображения, когда фотографу нужно выбрать объект фокусировки, прежде чем нажать на кнопку затвора.»
  • «В первую очередь отдел аналитики обратил внимание на историю покупок женщин, которые зарегистрировались в реестре Target на получение подарка к рождению ребенка. Специалисты Target заметили, что популярной покупкой среди зарегистрировавшихся женщин примерно на третьем месяце беременности был лосьон без запаха. Спустя несколько месяцев женщины, как правило, покупали пищевые добавки (магний, кальций, цинк и пр.). В итоге компания выявила около двух десятков характерных продуктов, по которым каждому клиенту можно было присвоить оценку «прогнозируемой беременности». С помощью корреляций розничным магазинам даже удавалось определять дату родов с небольшой погрешностью, и они стали отправлять соответствующие купоны на каждом этапе беременности. Такое нацеливание рекламных кампаний и впрямь соответствовало названию компании — Target (англ. цель).»
  • «…алгоритм предотвращения больших механических неисправностей и разрушений конструкции: все чаще на машинах, двигателях и элементах инфраструктуры, таких как мосты, размещают датчики для отслеживания получаемых данных (показателей тепла, вибрации, нагрузки, звука и пр.). Датчики внедряются на крупных химических и нефтеперерабатывающих заводах, где поломанная деталь оборудования может остановить все производство до момента ее замены. Стоимость сбора и анализа данных для принятия своевременных мер экономит средства по сравнению с тем, во что обходятся простои. Отметим, что прогностическая аналитика не в состоянии объяснить причину проблемы (из-за чего перегрелся двигатель — из-за потертого ремня вентилятора или плохо закрученного винта) — она только выявляет саму проблему. Корреляции показывают что, а не почему. Но, как видно, в большинстве случаев этого достаточно.»
  • «Данные о местоположении массовых скоплений дают компаниям возможность обнаруживать пробки, не видя самих автомобилей, на основании количества и скорости перемещения телефонов вдоль шоссе. Компания AirSage ежедневно обрабатывает три миллиарда записей геолокационных данных о перемещении миллионов абонентов сотовой связи для создания отчетов о ситуации на дорогах более чем в 100 городах по всей Америке в режиме реального времени. Две другие компании, которые занимаются геолокацией, Sense Networks и Skyhook, имея данные о местоположении, сообщают, в каких районах города активнее кипит ночная жизнь или сколько протестующих собралось на демонстрации
  • «Стартап GreenGoose продает крошечные датчики движения, которые можно разместить на объектах, чтобы отслеживать частоту их применения. Прикрепив такой датчик на пачку зубной нити, лейку или коробку кошачьего туалета, вы сможете датифицировать гигиену полости рта и уход за растениями или домашними животными
  • «Другой пример — компания Quantcast, которая измеряет интернет-трафик на сайтах, позволяя их создателям узнавать подробнее о демографических данных посетителей, а также их предпочтениях, чтобы лучше нацеливать рекламные объявления. Компания распространяет свой интернет-инструмент бесплатно, позволяя сайтам отслеживать посещения. А взамен Quantcast может просматривать данные, и это помогает ей улучшить нацеливание.»
  • «Некоторые «умные» электросчетчики, которые внедряются в США и Европе, могут собирать от 750 до 3000 точек данных в месяц в режиме реального времени. Это гораздо больше, чем скудный поток информации о совокупном потреблении электроэнергии, который собирает обычный счетчик. Каждый прибор имеет уникальную «подпись нагрузки» при получении электропитания, которая позволяет отличить холодильник от телевизора, а телевизор — от подсветки для выращивания марихуаны. Таким образом, использование электроэнергии раскрывает личную информацию, будь то ежедневные привычки, медицинские условия или противозаконное поведение»

Наверх

Шутки и остроты из книги

  • «Таким образом, в эпоху малых данных корреляционный анализ утратил свою первостепенность. Даже сегодня термин «интеллектуальный анализ данных» в научных кругах звучит неодобрительно. Его противники острят: «Поиздевайтесь над данными достаточно долго — и они будут готовы признать что угодно».»
  • «специалисты по статистике из отдела машинного перевода Microsoft шутят, что качество переводов улучшается всякий раз, когда команду покидает лингвист
  • «Даже большие данные не могут спрогнозировать собственное развитие.»
  • «Если бы Генри Форд спросил большие данные, чего хотят его клиенты, они бы ответили — более быстрых лошадей (мы перефразировали его крылатую фразу).»

Наверх

Интересные факты из книги

  • «в 2009 году Apple подала заявку на патент для сбора данных о насыщенности крови кислородом, частоте сердечных сокращений и температуре тела через наушники-вкладыши»
  • «Фон Ан назвал свое творение Captcha (англ. Completely Automated Public Turing Test to Tell Computers and Humans Apart — «полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей»). Пять лет спустя около 200 миллионов Captcha стали вводиться ежедневно.»
  • «Корпорация Microsoft вышла на этот рынок со своим продуктом Windows Azure DataMarket, который призван сосредоточить внимание на высококачественных данных и контролирует размещаемые предложения, подобно тому как компания Apple контролирует предложения в App Store. Microsoft видит ситуацию следующим образом: специалист по маркетингу, работая над таблицами Excel, может совместить табличные внутрикорпоративные данные с прогнозируемыми данными о росте ВВП, полученными из службы экономического консультирования. Он просто выбирает данные для покупки — и они мгновенно загружаются в соответствующие столбцы на экране.»
  • «Менее бросается в глаза то, что компания адаптирует игры под особенности отдельных игроков. Так что существует не одна версия FarmVille — их сотни.»
  • «Так, «черные ящики», установленные в большинстве автомобилей для отслеживания активаций подушки безопасности, известны тем, что могут «свидетельствовать» против автовладельцев в суде в случае спора по поводу ДТП»
  • «Когда вышел указ, предписывающий до начала производства новой модели израсходовать все имеющиеся детали старой, руководители линейных подразделений с раздражением просто сбрасывали лишние части в ближайшую реку. Руководство в штаб-квартире Ford одобрительно кивнуло, получив от заводских мастеров цифры, подтверждающие, что распоряжение было выполнено. А на заводе стали шутить, что теперь можно ходить по воде — из нее торчали ржавые части автомобилей 1950 и 1951 годов.»
  • «Стив Джобс мог бы долгие годы непрерывно совершенствовать ноутбук Mac на основе отчетов об эксплуатации, но он воспользовался своей интуицией, а не данными, чтобы выпустить на рынок iPod, iPhone и iPad. Он полагался на свое шестое чувство. «Знать, чего хотят покупатели, не их забота», — сказал он репортеру, рассказывая, что не проводил исследование рынка перед запуском iPad.»
  • «В Японии, Франции, Германии и Италии появились претензии от людей в том, что их позорила функция «автозаполнения» поисковой системы Google, которая выдает список наиболее распространенных условий запроса, связанных с их именем. Эта функция в значительной степени зависит от частоты предыдущих поисков: условия ранжируются в соответствии с их математической вероятностью. А кого бы не возмутило, если бы рядом с его именем отобразилось слово «зэк» или «проститутка», когда кто-то из потенциальных деловых партнеров или пассий решил поискать о нем информацию в Сети?»

Наверх

Встречающие по тексту и в аннотации интересные ссылки и рекомендации к прочтению

  • «Простые модели с множеством данных по результатам превосходят более сложные модели, основанные на меньшем количестве данных», — отметил Питер Норвиг, гуру искусственного интеллекта в компании Google, в статье «Необоснованная эффективность данных», написанной в соавторстве с коллегами»
  • «Служба Google NgramViewer (http://books.google.com/ngrams) создает график использования слов или фраз с течением времени, применяя в качестве источника данных весь перечень книг Google.»
  • Левитт С., Дабнер С. Фрикономика. М. : Манн, Иванов и Фербер, 2011.
  • Пэт Хеллэнд, один из ведущих мировых авторитетов по вопросам проектирования баз данных в корпорации Microsoft, в статье «Если у вас слишком много данных, то и “достаточно хорошо” — уже хорошо» (If You Have Too Much Data, then ‘Good Enough’ Is Good Enough) описывает это явление как фундаментальный переход.
  • На русском языке издана книга: Паттерсон С. Кванты. Как волшебники от математики заработали миллиарды и чуть не обрушили фондовый рынок. М. : Манн, Иванов и Фербер, 2014.

Наверх

Другие выборочные цитаты из книги

>«Эпоха больших данных ставит под вопрос наш образ жизни и способ взаимодействия с миром. Поразительнее всего то, что обществу придется отказаться от понимания причинности в пользу простых корреляций: променять знание почему на что именно. Это переворачивает веками установленный порядок вещей и ставит под сомнение наши фундаментальные знания о том, как принимать решения и постигать действительность.» >«Развитию методов корреляционного анализа способствует быстро растущий набор новых подходов и программ, которые способны выделять связи, отличные от причинно-следственных»
«Из глубины веков тянется философская дискуссия о том, существует ли причинность на самом деле. Если каждое явление имеет свою причину, то логика подсказывает, что мы, по сути, ничего не решаем. Выходит, человеческой воли на самом деле не существует, поскольку наши мысли и принимаемые решения имеют причину, которая имеет свою причину, и т. д. Вся линия жизни определяется причинами, которые приводят к определенным последствиям. Таким образом, философы спорили о роли причинности в нашем мире, а порой и противопоставляли ее свободе выбора. Однако обсуждение этой полемики не входит в наши планы.»
«Прогнозирование дало нам знание, — говорит Дж. Ливис из UPS и с уверенностью добавляет: — Но кроме знания есть еще кое-что — мудрость и прозорливость. В какой-то момент система станет настолько умной, что будет предсказывать проблемы и исправлять их раньше, чем пользователь успеет сообразить, что что-то не так»
«Со стороны Facebook было весьма проницательно проявить терпение и не афишировать новые способы применения данных пользователей, зная, что эта информация могла быть шокирующей. Кроме того, компания все еще приспосабливает свою бизнес-модель (и политику конфиденциальности) к необходимому количеству и типу сбора данных. Поэтому большинство критических замечаний в адрес Facebook направлены на то, какие данные она способна получить, и гораздо меньше — на то, что с ними происходит на самом деле. Facebook охватывает более 850 миллионов активных пользователей в месяц»
«В отличие от материальных объектов (употребляемой пищи, горящей свечи и пр.), ценность данных не уменьшается по мере их потребления. Данные можно обрабатывать снова и снова.»
«У Amazon есть и мышление, и знания, и данные. По сути, компания выстраивала свою бизнес-модель именно в таком (обратном по сравнению с нормой) порядке. Вначале у нее была только идея знаменитой рекомендательной системы. В объявлении о новом выпуске акций на фондовой бирже в 1997 году описание «совместной фильтрации» появилось раньше, чем компания Amazon узнала, как эта система будет работать на практике, и получила достаточно данных, чтобы сделать ее полезной.»
«Разумеется, эксперты в предметных областях не вымрут, но они наверняка утратят свое превосходство. Теперь им придется делить свои лавры со специалистами в области больших данных, а простые корреляции потеснят величие причинно-следственных связей. Это изменит наше отношение к знаниям, ведь мы склонны считать, что люди с узкой специализацией более ценны, чем с широкой: успех сопутствует более глубокому знанию предмета. Экспертные знания, как и точность, подходят для области «малых данных», где вечно не хватает нужной информации, поэтому в поисках правильного пути приходится полагаться на интуицию и опыт. В таких условиях опыт играет важнейшую роль, поскольку только длительное накопление скрытых знаний, которые нельзя передать, вычитать в книгах или даже попросту осознать, может помочь в принятии более взвешенных решений.»
«Большие данные открывают захватывающие возможности для всех. Умные и проворные мелкие игроки извлекут преимущества «масштаба без нагромождений» (цитируя знаменитую фразу профессора Бриньолфссона). Они обеспечат себе большое виртуальное присутствие при незначительных материальных ресурсах, а также широко внедрят инновационные решения при небольших затратах. И, что немаловажно, лучшие службы по обработке больших данных основаны прежде всего на инновационных идеях, а потому не обязательно требуют больших начальных инвестиций. Данные можно лицензировать, а не приобретать, проводить анализ на недорогих «облачных» платформах, а расходы на лицензирование покрывать за счет процента от получаемых доходов.»
«Пока нет таких посредников и их первых клиентов, пользователи, желающие стать держателями собственных данных, имеют очень скромные возможности. А для того чтобы не утратить их, прежде чем появятся посредники и инфраструктура для преуспевания частных держателей данных, пользователям имеет смысл раскрывать как можно меньше информации.»
«Несмотря на радужные перспективы, есть причины для беспокойства. Большие данные обеспечивают все более точные прогнозы об окружающем мире и нашей роли в нем. Мы можем оказаться не готовы к влиянию этих прогнозов на нашу частную жизнь и принятие решений, ведь наши мировоззрение и структура учреждений формировались в условиях дефицита, а не избытка информации.»
«Если бы совершенные прогнозы были возможны, они бы отрицали человеческую волю, нашу способность жить свободной жизнью и, по иронии судьбы, из-за отсутствия выбора освобождали бы нас от любой ответственности.»
«Большие данные помогают лучше понять текущие и будущие риски, а также скорректировать свои действия соответствующим образом. Их прогнозы помогают пациентам и страховщикам, кредиторам и потребителям. Но большие данные ничего не говорят о причинности. В отличие от них для признания «вины» — виновности частных лиц — требуется, чтобы подсудимый выбрал то или иное действие. Его решение служит причиной для последующего проступка. Именно потому, что большие данные основаны на непричинных корреляциях, они непригодны для того, чтобы судить о причинности, а значит, и признавать чью-либо виновность.»
«Чем чаще привлечение людей к ответственности за свои действия заменяется мероприятиями по снижению рисков, тем больше в обществе снижается ценность идеала индивидуальной ответственности. Государство, основанное на прогнозах, — в первую очередь государство-нянька. Отрицание ответственности человека за свои действия разрушает фундаментальную свободу людей выбирать свое поведение. Если большинство решений на государственном уровне полагаются на прогнозы и желание снизить риски, наш личный выбор, а значит, и наша личная свобода действий больше не имеют значения. Где нет вины, там нет невиновности. Уступая такому подходу, мы не улучшаем, а скорее обедняем мир.»
«В ходе собеседований со статистиками для проекта, связанного с финансовым мошенничеством, Флауэрс заметил, что они склонны проявлять скрытое беспокойство по поводу математических методов. «Я даже не задумывался о том, какая модель будет использоваться. Мне нужны были результаты, дающие основания для конкретных действий. Это все, что меня заботило», — говорит он.»
«Флауэрс и его напарники постоянно сверяли свои модели с мнением опытных инспекторов, чьи советы помогли усовершенствовать систему. Однако важнейшей причиной ошеломительного успеха программы был отказ от причинности в пользу корреляции.»
«Обладание знанием, которое когда-то означало понимание прошлого, постепенно преобразовывается в способность прогнозировать будущее.»
«Вместо того чтобы ставить во главу угла точность, чистоту и строгость данных, мы можем — и это даже необходимо — несколько ослабить свои требования. Данные не должны быть заведомо ошибочными или ложными, но их беспорядочность не представляет особых проблем при многократном увеличении масштаба. Она может быть даже выгодной, так как, используя лишь небольшую часть данных, мы упускали из виду широкое поле подробностей, где обнаруживается масса знаний. Поскольку корреляции можно найти гораздо быстрее и с меньшими затратами, чем причинность, им нередко отдается предпочтение.»

Наверх

--- === @zlonov === ---


Комментарии из Telegram


Комментарии ВКонтакте