Информация из хаоса

Термин «большие данные» («Big Data») в последние пару лет стал весьма популярным. Быстро возникшая волна интереса всегда сопровождается пеной непонимания и заблуждений, от которой мы попробуем избавиться.

Большие данные – это не название очень большой базы данных, а подход, объединяющий различные инструменты и методы обработки структурированных и неструктурированных (образы, речь, видео, мониторинг социальной активности и проч.) данных огромных объемов и значительного многообразия. Целью такой обработки является получение воспринимаемых человеком результатов, которые могут быть использованы в бизнесе, науке, здравоохранении.

Почему большие данные именно сейчас стали трендом? С одной стороны, бизнес компаний ряда отраслей уже давно требует сбора и анализа действительно больших объемов структурированных и неструктурированных данных. С другой – за последние годы значительно снизилась стоимость технологических решений, предназначенных как для генерации, сбора и передачи информации, так и для ее хранения и обработки. А если есть потребность и объективные возможности для реализации, то не замедлили появиться соответствующие предложения в виде программно-аппаратных комплексов, аналитических систем для поддержки бизнеса и принятия решений.

Поддержка больших данных при принятии решений – в основном это характерно для сегмента В2В. Что касается В2С, то большие данные очень хорошо помогают в рамках актуальной тенденции индивидуализации и персонификации предложения потребителю. Консультанты часто приводят подобные примеры, иллюстрирующие эффективность Big Data: представьте себе ситуацию, что вы идете по улице, заходите в магазин, на входе которого камера видеонаблюдения тут же установила вашу личность и определила, что вы – постоянный покупатель с высоким уровнем лояльности, купивший четыре дня назад сумочку, и для нее в магазине как раз есть аксессуар. Тогда к вам сразу подойдет менеджер зала с предложением: «Здравствуйте, N! Посмотрите, у нас есть красивый кошелек, который подойдет к вашей сумке». Или: «N, мы знаем, что через два дня у вашей супруги день рождения. Помните, в прошлом году вы ей подарили такой платок? А у нас сейчас есть интересное предложение из той же коллекции».

Разумеется, нельзя забывать о социальных аспектах использования больших данных, а именно о приватности. Это отдельная и очень сложная проблема (дополнительно о ней читайте на стр. 36).

Очевидно, что подход Big Data эффективен далеко не всегда – можно иметь массу данных, но толку от их обработки не будет. Поэтому эксперты обращают особое внимание на подбор исходных данных, подчеркивая, что они должны быть разнообразными. При этом чем они «длиннее», то есть больше наблюдений конкретного факта и т. п., тем лучше, поскольку возрастает точность предсказания или оценки значимости исследуемого фактора. Но по мере возрастания «ширины» данных, то есть их разнообразия, экспоненциально растут вычислительные проблемы, поэтому она должна быть в каждом случае оптимальной. Решать задачу такой оптимизации компьютеры пока не могут, на это способен лишь человек с его интуицией и опытом.

И важное предостережение – получаемые с помощью больших данных результаты не следует оценивать как обнаруженные причинно-следственные связи между исследуемыми явлениями, на самом деле они дают только интерпретацию обнаруженных связей в анализируемом наборе данных. В противном случае можно легко оказаться в заблуждении.

Почему это может изменить мир?

Умение использовать постоянно растущее количество информации полностью меняет нашу способность понимать мир и все, что в нем происходит. Достижения в анализе больших данных позволяют нам прогнозировать поведение людей, предупреждать атаки террористов, понимать, на что должны быть направлены маркетинговые усилия, предотвращать болезни и проч.

Пример из бизнеса: Walmart может взять информацию о ваших прежних покупках, свою внутреннюю информацию по запасам, данные о местонахождении вашего мобильного телефона, информацию из социальных сетей, метеопрогноз, проанализировать все это за секунду и прислать вам на мобильный ваучер на покупку очистителя барбекю. Однако при условии, что вы приобрели барбекю, погода отличная и вы сейчас в радиусе трех миль от магазина Walmart, где есть запас такого очистителя. Все это вселяет ужас, но является прогрессивным шагом.

На консультациях и тренинговых сессиях, где рассматриваются вопросы по большим данным, я говорю об информатизации мира. Это социальные сети, оцифровка книг, музыка и видео, возрастающее использование интернета, а также более дешевые и хорошие датчики, позволяющие измерять и отслеживать все. Только задумайтесь: в прошлом, когда вы читали книгу, внешние данные не формировались. Если же сейчас используете устройство Kindle или Nook, оно отслеживает, что, когда, как часто и быстро вы читаете; когда раньше вы слушали CD, то внешние данные не создавались. Сейчас мы слушаем музыку на нашем iPhone или цифровом музыкальном проигрывателе, и это устройство записывает информацию, что именно мы слушаем, когда, как часто, в каком порядке и проч.; сегодня многие из нас носят смартфоны, и они постоянно накапливают и создают информацию с помощью регистрации нашего местонахождения, отслеживания нашей скорости, мониторинга, какие приложения мы используем, а также кому звоним или пишем sms; сенсоры все чаще используются для мониторинга и фиксации всего: от температуры до потребления энергии, от движений океана до перемещения транспорта, от сбора мусора до частоты сердцебиений. Ваш автомобиль, как и умные часы, телевизоры, холодильники, полон датчиков.

Возьмите мои весы (которые я как фанат техники обожаю!), они измеряют и сохраняют записи о моем весе, проценте жира в теле, частоте пульса и даже качестве воздуха в спальне. Когда я становлюсь на весы, они автоматически распознают меня, снимают мерки, после чего высылают данные через Bluetooth на мой iPhone, дающий мне статистику изменений. Затем эта информация синхронизируется с данными, накопленными другим устройством, отслеживающим, как много калорий я должен съесть и израсходовать в день и насколько хорошо мне спалось ночью; и наконец, добавьте к этому миллионы поисковых запросов в интернете, осуществляющихся ежедневно, а также обновлений статусов, постов на «стенах», комментариев и лайков, появляющихся на Facebook каждый день, 400 млн. твитов и 72 часа видео, загружаемого на YouTube каждую минуту.

Объем информации растет гигантскими темпами. Глава правления Google подводит следующий итог: «От истоков цивилизации до 2003 г. человечество создало 5 экзабайт информации. Теперь мы создаем столько же каждые два дня, и скорость увеличивается». У нас есть много не только информации, но и новых ее видов: тексты, видео, поисковые запросы, данные датчиков, финансовые трансакции, платежи с использованием кредитных карточек и т. д. В мире больших данных мы говорим о 4V:

  • volume (объем) – огромное количество информации генерируется каждую секунду;
  • velocity (скорость) – скорость, с которой создается и меняется информация (регистрация мошенничества с кредитками – хороший пример, в котором миллионы транcакций почти мгновенно проверяются на необычный характер);
  • variety (разнообразие) – растущее разнообразие типов информации;
  • veracity (достоверность) – беспорядочность и ненадежность информации (просто подумайте о постах в Twitter с хэштегами, аббревиатурами, опечатками и сленгом).

Таким образом, у нас есть много информации разного формата и качества – почему это может изменить мир? Причина в технологиях, позволяющих свести всю эту информацию воедино и проанализировать ее. В прошлом у нас были традиционные базы данных и инструменты для аналитики, которые не могли обрабатывать невероятно объемную, бессистемную, неструктурированную и быстроменяющуюся информацию.

Приведу несколько примеров того, как большие данные используются сегодня для получения значительных результатов:

  •  ФБР сводит все данные из социальных сетей, камер видеонаблюдения, телефонных звонков и sms, чтобы находить преступников и прогнозировать следующую террористическую атаку;
  •  Facebook использует инструмент распознавания лиц на фото, чтобы найти потенциальных друзей;
  •  политики используют аналитику соцсетей, чтобы определить, куда нужно направить больше усилий во время кампании для победы на выборах;
  •  видеоаналитика и данные сенсоров на бейсбольных и футбольных играх используются для улучшения игры игроков и команд. Причем несколько датчиков встроены непосредственно в мячи;
  •  такие исполнители, как Леди Гага, используют информацию о наших предпочтениях в прослушивании песен и их последовательности, чтобы сформировать оптимальный плейлист для своих концертов;
  •  беспилотный автомобиль Google анализирует в режиме реального времени гигантский объем информации датчиков и камер, чтобы оставаться в безопасности на дороге;
  •  компании используют анализ настроений в постах на Facebook и Twitter, чтобы спрогнозировать и определить объем продаж и стоимость бренда;
  •  супермаркеты объединяют свои базы лояльных клиентов с информацией из социальных сетей, чтобы выяснить и использовать с выгодой для себя изменяющееся поведение покупателей. Например, розничным магазинам не составляет труда определить на основе изменившегося покупательского поведения, что женщина беременна. Это позволяет им направить ей рекламу товаров для детей;
  •  в отделениях больниц, где выхаживают недоношенных и больных младенцев, отслеживают каждое их сердцебиение. Система может обнаружить угрозу за 24 часа до того, как у ребенка появятся видимые симптомы, что дает возможность для раннего вмешательства и лечения.

Эти примеры – лишь начало. Многие компании только открывают для себя новый мир больших данных.

Подготовила Юлия Мошак

Залишити відповідь