Термин «большие данные» («Big Data») в последние пару лет стал весьма популярным. Быстро возникшая волна интереса всегда сопровождается пеной непонимания и заблуждений, от которой мы попробуем избавиться.
Большие данные – это не название очень большой базы данных, а подход, объединяющий различные инструменты и методы обработки структурированных и неструктурированных (образы, речь, видео, мониторинг социальной активности и проч.) данных огромных объемов и значительного многообразия. Целью такой обработки является получение воспринимаемых человеком результатов, которые могут быть использованы в бизнесе, науке, здравоохранении.
Почему большие данные именно сейчас стали трендом? С одной стороны, бизнес компаний ряда отраслей уже давно требует сбора и анализа действительно больших объемов структурированных и неструктурированных данных. С другой – за последние годы значительно снизилась стоимость технологических решений, предназначенных как для генерации, сбора и передачи информации, так и для ее хранения и обработки. А если есть потребность и объективные возможности для реализации, то не замедлили появиться соответствующие предложения в виде программно-аппаратных комплексов, аналитических систем для поддержки бизнеса и принятия решений.
Поддержка больших данных при принятии решений – в основном это характерно для сегмента В2В. Что касается В2С, то большие данные очень хорошо помогают в рамках актуальной тенденции индивидуализации и персонификации предложения потребителю. Консультанты часто приводят подобные примеры, иллюстрирующие эффективность Big Data: представьте себе ситуацию, что вы идете по улице, заходите в магазин, на входе которого камера видеонаблюдения тут же установила вашу личность и определила, что вы – постоянный покупатель с высоким уровнем лояльности, купивший четыре дня назад сумочку, и для нее в магазине как раз есть аксессуар. Тогда к вам сразу подойдет менеджер зала с предложением: «Здравствуйте, N! Посмотрите, у нас есть красивый кошелек, который подойдет к вашей сумке». Или: «N, мы знаем, что через два дня у вашей супруги день рождения. Помните, в прошлом году вы ей подарили такой платок? А у нас сейчас есть интересное предложение из той же коллекции».
Разумеется, нельзя забывать о социальных аспектах использования больших данных, а именно о приватности. Это отдельная и очень сложная проблема (дополнительно о ней читайте на стр. 36).
Очевидно, что подход Big Data эффективен далеко не всегда – можно иметь массу данных, но толку от их обработки не будет. Поэтому эксперты обращают особое внимание на подбор исходных данных, подчеркивая, что они должны быть разнообразными. При этом чем они «длиннее», то есть больше наблюдений конкретного факта и т. п., тем лучше, поскольку возрастает точность предсказания или оценки значимости исследуемого фактора. Но по мере возрастания «ширины» данных, то есть их разнообразия, экспоненциально растут вычислительные проблемы, поэтому она должна быть в каждом случае оптимальной. Решать задачу такой оптимизации компьютеры пока не могут, на это способен лишь человек с его интуицией и опытом.
И важное предостережение – получаемые с помощью больших данных результаты не следует оценивать как обнаруженные причинно-следственные связи между исследуемыми явлениями, на самом деле они дают только интерпретацию обнаруженных связей в анализируемом наборе данных. В противном случае можно легко оказаться в заблуждении.
Почему это может изменить мир? Умение использовать постоянно растущее количество информации полностью меняет нашу способность понимать мир и все, что в нем происходит. Достижения в анализе больших данных позволяют нам прогнозировать поведение людей, предупреждать атаки террористов, понимать, на что должны быть направлены маркетинговые усилия, предотвращать болезни и проч. Пример из бизнеса: Walmart может взять информацию о ваших прежних покупках, свою внутреннюю информацию по запасам, данные о местонахождении вашего мобильного телефона, информацию из социальных сетей, метеопрогноз, проанализировать все это за секунду и прислать вам на мобильный ваучер на покупку очистителя барбекю. Однако при условии, что вы приобрели барбекю, погода отличная и вы сейчас в радиусе трех миль от магазина Walmart, где есть запас такого очистителя. Все это вселяет ужас, но является прогрессивным шагом. На консультациях и тренинговых сессиях, где рассматриваются вопросы по большим данным, я говорю об информатизации мира. Это социальные сети, оцифровка книг, музыка и видео, возрастающее использование интернета, а также более дешевые и хорошие датчики, позволяющие измерять и отслеживать все. Только задумайтесь: в прошлом, когда вы читали книгу, внешние данные не формировались. Если же сейчас используете устройство Kindle или Nook, оно отслеживает, что, когда, как часто и быстро вы читаете; когда раньше вы слушали CD, то внешние данные не создавались. Сейчас мы слушаем музыку на нашем iPhone или цифровом музыкальном проигрывателе, и это устройство записывает информацию, что именно мы слушаем, когда, как часто, в каком порядке и проч.; сегодня многие из нас носят смартфоны, и они постоянно накапливают и создают информацию с помощью регистрации нашего местонахождения, отслеживания нашей скорости, мониторинга, какие приложения мы используем, а также кому звоним или пишем sms; сенсоры все чаще используются для мониторинга и фиксации всего: от температуры до потребления энергии, от движений океана до перемещения транспорта, от сбора мусора до частоты сердцебиений. Ваш автомобиль, как и умные часы, телевизоры, холодильники, полон датчиков. Возьмите мои весы (которые я как фанат техники обожаю!), они измеряют и сохраняют записи о моем весе, проценте жира в теле, частоте пульса и даже качестве воздуха в спальне. Когда я становлюсь на весы, они автоматически распознают меня, снимают мерки, после чего высылают данные через Bluetooth на мой iPhone, дающий мне статистику изменений. Затем эта информация синхронизируется с данными, накопленными другим устройством, отслеживающим, как много калорий я должен съесть и израсходовать в день и насколько хорошо мне спалось ночью; и наконец, добавьте к этому миллионы поисковых запросов в интернете, осуществляющихся ежедневно, а также обновлений статусов, постов на «стенах», комментариев и лайков, появляющихся на Facebook каждый день, 400 млн. твитов и 72 часа видео, загружаемого на YouTube каждую минуту. Объем информации растет гигантскими темпами. Глава правления Google подводит следующий итог: «От истоков цивилизации до 2003 г. человечество создало 5 экзабайт информации. Теперь мы создаем столько же каждые два дня, и скорость увеличивается». У нас есть много не только информации, но и новых ее видов: тексты, видео, поисковые запросы, данные датчиков, финансовые трансакции, платежи с использованием кредитных карточек и т. д. В мире больших данных мы говорим о 4V:
Таким образом, у нас есть много информации разного формата и качества – почему это может изменить мир? Причина в технологиях, позволяющих свести всю эту информацию воедино и проанализировать ее. В прошлом у нас были традиционные базы данных и инструменты для аналитики, которые не могли обрабатывать невероятно объемную, бессистемную, неструктурированную и быстроменяющуюся информацию. Приведу несколько примеров того, как большие данные используются сегодня для получения значительных результатов:
Эти примеры – лишь начало. Многие компании только открывают для себя новый мир больших данных. Подготовила Юлия Мошак |