Энциклопедия маркетинга. Большие данные (Big Data)

18.08.2019 Проблемы

Только ленивый не говорит о Big data, но что это такое и как это работает - понимает вряд ли. Начнём с самого простого - терминология. Говоря по-русски, Big data - это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных для того, чтобы их использовать для конкретных задач и целей.

Неструктурированные данные - это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.

Термин «большие данные» ввёл редактор журнала Nature Клиффорд Линч ещё в 2008 году в спецвыпуске, посвящённом взрывному росту мировых объёмов информации. Хотя, конечно, сами большие данные существовали и ранее. По словам специалистов, к категории Big data относится большинство потоков данных свыше 100 Гб в день.

Читайте также:

Сегодня под этим простым термином скрывается всего два слова - хранение и обработка данных.

Big data - простыми словами

В современном мире Big data - социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных.

Читайте также:

Для простоты понимания представьте супермаркет, в котором все товары лежат не в привычном вам порядке. Хлеб рядом с фруктами, томатная паста около замороженной пиццы, жидкость для розжига напротив стеллажа с тампонами, на котором помимо прочих стоит авокадо, тофу или грибы шиитаке. Big data расставляют всё по своим местам и помогают вам найти ореховое молоко, узнать стоимость и срок годности, а еще - кто, кроме вас, покупает такое молоко и чем оно лучше молока коровьего.

Кеннет Кукьер: Большие данные - лучшие данные

Технология Big data

Огромные объёмы данных обрабатываются для того, чтобы человек мог получить конкретные и нужные ему результаты для их дальнейшего эффективного применения.

Читайте также:

Фактически, Big data - это решение проблем и альтернатива традиционным системам управления данными.

Техники и методы анализа, применимые к Big data по McKinsey:

  • Краудсорсинг;

    Смешение и интеграция данных;

    Машинное обучение;

    Искусственные нейронные сети;

    Распознавание образов;

    Прогнозная аналитика;

    Имитационное моделирование;

    Пространственный анализ;

    Статистический анализ;

  • Визуализация аналитических данных.

Горизонтальная масштабируемость, которая обеспечивает обработку данных - базовый принцип обработки больших данных. Данные распределены на вычислительные узлы, а обработка происходит без деградации производительности. McKinsey включил в контекст применимости также реляционные системы управления и Business Intelligence.

Технологии:

  • NoSQL;
  • MapReduce;
  • Hadoop;
  • Аппаратные решения.

Читайте также:

Для больших данных выделяют традиционные определяющие характеристики, выработанные Meta Group ещё в 2001 году, которые называются «Три V »:

  1. Volume - величина физического объёма.
  2. Velocity - скорость прироста и необходимости быстрой обработки данных для получения результатов.
  3. Variety - возможность одновременно обрабатывать различные типы данных.

Big data: применение и возможности

Объёмы неоднородной и быстро поступающей цифровой информации обработать традиционными инструментами невозможно. Сам анализ данных позволяет увидеть определённые и незаметные закономерности, которые не может увидеть человек. Это позволяет оптимизировать все сферы нашей жизни - от государственного управления до производства и телекоммуникаций.

Например, некоторые компании ещё несколько лет назад защищали своих клиентов от мошенничества, а забота о деньгах клиента - забота о своих собственных деньгах.

Сюзан Этлиджер: Как быть с большими данными?

Решения на основе Big data: «Сбербанк», «Билайн» и другие компании

У «Билайна» есть огромное количество данных об абонентах, которые они используют не только для работы с ними, но и для создания аналитических продуктов, вроде внешнего консалтинга или IPTV-аналитики. «Билайн» сегментировали базу и защитили клиентов от денежных махинаций и вирусов, использовав для хранения HDFS и Apache Spark, а для обработки данных - Rapidminer и Python.

Читайте также:

Или вспомним «Сбербанк» с их старым кейсом под названием АС САФИ. Это система, которая анализирует фотографии для идентификации клиентов банка и предотвращает мошенничество. Система была внедрена ещё в 2014 году, в основе системы - сравнение фотографий из базы, которые попадают туда с веб-камер на стойках благодаря компьютерному зрению. Основа системы - биометрическая платформа. Благодаря этому, случаи мошенничества уменьшились в 10 раз.

Big data в мире

К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут сами предприятия, а не обычные потребители.

Аналитики исследования считают, что данные станут жизненно-важным активом, а безопасность - критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет коммуницировать с подключёнными устройствами около 4800 раз в день.

Рынок Big data в России

Обычно большие данные поступают из трёх источников:

  • Интернет (соцсети, форумы, блоги, СМИ и другие сайты);
  • Корпоративные архивы документов;
  • Показания датчиков, приборов и других устройств.

Big data в банках

Помимо системы, описанной выше, в стратегии «Сбербанка» на 2014-2018 гг. говорится о важности анализа супермассивов данных для качественного обслуживания клиентов, управления рисками и оптимизации затрат. Сейчас банк использует Big data для управления рисками, борьбы с мошенничеством, сегментации и оценки кредитоспособности клиентов, управления персоналом, прогнозирования очередей в отделениях, расчёта бонусов для сотрудников и других задач.

«ВТБ24» пользуется большими данными для сегментации и управления оттоком клиентов, формирования финансовой отчётности, анализа отзывов в соцсетях и на форумах. Для этого он применяет решения Teradata, SAS Visual Analytics и SAS Marketing Optimizer.

Big data, или большие данные, - понятие, используемое в информационных технологиях и сфере маркетинга. Термин «большие данные» применяется для определения анализа и управления значительными массивами. Таким образом, big data - это та информация, которая за счет своих больших объемов не может быть обработана традиционными способами.

Современную жизнь невозможно представить без цифровых технологий. Мировые хранилища данных пополняются непрерывно, и поэтому также непрерывно приходится изменять как условия хранения информации, так и искать новые способы увеличения объема ее носителей. Исходя из экспертного мнения, увеличение big data и увеличение скорости роста - это нынешние реалии. Как уже говорилось, информация появляется безостановочно. Огромные ее объемы генерируются информационными сайтами, различными сервисами обмена файлами и социальными сетями, однако это лишь малая часть от всего производимого объема.

IDC Digital Universe после проведения исследования заявили, что в течение 5 лет объем данных в целом на всей Земле достигнет сорока зеттабайтов. Это значит, что на каждого человека на планете придется 5200 Гб информации.

Лучшая статья месяца

Заканчивается первое полугодие 2018 года — пора подводить промежуточные итоги. Даже если коммерческие показатели компании выросли по сравнению с прошлым периодом, убедитесь, нет ли скрытых сложностей в работе компании, которые могут принести неприятности.

Чтобы диагностировать проблемы, заполните чек-листы из нашей статьи и узнайте, на какую сторону бизнеса обратить внимание.

Общеизвестно, что люди не являются главным производителем информации. Основной источник, который приносит информационные данные, - это роботы, которые непрерывно взаимодействуют. В их число входят операционная система компьютеров, планшетов и мобильных телефонов, интеллектуальные системы, средства для мониторинга, системы наблюдения и прочее. В совокупности они задают стремительную скорость увеличения количества данных, а значит, потребность в создании как реальных, так и виртуальных серверов увеличивается. В совокупности это ведет к расширению и внедрению новых data-центров.

Чаще всего большие данные определяются как информация, которая объемом превышает жесткий диск ПК, а также не может быть обработана традиционными методами, которые используются при обработке и анализе информации с меньшим объемом.

Если обобщить, то технология обработки big data сводится в конечном итоге к 3 основным направлениям, которые, в свою очередь, решают 3 типа задач:

  1. Хранение и управление огромными объемами данных - их размеры доходят до сотен терабайтов и петабайтов, - которые реляционные базы данных не позволяют эффективно использовать.
  2. Организация неструктурированной информации - тексты, изображения, видео и другие типы данных.
  3. Анализ big data (big data analytics) - здесь рассматриваются и способы работы с неструктурированной информацией, и создание отчетов аналитических данных, и введение прогностических моделей.

Рынок проектов big data тесно взаимосвязан с рынком ВА - бизнес-аналитики, объем которого за 2012 год составил около 100 млрд долларов, и включающим в себя сетевые технологии, программное обеспечение, технические услуги и серверы.

Автоматизация деятельности компании, в частности решения класса гарантирования доходов (RA), также неразрывно связана с использованием технологий big data. На сегодняшний день системы в этой сфере содержат инструменты, которые используются для обнаружения несоответствий и для углубленного анализа данных, а также позволяют выявить возможные потери либо неточности в информации, которые могут привести к снижению результатов сектора.

Российские компании подтверждают, что спрос на технологии больших данных big data есть, отдельно отмечают то, что основные факторы, влияющие на развитие big data в России, - это увеличение объема данных, быстрое принятие управленческих решений и повышение их качества.

Какую роль играет big data в маркетинге

Не секрет, что информация - это одна из главных составляющих удачного прогнозирования и разработки маркетинговой стратегии, если уметь ей пользоваться.

Анализ больших данных является незаменимым при определении целевой аудитории, ее интересов и активности. Иными словами, умелое применение big data позволяет точно предсказывать развитие компании.

Используя, например, известную модель RTB-аукциона, с помощью анализа больших данных легко сделать так, что реклама будет выводиться только для тех потенциальных покупателей, которые заинтересованы в приобретении услуги или товара.

Применение big data в маркетинге:

  1. Позволяет узнать потенциальных покупателей и привлечь соответствующую аудиторию в интернете.
  2. Способствует оценке степени удовлетворенности.
  3. Помогает соотносить предлагаемый сервис с потребностями покупателя.
  4. Облегчает поиск и внедрение новых методов увеличения лояльности клиента.
  5. Упрощает создание проектов, которые впоследствии будут пользоваться спросом.

Частный пример - сервис Google.trends. С его помощью маркетолог сможет выявить прогноз на сезон касательно того или иного продукта, географию кликов и колебания. Таким образом, сравнив полученную информацию со статистикой собственного сайта, достаточно легко составить рекламный бюджет с указанием региона и месяца.

  • Распределение рекламного бюджета: на что стоит потратиться
  • l&g t;

    Как и где хранить большие данные big data

    Файловая система - именно здесь big data и организуются, и хранятся. Вся информация находится на большом количестве жестких дисков на ПК.

    «Карта» - map - отслеживает, где непосредственно хранится каждая часть информации.

    Для того чтобы застраховаться от непредвиденных обстоятельств, каждую из частей информации принято сохранять по несколько раз - рекомендуется делать это трижды .

    Например, после сбора индивидуальных транзакций в розничной сети вся информация о каждой отдельной транзакции будет храниться на нескольких серверах и жестких дисках, а «карта» будет индексировать местоположение файла по каждой конкретной сделке.

    Для того чтобы организовать хранение данных в больших объемах, можно использовать стандартное техническое оснащение и программное обеспечение, находящееся в открытом доступе (к примеру, Hadoop).

    Большие данные и бизнес-аналитика: разность понятий

    На сегодняшний день бизнес-анализ представляет собой описательный процесс результатов, которые были достигнуты за отдельный временной период. Действующая же скорость на обработку big data делает анализ предсказательным. На его рекомендации можно опираться в будущем. Технологии big data дают возможность анализа большего количества типов данных сравнительно со средствами и инструментами, используемыми в бизнес-аналитике. Это позволяет не только сосредоточиться на хранилищах, где данные структурированы, а использовать значительно более широкие ресурсы.

    Бизнес-аналитика и big data во многом схожи, однако имеются следующие отличия:

    • Big data используются для обработки объема информации, значительно большего, по сравнению с бизнес-аналитикой, что определяет само понятие big data.
    • При помощи big data можно обрабатывать быстро получаемые и меняющиеся данные, что обуславливает интерактивность, т. е. в большинстве случаев скорость загрузки веб-страницы меньше, чем скорость формирования результатов.
    • Big data могут использоваться при обработке не имеющих структуры данных, работу с которыми следует начинать, только обеспечив их хранение и сбор. Кроме того, необходимо применять алгоритмы, способные выявить основные закономерности в созданных массивах.

    Процесс бизнес-аналитики мало схож с работой big data. Как правило, бизнес-аналитике свойственно получать результат путем сложения конкретных значений: в качестве примера можно назвать годовой объем по продажам, рассчитанный как сумма всех оплаченных счетов. В процессе работы с big data расчет происходит путем поэтапного построения модели:

    • выдвижение гипотезы;
    • построение статической, визуальной и семантической модели;
    • проверка верности гипотезы на основании указанных моделей;
    • выдвижение следующей гипотезы.

    Для проведения полного цикла исследования необходимо интерпретировать визуальные значения (интерактивные запросы на основе знаний). Также можно разработать адаптивный алгоритм машинного обучения.

    Мнение эксперта

    Нельзя слепо полагаться только на мнения аналитиков

    Вячеслав Назаров,

    генеральный директор российского представительства компании Archos, Москва

    Около года назад, опираясь на мнение экспертов, мы выпустили на рынок абсолютно новый планшет, игровую консоль. Компактность и достаточная техническая мощность нашли свое признание в кругу поклонников компьютерных игр. Следует отметить, что эта группа, несмотря на свою «узкость», имела достаточно высокую покупательную способность. Сначала новинка собрала много положительных отзывов в СМИ и получила одобрительную оценку от наших партнеров. Тем не менее, вскоре выяснилось, что продажи планшета достаточно низки. Решение так и не нашло своей массовой популярности.

    Ошибка . Наша недоработка состояла в том, что интересы целевой аудитории не были изучены до конца. Пользователям, предпочитающим играть на планшете, не требуется суперграфика, поскольку они играют в основном в простые игры. Серьезные же геймеры уже привыкли к игре на компьютере на более совершенных платформах. Массированная реклама нашего продукта отсутствовала, маркетинговая кампания также была слабой, и в конечном итоге, планшет не нашел своего покупателя ни в одной из указанных групп.

    Последствия . Производство продукта пришлось сократить почти на 40 % по сравнению с первоначально запланированными объемами. Конечно, больших убытков не было, равно как и планируемой прибыли. Однако это заставило нас откорректировать некоторые стратегические задачи. Самое ценное, что было нами безвозвратно потеряно - это наше время.

    Советы . Мыслить нужно перспективно. Продуктовые линейки необходимо просчитывать вперед на два-три шага. Что это значит? При запуске некоторого модельного ряда сегодня желательно понимать его судьбу завтра и иметь хотя бы приблизительную картину того, что будет с ним через год-полтора. Конечно, полная детализация маловероятна, но базовый план все же должен быть составлен.

    И еще не стоит целиком и полностью доверяться аналитикам. Оценки экспертов надо соизмерять с собственными статистическими данными, а также с оперативной обстановкой на рынке. Если ваш продукт доработан не до конца, не следует его выпускать на рынок, поскольку для покупателя первое впечатление - самое важное, и потом переубедить его будет задачей нелегкой.

    Очень важный совет на случай неудачи - быстрота принятия решения. Категорически нельзя просто наблюдать и выжидать. Решить проблему по горячим следам всегда гораздо проще и дешевле, чем устранять запущенную.

    Какие проблемы создает система big data

    Существуют три основные группы проблем систем big data, которые в иностранной литературе объединены в 3V - Volume, Velocity и Variety, то есть:

  1. Объем.
  2. Скорость обработки.
  3. Неструктурированность.

Вопрос о хранении больших объемов информации сопряжен с необходимостью организации определенных условий, то есть с созданием пространства и возможностей. Что касается скорости, то она связана не столько с замедлениями и торможениями при использовании устаревших методов обработки, сколько с интерактивностью: результат тем продуктивнее, чем быстрее идет процесс обработки информации.

  1. Проблема неструктурированности исходит из раздельности источников, их формата и качества. Для успешного объединения и обработки big data требуется и работа по их подготовке, и аналитические инструменты или системы.
  2. Большое влияние оказывает и предел «величины» данных. Определить величину достаточно сложно, а исходя из этого - проблематично просчитать, какие потребуются финансовые вложения и какие будут необходимы технологии. Тем не менее, для определенных величин, например, терабайт, на сегодняшний день успешно применяются новые методы обработки, которые постоянно совершенствуются.
  3. Отсутствие общепринятых принципов работы с big data - еще одна проблема, которая осложняется вышеупомянутой неоднородностью потоков. Для решения этой проблемы создаются новые методы анализа big data. Исходя из утверждений представителей университетов Нью-Йорка, Вашингтона и Калифорнии, не за горами создание отдельной дисциплины и даже науки big data. Это и является главной причиной того, что в компаниях не спешат вводить проекты, связанные с большими данными. Еще один фактор - высокая стоимость.
  4. Трудности также вызывают подбор данных для анализа и алгоритм действий. На сегодняшний день отсутствует какое-либо понимание того, какие данные несут ценную информацию и требуют аналитики big data, а какие можно не принимать в расчет. В этой ситуации становится ясно и еще одно - на рынке недостаточно профессионалов отрасли, которые справятся с глубинным анализом, сделают отчет о решении задачи и, соответственно, тем самым принесут прибыль.
  5. Есть и моральная сторона вопроса: отличается ли сбор данных без ведома пользователя от грубого вторжения в частную жизнь? Стоит отметить, что сбор данных улучшает качество жизни: например, непрерывный сбор данных в системах Google и Яндекс помогает компаниям улучшать свои сервисы в зависимости от потребностей потребителей. Системы этих сервисов отмечают каждый клик пользователя, его местоположение и посещаемые сайты, все сообщения и покупки - и все это дает возможность демонстрации рекламы, исходя из поведения пользователя. Пользователь не давал своего согласия на сбор данных: такой выбор предоставлен не был. Из этого следует следующая проблема: насколько безопасно хранится информация? К примеру, сведения о потенциальных покупателях, история их покупок и переходов на различные сайты может помочь решить многие бизнес-задачи, но является ли платформа, которой пользуются покупатели, безопасной - это очень спорный вопрос. Многие апеллируют к тому, что на сегодняшний день ни одно хранилище данных - даже сервера военных служб - не защищено в достаточной степени от атак хакеров.
  • Коммерческая тайна: защита и меры наказания за разглашение

Поэтапное использование big data

Этап 1. Технологическое внедрение компании в стратегический проект.

В задачи технических специалистов входит предварительная проработка концепции развития: анализ путей развития направлений, которым это больше всего необходимо.

Для определения состава и задач проводится разговор с заказчиками, в результате чего анализируются требуемые ресурсы. Параллельно организация принимает решение об отдаче всех задач полностью на аутсорсинг или о создании гибридной команды, состоящей из специалистов этой и любых других организаций.

По статистике большое количество компаний пользуются именно такой схемой: наличие команды экспертов внутри, контролирующих качество выполнения работ и формирования движения, и снаружи, реализующей непосредственную проверку гипотез о развитии какого-либо направления.

Этап 2. Поиск инженера-исследователя данных.

Руководитель собирает штат рабочих коллегиально. Он же отвечает за развитие проекта. Сотрудники HR-службы играют непосредственную роль в создании внутренней команды.

В первую очередь такой команде необходим инженер-аналитик данных, он же data scientist , который будет заниматься задачей формирования гипотез и анализа массива информации. Обозначенные им корреляции будут в будущем использоваться для основания новой продукции и сервисов.

Особенно на начальных этапах важна задача HR-отдела . Его сотрудники решают, кто именно будет выполнять работу, направленную на развитие проекта, где его взять и каким образом придать мотивации. Инженера-аналитика данных найти не так просто, поэтому это «штучный продукт».

В каждой серьезной компании обязан находиться специалист такого профиля, в противном случае теряется фокус проекта. Инженер-аналитик в совокупности: разработчик, аналитик и бизнес-аналитик. Помимо этого, он должен обладать коммуникабельностью для показа результатов своей деятельности и багажом знаний и умений для детального разъяснения своих мыслей.

  • 24 мысли, с которых начинаются большие перемены в жизни

Примеры поиска

1. В Москве была организована такси-компания «Big Data». По ходу маршрута пассажиры отвечали на задачи из области профессиональной аналитики. В том случае, когда пассажир отвечал на большинство вопросов верно, компания предлагала ему место на работе. Основным недостатком такой техники подбора персонала является нежелание большинства участвовать в такого рода проектах. На собеседование согласилось лишь несколько человек.

2. Проведение специального конкурса по бизнес-аналитике с каким-то призом. Таким способом воспользовался крупный российский банк. В результате в конкурсе хакатона участвовало более чем 1000 людей. Добившимся наивысших успехов в конкурсе предлагалось место на работе. К сожалению, большинство победителей не изъявили желание получать должность, так как их мотивацией был только приз. Но все-таки несколько человек согласились на работу в команде.

3. Поиск в среде специалистов данных, разбирающихся в аналитике бизнеса и способных навести порядок, построив правильный алгоритм действий. К необходимым навыкам специалиста-аналитика относят: программирование, знание Python, R, Statistica, Rapidminer и другие не менее важные для бизнес-аналитика знания.

Этап 3. Создание команды для развития.

Необходима слаженная команда. При рассмотрении продвинутой аналитики, например, инновационного развития компании, потребуются менеджер для создания и развития бизнес-аналитики.

Инженер-исследователь занимается построением и проверкой гипотез для успешного развития взятого вектора.

Руководителю необходимо организовывать развитие взятого направления бизнеса, создавать новые продукты и согласовывать их с заказчиками. В его обязанности, помимо этого, входит расчет бизнес-кейсов.

Менеджер по развитию обязан тесно взаимодействовать со всеми. Инженер-аналитик и менеджер по бизнес-развитию выясняют потребности и возможности анализа big data посредством встреч с сотрудниками, отвечающими за разнообразные участки проекта. Проанализировав ситуацию, менеджер создает кейсы, благодаря которым компания будет принимать решения о дальнейшем развитии направления, сервиса или продукции.

  • Менеджер по развитию: требования и должностная инструкция

3 принципа работы с b ig d ata

Можно выделить основные методы работы с big data:

  1. Горизонтальная масштабируемость. В силу того, что данных должно быть огромное множество, любая система, обрабатывающая большое количество информации, будет расширяемой. Например, если объем данных вырос в несколько раз - соответственно во столько же раз увеличился и объем «железа» в кластере.
  2. Отказоустойчивость. Исходя из принципа горизонтальной масштабируемости, можно сделать вывод, что в кластере есть большое количество машин. Например, Hadoop-кластер от Yahoo насчитывает их больше 42000. Все методы работы с big data должны учитывать возможные неисправности и искать способы справиться с неполадками без последствий.
  3. Локальность данных. Данные, хранящиеся в больших системах, распределены в достаточно большом количестве машин. Поэтому в ситуации, когда данные хранятся на сервере №1, а обрабатываются на сервере №2, нельзя исключать возможность того, что их передача будет стоить дороже, чем обработка. Именно поэтому при проектировании большое внимание уделяется тому, чтобы данные хранились и проходили обработку на одном компьютере.

Все методы работы с большими данными, так или иначе, придерживаются этих трех принципов.

Как использовать систему big data

Эффективные решения в области работы с большими данными для самых разных направлений деятельности осуществляются благодаря множеству существующих на данный момент комбинаций программного и аппаратного обеспечения.

Важное достоинство big data - возможность применять новые инструменты с теми, которые уже используются в этой сфере. Это играет особенно важную роль в ситуации с кросс-дисциплинарными проектами. В качестве примера можно привести мультиканальные продажи и поддержку потребителей.

Для работы с big data важна определенная последовательность:

  • сначала происходит сбор данных;
  • затем информация структурируется. С этой целью используются дашборды (Dashboards) - инструменты для структурирования;
  • на следующем этапе создаются инсайты и контексты, на основании которых формируются рекомендации для принятия решений. В силу высоких затрат на сбор данных, основная задача - это определить цель использования полученных сведений.

Пример. Рекламные агентства могут использовать агрегированную у телекоммуникационных компаний информацию о местоположении. Такой подход обеспечит таргетированную рекламу. Эта же информация применима и в других сферах, связанных с оказанием и продажей услуг и товаров.

Полученная таким образом информация может оказаться ключевой в принятии решения об открытии магазина в конкретной местности.

Если рассмотреть случай использования outdoor-щитов в Лондоне, не стоит сомневаться, что на сегодняшний день такой опыт возможен только в случае, если возле каждого щита расположить специальный измерительные прибор. В то же время мобильные операторы всегда знают основную информацию о своих абонентах: их расположение, семейное положение и так далее.

Еще одна потенциальная область применения big data - сбор информации о количестве посетителей различных мероприятий.

Пример. Организаторы футбольных матчей не способны знать точное число пришедших на матч заранее. Тем не менее, они получили бы такие сведения, воспользуйся они информацией от операторов мобильной связи: где находятся потенциальные посетители за определенный период времени - месяц, неделю, день - до матча. Получается, у организаторов появилась бы возможность спланировать локацию мероприятия в зависимости от предпочтений целевой аудитории.

Big data дает также несравнимые преимущества для банковского сектора, который может воспользоваться обработанными данными для того, чтобы выявить недобросовестных картодержателей.

Пример. При заявлении держателя карты о ее утере или краже банк имеет возможность отследить местоположение карты, по которой производится расчет, и мобильного телефона держателя, чтобы удостовериться в правдивости информации. Таким образом, представитель банка имеет возможность увидеть, что платежная карта и мобильный телефон держателя находятся в одной зоне. А значит - карту использует владелец.

Благодаря преимуществам подобного рода использование информации дает компаниям много новых возможностей, а рынок big data продолжает развиваться.

Основная трудность внедрения big data состоит в сложности расчета кейса. Осложняется этот процесс наличием большого количества неизвестных.

Достаточно сложно делать какие-либо прогнозы на будущее, в то время как данные о прошлом не всегда находятся в зоне доступа. В этой ситуации самое главное - планирование своих первоначальных действий :

  1. Определение конкретного вопроса, в решении которого будет применена технология обработки big data, поможет определиться с концепцией и задаст вектор дальнейших действий. Сделав акцент на сборе информации именно по указанному вопросу, стоит также воспользоваться всеми доступными инструментами и методами для получения более ясной картины. Более того, такой подход значительно облегчит процесс принятия решения в будущем.
  2. Вероятность того, что проект big data будет реализован командой без определенных навыков и опыта - крайне мала. Знания, которые необходимо использовать в таком сложном исследовании, обычно приобретаются долгим трудом, поэтому предыдущий опыт так важен в этой сфере. Сложно переоценить влияние культуры использования информации, полученной путем подобных исследований. Они предоставляют различные возможности, в том числе и злоупотребления полученными материалами. Чтобы использовать информацию во благо, стоит придерживаться элементарных правил корректной обработки данных.
  3. Инсайты - основная ценность технологий. Рынок все еще испытывает острую нехватку сильных специалистов - имеющих понимание законов ведения бизнеса, важности информации и области ее применения. Нельзя не учитывать тот факт, что анализ данных - ключевой способ достижения поставленных целей и развития бизнеса, нужно стремиться к выработке конкретной модели поведения и восприятия. В таком случае большие данные принесут пользу и сыграют положительную роль в решении вопросов ведения дел.

Успешные кейсы внедрения big data

Некоторые из перечисленных ниже кейсов были более удачными в сборе данных, другие - в аналитике big data и путях применения данных, полученных в ходе исследования.

  1. «Тинькофф Кредитные Системы » воспользовался платформой EMC2 Greenplum для массивно-параллельных вычислений. В связи с непрерывным увеличением потока пользователей карт в банке возникла необходимость сделать обработку данных быстрее. Было принято решение о применении big data и работе с неструктурированной информацией, а также корпоративными сведениями, которые были получены из разрозненных источников. От внимания их специалистов не ушло и то, что на сайте в Российском ФНС внедряется аналитический слой федерального хранилища данных. Впоследствии на его основе планируется организовать пространство, предоставляющее доступ к данным налоговой системы для последующей обработки и получения статистических данных.
  2. Отдельно стоит рассмотреть российский стартап Synqera, занимающийся анализом big data online и разработавший платформу Simplate. Суть заключается в том, что производится обработка большого массива данных, анализируются данные о потребителях, их покупках, возрасте, настроении и душевном состоянии. Сеть магазинов косметики установила на кассах датчики, способные распознавать эмоции покупателя. После определения настроения, анализируется информация о покупателе, времени покупки. После этого покупателю целенаправленно поступает информация о скидках и акциях. Это решение увеличило лояльность потребителя и смогла повысить доход продавца.
  3. Отдельно стоит рассказать о кейсе по применению технологий big data в компании Dunkin`Donuts, которые, по аналогии с предыдущим примером, использовали проведение анализа online для увеличения прибыли. Итак, в торговых точках дисплеи отображали спецпредложения, содержимое которых менялось ежеминутно. Основанием замен в тексте служили как время суток, так и товар в наличии. Из кассовых чеков компания получила информацию, какие позиции пользовались наибольшим спросом. Такой способ позволил увеличить доход и оборот складских запасов.

Таким образом, обработка big data положительно сказывается на решении бизнес-задач. Важным фактором, конечно, является выбор стратегии и использование новейших разработок в области big data.

Информация о компании

Archos. Сфера деятельности: производство и продажа электронной техники. Территория: офисы продаж открыты в девяти странах (Испания, Китай, Россия, США, Франция и др.). Численность персонала филиала: 5 (в российском представительстве).

Вы же знаете эту известную шутку? Big Data — это как секс до 18:

  • все об этом думают;
  • все об этом говорят;
  • все думают, что их друзья это делают;
  • почти никто этого не делает;
  • тот, кто это делает, делает это плохо;
  • все думают, что в следующий раз лучше получится;
  • никто не принимает мер безопасности;
  • любому стыдно признаться в том, что он чего-то не знает;
  • если у кого-то что-то получается, от этого всегда много шума.

Но давайте начистоту, с любой шумихой рядом всегда будет идти обычное любопытство: что за сыр-бор и есть ли там что-то действительно важное? Если коротко — да, есть. Подробности — ниже. Мы отобрали для вас самые удивительные и интересные применения технологий Big Data. Это небольшое исследование рынка на понятных примерах сталкивает с простым фактом: будущее не наступает, не нужно «подождать еще n лет и волшебство станет реальностью». Нет, оно уже пришло, но все еще незаметно глазу и поэтому припекание сингулярности еще не обжигает известную точку рынка труда так сильно. Поехали.

1 Как применяются технологии Big Data там, где они зародились

Большие IT компании — то место, где зародилась наука о данных, поэтому их внутренняя кухня в этой области интереснее всего. Кампания Google, родина парадигмы Map Reduce, , единственной целью которого является обучение своих программистов технологиям машинного обучения. И в этом кроется их конкурентное преимущество: после получения новых знаний, сотрудники будут внедрять новые методы в тех проектах Google, где они постоянно работают. Представьте себе, насколько огромен список сфер, в которых кампания может совершить революцию. Один из примеров: нейронные сети используются .

Корпорация и внедряет машинное обучение во все свои продукты. Ее преимущество — наличие большой экосистемы, в которую входят все цифровые устройства, используемые в повседневной жизни. Это позволяет Apple достигать невозможного уровня: у кампании есть столько данных о пользователях, сколько нет ни у какой-либо другой. При этом, политика конфиденциальности очень строгая: корпорация всегда хвасталась тем, что не использует данных клиентов в рекламных целях. Соответственно, информация пользователей шифруется так, что юристы Apple или даже ФБР с ордером не смогут ее прочесть. По вы найдете большой обзор разработок Apple в сфере ИИ.

2 Большие Данные на 4 колесах

Современный автомобиль — накопитель информации: он аккумулирует все данные о водителе, окружающей среде, подключенных устройствах и о себе самом. Уже скоро одно транспортное средство, которое подключено к сети наподобие той, что , будет генерировать до 25 Гб данных за час.

Транспортная телематика используется автопроизводителями на протяжении многих лет, но сейчас лоббируется более сложный метод сбора данных, который в полной мере задействует Big Data. А это значит, что теперь технологии могут оповестить водителя о плохих дорожных условиях путем автоматической активации антиблокировочной тормозной и пробуксовочной системы.

Другие концерны, включая BMW, используют технологии Большиx Данных в сочетании со сведениями, собранными с тестируемых прототипов, встроенной в автомобили системой «памяти ошибок» и клиентскими жалобами, чтобы на ранней стадии производства определить слабые места модели. Теперь вместо ручной оценки данных, которая занимает месяцы, применяется современный алгоритм. Ошибки и затраты на их устранение уменьшаются, что позволяет ускорить рабочие процессы анализа информации в BMW.

Согласно экспертным оценкам, к 2019 году оборот рынка подключенных в единую сеть автомобили, достигнет $130 млрд. Это неудивительно, если учитывать темпы интеграции автопроизводителями технологий, которые являются неотъемлемой частью транспортного средства.

Использование Больших Данных помогает сделать машину более безопасной и функциональной. Так, компания Toyota путем встраивания информационных коммуникационных модулей (DCM) . Этот инструмент, использующийся для Больших Данных, обрабатывает и анализирует данные, собранные DCM, чтобы в дальнейшем извлекать из них пользу.

3 Применение Больших Данных в медицине


Реализация технологий Big Data в медицинской сфере позволяет врачам более тщательно изучить болезнь и выбрать эффективный курс лечения для конкретного случая. Благодаря анализу информации, медработникам становится легче предсказывать рецидивы и предпринимать превентивные меры. Как результат — более точная постановка диагноза и усовершенствованные методы лечения.

Новая методика позволила взглянуть на проблемы пациентов с другой стороны, что привело к открытию ранее неизвестных источников проблемы. Например, некоторые расы генетически более предрасположены к заболеваниям сердца, нежели представители других этнических групп. Теперь, когда пациент жалуется на определенное заболевание, врачи берут во внимание данные о представителях его расы, которые жаловались на такую же проблему. Сбор и анализ данных позволяет узнавать о больных намного больше: от предпочтений в еде и стиля жизни до генетической структуры ДНК и метаболитах клеток, тканей, органов. Так, Центр детской Геномной медицины в Канзас-Сити использует пациентов и анализа мутаций генетического кода, которые вызывают рак. Индивидуальный подход к каждому пациенту с учетом его ДНК поднимет эффективность лечения на качественно иной уровень.

С понимания того, как используются Большие Данные, вытекает первое и очень важное изменение в медицинской сфере. Когда пациент проходит курс лечения, больница или другое здравоохранительное учреждение может получить много значимой информации о человеке. Собранные сведения используются для прогнозирования рецидивов заболеваний с определенной степенью точности. Например, если пациент перенес инсульт, врачи изучают сведения о времени нарушения мозгового кровообращения, анализируют промежуточный период между предыдущими прецедентами (в случае возникновения таковых), обращая особое внимание на стрессовые ситуации и тяжелые физические нагрузки в жизни больного. На основании этих данных, больницы выдают пациенту четкий план действий, чтобы предотвратить возможность инсульта в будущем.

Свою роль играют и носимые устройства, которые помогают выявлять проблемы со здоровьем, даже если у человека нет явных симптомов той или иной болезни. Вместо того чтобы оценивать состояние пациента путем длительного курса обследований, врач может делать выводы на основании собранной фитнес-трекером или «умными» часами информации.

Один из последних примеров — . В то время как пациент проходил обследование из-за нового приступа судороги, вызванного пропущенным приемом лекарств, врачи обнаружили, что мужчина имеет куда более серьезную проблему со здоровьем. Этой проблемой оказалась фибрилляция предсердий. Диагноз удалось поставить благодаря тому, что сотрудники отделения получили доступ к телефону пациента, а именно к приложению, сопряженному с его фитнес-трекером. Данные с приложения оказались ключевым фактором в определении диагноза, ведь на момент обследования у мужчины никаких сердечных отклонений обнаружено не было.

Это лишь один из немногих случаев, который показывает, почему использование Больших Данных в медицинской сфере сегодня играет столь значимую роль.

4 Анализ данных уже стал стержнем розничной торговли

Понимание пользовательских запросов и таргетинг — одна из самых больших и максимально освещенных широкой публике областей применения инструментов Big Data. Большие Данные помогают анализировать клиентские привычки, чтобы в дальнейшем лучше понимать запросы потребителей. Компании стремятся расширить традиционный набор данных информацией из социальных сетей и историей поиска браузера с целью формирования максимально полной клиентской картины. Иногда крупные организации в качестве глобальной цели выбирают создание собственной предсказательной модели.

Например, сети магазинов Target с помощью глубинного анализа данных и собственной системы прогнозирования удается с высокой точностью определить — . За каждым клиентом закрепляется ID, который в свою очередь привязан к кредитке, имени или электронной почте. Идентификатор служит своеобразной корзиной покупок, где хранится информация обо всем, что когда-либо человек приобрел. Специалистами сети установлено, что женщины в положении активно приобретают неароматизированные средства перед вторым триместром беременности, а в течение первых 20 недель налегают на кальциевые, цинковые и магниевые добавки. На основании полученных данных Target отправляет купоны на детские товары клиентам. Сами же скидки на товары для детей «разбавляются» купонами на другие продукты, чтобы предложения купить кроватку или пеленки не выглядели слишком навязчивыми.

Даже правительственные ведомства нашли способ, как использовать технологии Big Data для оптимизации избирательных кампаний. Некоторые считают, что победа Б. Обамы на президентских выборах США в 2012 году обусловлена превосходной работой его команды аналитиков, которые обрабатывали огромные массивы данных в правильном ключе.

5 Большие Данные на страже закона и порядка


За последние несколько лет правоохранительным структурам удалось выяснить, как и когда использовать Большие Данные. Общеизвестным фактом является то, что Агентство национальной безопасности применяет технологии Больших Данных, чтобы предотвратить террористические акты. Другие ведомства задействуют прогрессивную методологию, чтобы предотвращать более мелкие преступления.

Департамент полиции Лос-Анджелеса применяет . Она занимается тем, что обычно называют проактивной охраной правопорядка. Используя отчеты о преступлениях за определенный период времени, алгоритм определяет районы, где вероятность совершения правонарушений является наибольшей. Система отмечает такие участки на карте города небольшими красными квадратами и эти данные тут же передаются в патрульные машины.

Копы Чикаго используют технологии Больших Данных немного другим образом. У блюстителей правопорядка из Города ветров также , но он направлен на очерчивание «круга риска», состоящего из людей, которые могут оказаться жертвой или участником вооруженного нападения. По информации газеты The New York Times, данный алгоритм присваивает человеку оценку уязвимости на основании его криминального прошлого (аресты и участие в перестрелках, принадлежность к преступным группировкам). Разработчик системы уверяет, что в то время как система изучает криминальное прошлое личности, она не учитывает второстепенных факторов вроде расы, пола, этнической принадлежности и месторасположения человека.

6 Как технологии Big Data помогают развиваться городам


Генеральный директор Veniam Жоао Баррос демонстрирует карту отслеживания Wi-Fi-роутеров в автобусах города Порту

Анализ данных также применяется для улучшения ряда аспектов жизнедеятельности городов и стран. Например, зная точно, как и когда использовать технологии Big Data, можно оптимизировать потоки транспорта. Для этого берется в расчет передвижение автомобилей в режиме онлайн, анализируются социальные медиа и метеорологические данные. Сегодня ряд городов взял курс на использование анализа данных с целью объединения транспортной инфраструктуры с другими видами коммунальных услуг в единое целое. Это концепция «умного» города, в котором автобусы ждут опаздывающий поезд, а светофоры способны прогнозировать загруженность на дорогах, чтобы минимизировать пробки.

На основе технологий Больших Данных в городе Лонг-Бич работают «умные» счетчики воды, которые используются для пресечения незаконного полива. Ранее они применялись с целью сокращения потребления воды частными домовладениями (максимальный результат — сокращение на 80%). Экономия пресной воды — вопрос актуальный всегда. Особенно, когда государство переживает самую сильную засуху, которая когда-либо была зафиксирована.

К перечню тех, кто использует Big Data, присоединились представители Департамента транспорта города Лос-Анджелеса. На основании данных, полученных от датчиков дорожных камер, власти производят контроль работы светофоров , что в свою очередь позволяет регулировать траффик. Под управлением компьютеризованной системы находится порядка 4 500 тысяч светофоров по всему городу. Согласно официальным данным, новый алгоритм помог уменьшить заторы на 16%.

7 Двигатель прогресса в сфере маркетинга и продаж


В маркетинге инструменты Big Data позволяют выявить, продвижение каких идей на том или ином этапе цикла продаж является наиболее эффективным. С помощью анализа данных определяется, как инвестиции способны улучшить систему управления взаимоотношениями с клиентами, какую стратегию следует выбрать для повышения коэффициента конверсии и как оптимизировать жизненный цикл клиента. В бизнесе, связанном с облачными технологиями, алгоритмы Больших Данных применяют для выяснения того, как минимизировать цену привлечения клиента и увеличить его жизненный цикл.

Дифференциация стратегий ценообразования в зависимости от внутрисистемного уровня клиента — это, пожалуй, главное, для чего Big Data используется в сфере маркетинга. Компания McKinsey выяснила , что около 75% доходов среднестатистической фирмы составляют базовые продукты, на 30% из которых устанавливаются некорректные цены. Увеличение цены на 1% приводит к росту операционной прибыли на 8,7%.

Исследовательской группе Forrester удалось определить , что анализ данных позволяет маркетологам сосредоточиться на том, как сделать отношения с клиентами более успешными. Исследуя направление развития клиентов, специалисты могут оценить уровень их лояльности, а также продлить жизненный цикл в контексте конкретной компании.

Оптимизация стратегий продаж и этапы выхода на новые рынки с использованием геоаналитики находят отображение в биофармацевтической промышленности. Согласно McKinsey , компании, занимающиеся производством медикаментов, тратят в среднем от 20 до 30% прибыли на администрирование и продажи. Если предприятия начнут активнее использовать Большие Данные , чтобы определить наиболее рентабельные и быстро растущие рынки, расходы будут немедленно сокращены.

Анализ данных — средство получения компаниями полного представления относительно ключевых аспектов их бизнеса. Увеличение доходов, снижение затрат и сокращение оборотного капитала являются теми тремя задачами, которые современный бизнес пытается решить с помощью аналитических инструментов.

Наконец, 58% директоров по маркетингу уверяют , что реализация технологий Big Data прослеживается в поисковой оптимизации (SEO), e-mail- и мобильном маркетинге, где анализ данных отыгрывает наиболее значимую роль в формировании маркетинговых программ. И лишь на 4% меньше респондентов уверены, что Большие Данные будут играть значимую роль во всех маркетинговых стратегиях на протяжении долгих лет.

8 Анализ данных в масштабах планеты

Не менее любопытно то, . Возможно, что именно машинное обучение в конечном счете будет единственной силой, способной поддерживать хрупкое равновесие. Тема влияния человека на глобальное потепление до сих пор вызывает много споров, поэтому только достоверные предсказательные модели на основе анализа большого объема данных могут дать точный ответ. В конечном счете, снижение выбросов поможет и нам всем: мы будем меньше тратиться на энергию.

Сейчас Big Data — это не абстрактное понятие, которое, может быть, найдет свое применение через пару лет. Это вполне рабочий набор технологий, способный принести пользу практически во всех сферах человеческой деятельности: от медицины и охраны общественного порядка до маркетинга и продаж. Этап активной интеграции Больших Данных в нашу повседневную жизнь только начался, и кто знает, какова будет роль Big Data уже через несколько лет?

В свое время я услышал термин “Big Data” от Германа Грефа (глава Сбербанка). Мол, они сейчас у себя активно работают над внедрением, потому что это поможет им сократить время работы с каждым клиентом.

Второй раз я столкнулся с этим понятием в интернет-магазине клиента, над которым мы работали и увеличивали ассортимент с пары тысяч до пары десятков тысяч товарных позиций.

Третий раз, когда увидел, что в Yandex требуется аналитик big data. Тогда я решил поглубже разобраться в этой теме и заодно написать статью, которая расскажет что это за термин такой, который будоражит умы ТОП-менеджеров и интернет-пространство.

VVV или VVVVV

Обычно любую свою статью я начинаю с пояснения что же это за термин такой. Эта статья не станет исключением.

Однако, это вызвано прежде всего не желанием показать какой я умный, а тем, что тема по-настоящему сложная и требует тщательного пояснения.

К примеру, Вы можете почитать что такое big data в Википедии, ничего не понять, а потом вернуться в эту статью, чтобы все таки разобраться в определении и применимости для бизнеса. Итак, начнём с описания, а потом к примерам для бизнеса.

Big data это большие данные. Удивительно, да? Реально, с английского это переводится как “большие данные”. Но это определение, можно сказать, для чайников.

Важно . Технология big data это подход/метод обработки большего числа данных для получения новой информации, которые тяжело обработать обычными способами.

Данные могут быть как обработанными (структурированными), так и разрозненными (то есть неструктурированными).

Сам термин появился относительно недавно. В 2008 году в научном журнале этот подход предсказывался как нечто необходимое для работы с большим объемом информации, которая увеличивается в геометрической прогрессии.

К примеру, ежегодно информация в интернете, которую нужно хранить, ну и само собой обрабатывать, увеличивается на 40%. Еще раз. +40% каждый год появляется в интернете новой информации.

Если распечатанные документы понятны и способы обработки их тоже понятны (перенести в электронный вид, сшить в одну папку, пронумеровать), то что делать с информацией, которая представлена в совершенно других “носителях” и других объёмах:

  • интернет-документы;
  • блоги и социальные сети;
  • аудио/видео источники;
  • измерительные устройства;

Есть характеристики, которые позволяют отнести информацию и данные именно к big data.

То есть не все данные могут быть пригодны для аналитики. В этих характеристиках как раз и заложено ключевое понятие биг дата. Все они умещаются в три V.

  1. Объем (от англ. volume). Данные измеряются в величине физического объема “документа”, подлежащего анализу;
  2. Скорость (от англ. velocity). Данные не стоят в своем развитии, а постоянно прирастают, именно поэтому и требуется их быстрая обработка для получения результатов;
  3. Многообразие (от англ. variety). Данные могут быть не одноформатными. То есть могут быть разрозненными, структурированным или структурированными частично.

Однако, периодически к VVV добавляют и четвертую V (veracity - достоверность/правдоподобность данных) и даже пятую V (в некоторых вариантах это - viability - жизнеспособность, в других же это - value - ценность).

Где-то я видел даже 7V, которые характеризуют данные, относящиеся к биг дата. Но на мой взгляд это из серии (где периодически добавляются P, хотя для понимания достаточно начальных 4-х).

Кому же это надо?

Встает логичный вопрос, как можно использовать информацию (если что, биг дата это сотни и тысячи терабайт)? Даже не так.

Вот есть информация. Так для чего придумали тогда биг дата? Какое применение у big data в маркетинге и в бизнесе?

  1. Обычные базы данных не могут хранить и обрабатывать (я сейчас говорю даже не про аналитику, а просто хранение и обработку) огромного количества информации.

    Биг дата же решает эту главную задачу. Успешно хранит и управляет информацией с большим объемом;

  2. Структурирует сведения, приходящие из различных источников (видео, изображений, аудио и текстовых документов), в один единый, понятный и удобоваримый вид;
  3. Формирование аналитики и создание точных прогнозов на основании структурированной и обработанной информации.

Это сложно. Если говорить просто, то любой маркетолог, который понимает, что если изучить большой объем информации (о Вас, Вашей компании, Ваших конкурентах, Вашей отрасли), то можно получить очень приличные результаты:

  • Полное понимание Вашей компании и Вашего бизнеса со стороны цифр;
  • Изучить своих конкурентов. А это, в свою очередь, даст возможность вырваться вперед за счет преобладания над ними;
  • Узнать новую информацию о своих клиентах.

И именно потому что технология big data дает следующие результаты, все с ней и носятся.

Пытаются прикрутить это дело в свою компанию, чтобы получить увеличение продаж и уменьшение издержек. А если конкретно, то:

  1. Увеличение кросс продаж и дополнительных продаж за счет лучшего знания предпочтений клиентов;
  2. Поиск популярных товаров и причин почему их покупают (и наоборот);
  3. Усовершенствование продукта или услуги;
  4. Улучшение уровня обслуживания;
  5. Повышение лояльности и клиентоориентированности;
  6. Предупреждение мошенничества (больше актуально для банковской сферы);
  7. Снижение лишних расходов.

Самый распространенный пример, который приводится во всех источниках - это, конечно ж, компания Apple, которая собирает данные о своих пользователях (телефон, часы, компьютер).

Именно из-за наличия эко-системы корпорация столько знает о своих пользователях и в дальнейшем использует это для получения прибыли.

Эти и другие примеры использования Вы можете прочитать в любой другой статье кроме этой.

Идём в будущее

Я же Вам расскажу о другом проекте. Вернее о человеке, который строит будущее, используя big data решения.

Это Илон Маск и его компания Tesla. Его главная мечта - сделать автомобили автономными, то есть Вы садитесь за руль, включаете автопилот от Москвы до Владивостока и... засыпаете, потому что Вам совершенно не нужно управлять автомобилем, ведь он все сделает сам.

Казалось бы, фантастика? Но нет! Просто Илон поступил гораздо мудрее, чем Google, которые управляют автомобилями с помощью десятков спутников. И пошел другим путем:

  1. В каждый продаваемый автомобиль ставится компьютер, который собирают всю информацию.

    Всю - это значит вообще всю. О водителе, стиле его вождения, дорогах вокруг, движении других автомобилей. Объем таких данных доходит до 20-30 ГБ в час;

  2. Далее эта информация по спутниковой связи передается в центральный компьютер, который занимается обработкой этих данных;
  3. На основе данных big data, которые обрабатывает данный компьютер, строится модель беспилотного автомобиля.

К слову, если у Google дела идут довольно скверно и их автомобили все время попадают в аварии, то у Маска, за счет того что идет работа с big data, дела обстоят гораздо лучше, ведь тестовые модели показывают очень неплохие результаты.

https://youtu.be/lc2ZVUZ6kno

Но... Это все из экономики. Что мы все о прибыли, да о прибыли? Многое, что может решить биг дата, совершенно не связано с заработком и деньгами.

Статистика Google, как раз таки основанная на big data, показывает интересную вещь.

Перед тем как медики объявляют о начале эпидемии заболевания в каком-то регионе, в этом регионе существенно возрастает количество поисковых запросов о лечении данного заболевания.

Таким образом, правильное изучение данных и их анализ может сформировать прогнозы и предсказать начало эпидемии (и, соответственно, ее предотвращение) гораздо быстрее, чем заключение официальных органов и их действия.

Применение в России

Однако, Россия как всегда немного “притормаживает”. Так само определение big data в России появилось не более, чем 5 лет назад (я сейчас именно про обычные компании).

И это не смотря на то, что это один из самых быстрорастущих рынков в мире (наркотики и оружие нервно курят в сторонке), ведь ежегодно рынок программного обеспечения для сбора и анализа big data прирастает на 32%.

Чтобы охарактеризовать рынок big data в России, мне вспоминается одна старая шутка. Биг дата это как секс до 18 лет.

Все об этом говорят, вокруг этого много шумихи и мало реальных действий, и всем стыдно признаться, что сами-то они этим не занимаются. И правда, вокруг этого много шумихи, но мало реальных действий.

Хотя известная исследовательская компания Gartner уже в 2015 году объявила, что биг дата это уже не возрастающий тренд (как кстати и искусственный интеллект), а вполне самостоятельные инструменты для анализа и развития передовых технологий.

Наиболее активные ниши, где применяется big data в России, это банки/страхование (недаром я начал статью с главы Сбербанка), телекоммуникационная сфера, ритейл, недвижимость и... государственный сектор.

Для примера расскажу более подробно о паре секторов экономики, которые используют алгоритмы big data.

Банки

Начнём с банков и той информации, которую они собирают о нас и наших действиях. Для примера я взял ТОП-5 российских банков, которые активно инвестируют в big data:

  1. Сбербанк;
  2. Газпромбанк;
  3. ВТБ 24;
  4. Альфа Банк;
  5. Тинькофф банк.

Особенно приятно видеть в числе российских лидеров Альфа Банк. Как минимум, приятно осознавать, что банк, официальным партнером которого ты являешься, понимает необходимость внедрения новых маркетинговых инструментов в свою компанию.

Но примеры использования и удачного внедрения big data я хочу показать на банке, который мне нравится за нестандартный взгляд и поступки его основателя.

Я говорю про Тинькофф банк. Их главной задачей стояла разработка системы для анализа больших данных в режиме реального времени из-за разросшейся клиентской базы.

Результаты: время внутренних процессов сократилось минимум в 10 раз, а для некоторых – более, чем в 100 раз.

Ну и небольшое отвлечение. Знаете почему я заговорил про нестандартные выходки и поступки Олега Тинькова?

Просто на мой взгляд именно они помогли ему превратиться из бизнесмена средней руки, коих тысячи в России, в одного из самых известных и узнаваемых предпринимателей. В подтверждение посмотрите это необычное и интересное видео:

https://youtu.be/XHMaD5HAvfk

Недвижимость

В недвижимости все гораздо сложнее. И это именно тот пример, который я хочу Вам привести для понимания биг даты в пределах обычного бизнеса. Исходные данные:

  1. Большой объем текстовой документации;
  2. Открытые источники (частные спутники, передающие данные об изменениях земли);
  3. Огромный объем неконтролируемой информации в Интернет;
  4. Постоянные изменения в источниках и данных.

И на основе этого нужно подготовить и оценить стоимость земельного участка, например, под уральской деревней. У профессионала на это уйдет неделя.

У Российского общества оценщиков & РОСЭКО, собственно которые и внедрили себе анализ big data с помощью программного обеспечения, уйдет на это не более 30 минут неторопливой работы. Сравните, неделя и 30 минут. Колоссальная разница.

Ну и на закуску

Конечно же огромные объемы информации не могут храниться и обрабатываться на простых жестких дисках.

А программное обеспечение, которое структурирует и анализирует данные - это вообще интеллектуальная собственность и каждый раз авторская разработка. Однако, есть инструменты, на основе которых создается вся эта прелесть:

  • Hadoop & MapReduce;
  • NoSQL базы данных;
  • Инструменты класса Data Discovery.

Если честно, я не смогу Вам внятно объяснить чем они отличаются друг от друга, так как знакомству и работе с этими вещами учат в физико-математических институтах.

Зачем тогда я об этом заговорил, если не смогу объяснить? Помните во всех кино грабители заходят в любой банк и видят огромное число всяких железяк, подключенных к проводам?

То же самое и в биг дате. К примеру, вот модель, которая является на данный момент одним из самых лидеров на рынке.

Инструмент Биг дата

Стоимость в максимальной комплектации доходит до 27 миллионов рублей за стойку. Это, конечно, люксовая версия. Я это к тому, чтобы Вы заранее примерили создание big data в своем бизнесе.

Коротко о главном

Вы можете спросить зачем же вам, малому и среднему бизнесу работа с биг дата?

На это я отвечу Вам цитатой одного человека: “В ближайшее время клиентами будут востребованы компании, которые лучше понимают их поведение, привычки и максимально соответствуют им”.

Но давайте взглянем правде в глаза. Чтобы внедрить биг дата в малом бизнесе, это надо обладать не только большими бюджетами на разработку и внедрение софта, но и на содержание специалистов, хотя бы таких как аналитик big data и сисадмин.

И это я сейчас молчу о том, что у Вас должны быть такие данные для обработки.

Окей. Для малого бизнеса тема почти не применима. Но это не значит, что Вам нужно забыть все что прочитали выше.

Просто изучайте не свои данные, а результаты аналитики данных известных как зарубежных, так и российских компаний.

К примеру, розничная сеть Target с помощью аналитики по big data выяснила, что беременные женщины перед вторым триместром беременности (с 1-й по 12-ю неделю беременности) активно скупают НЕароматизированные средства.

Благодаря этим данным они отправляют им купоны со скидками на неароматизированные средства с ограниченным сроком действия.

А если Вы ну прям совсем небольшое кафе, к примеру? Да очень просто. Используйте приложение лояльности.

И через некоторое время и благодаря накопленной информации, Вы сможете не только предлагать клиентам релевантные их потребностям блюда, но и увидеть самые непродающиеся и самые маржинальные блюда буквально парой щелчков мышки.

Отсюда вывод. Внедрять биг дата малому бизнесу вряд ли стоит, а вот использовать результаты и наработки других компаний - обязательно.

Big Data – это не только сами данные, но и технологии их обработки и использования, методы поиска необходимой информации в больших массивах. Проблема больших данных по-прежнему остается открытой и жизненно важной для любых систем, десятилетиями накапливающих самую разнообразную информацию.

С данным термином связывают выражение «Volume, Velocity, Variety» – принципы, на которых строится работа с большими данными. Это непосредственно объем информации , быстродействие ее обработки и разнообразие сведений , хранящихся в массиве. В последнее время к трем базовым принципам стали добавлять еще один – Value , что обозначает ценность информации . То есть, она должна быть полезной и нужной в теоретическом или практическом плане, что оправдывало бы затраты на ее хранение и обработку.

В качестве примера типичного источника больших данных можно привести социальные сети – каждый профиль или публичная страница представляет собой одну маленькую каплю в никак не структурированном океане информации. Причем независимо от количества хранящихся в том или ином профиле сведений взаимодействие с каждым из пользователей должно быть максимально быстрым.

Большие данные непрерывно накапливаются практически в любой сфере человеческой жизни. Сюда входит любая отрасль, связанная либо с человеческими взаимодействиями, либо с вычислениями. Это и социальные медиа, и медицина, и банковская сфера, а также системы устройств, получающие многочисленные результаты ежедневных вычислений. Например, астрономические наблюдения, метеорологические сведения и информация с устройств зондирования Земли.

Информация со всевозможных систем слежения в режиме реального времени также поступает на сервера той или иной компании. Телевидение и радиовещание, базы звонков операторов сотовой связи – взаимодействие каждого конкретного человека с ними минимально, но в совокупности вся эта информация становится большими данными.

Технологии больших данных стали неотъемлемыми от научно-исследовательской деятельности и коммерции. Более того, они начинают захватывать и сферу государственного управления – и везде требуется внедрение все более эффективных систем хранения и манипулирования информацией.

Впервые термин «большие данные» появился в прессе в 2008 году, когда редактор журнала Nature Клиффорд Линч выпустил статью на тему развития будущего науки с помощью технологий работы с большим количеством данных. До 2009 года данный термин рассматривался только с точки зрения научного анализа, но после выхода еще нескольких статей пресса стала широко использовать понятие Big Data – и продолжает использовать его в настоящее время.

В 2010 году стали появляться первые попытки решить нарастающую проблему больших данных. Были выпущены программные продукты, действие которых было направлено на то, чтобы минимизировать риски при использовании огромных информационных массивов.

К 2011 году большими данными заинтересовались такие крупные компании, как Microsoft, Oracle, EMC и IBM – они стали первыми использовать наработки Big data в своих стратегиях развития, причем довольно успешно.

ВУЗы начали проводить изучение больших данных в качестве отдельного предмета уже в 2013 году – теперь проблемами в этой сфере занимаются не только науки о данных, но и инженерия вкупе с вычислительными предметами.

К основным методам анализа и обработки данных можно отнести следующие:

  1. Методы класса или глубинный анализ (Data Mining).

Данные методы достаточно многочисленны, но их объединяет одно: используемый математический инструментарий в совокупности с достижениями из сферы информационных технологий.

  1. Краудсорсинг.

Данная методика позволяет получать данные одновременно из нескольких источников, причем количество последних практически не ограничено.

  1. А/В-тестирование.

Из всего объема данных выбирается контрольная совокупность элементов, которую поочередно сравнивают с другими подобными совокупностями, где был изменен один из элементов. Проведение подобных тестов помогает определить, колебания какого из параметров оказывают наибольшее влияние на контрольную совокупность. Благодаря объемам Big Data можно проводить огромное число итераций, с каждой из них приближаясь к максимально достоверному результату.

  1. Прогнозная аналитика.

Специалисты в данной области стараются заранее предугадать и распланировать то, как будет вести себя подконтрольный объект, чтобы принять наиболее выгодное в этой ситуации решение.

  1. Машинное обучение (искусственный интеллект).

Основывается на эмпирическом анализе информации и последующем построении алгоритмов самообучения систем.

  1. Сетевой анализ.

Наиболее распространенный метод для исследования социальных сетей – после получения статистических данных анализируются созданные в сетке узлы, то есть взаимодействия между отдельными пользователями и их сообществами.

В 2017 году, когда большие данные перестали быть чем-то новым и неизведанным, их важность не только не уменьшилась, а еще более возросла. Теперь эксперты делают ставки на то, что анализ больших объемов данных станет доступным не только для организаций-гигантов, но и для представителей малого и среднего бизнеса. Такой подход планируется реализовать с помощью следующих составляющих:

  • Облачные хранилища.

Хранение и обработка данных становятся более быстрыми и экономичными – по сравнению с расходами на содержание собственного дата-центра и возможное расширение персонала аренда облака представляется гораздо более дешевой альтернативой.

  • Использование Dark Data.

Так называемые «темные данные» – вся неоцифрованная информация о компании, которая не играет ключевой роли при непосредственном ее использовании, но может послужить причиной для перехода на новый формат хранения сведений.

  • Искусственный интеллект и Deep Learning.

Технология обучения машинного интеллекта, подражающая структуре и работе человеческого мозга, как нельзя лучше подходит для обработки большого объема постоянно меняющейся информации. В этом случае машина сделает все то же самое, что должен был бы сделать человек, но при этом вероятность ошибки значительно снижается.

  • Blockchain.

Эта технология позволяет ускорить и упростить многочисленные интернет-транзакции, в том числе международные. Еще один плюс Блокчейна в том, что благодаря ему снижаются затраты на проведение транзакций.

  • Самообслуживание и снижение цен.

В 2017 году планируется внедрить «платформы самообслуживания» – это бесплатные площадки, где представители малого и среднего бизнеса смогут самостоятельно оценить хранящиеся у них данные и систематизировать их.

Все маркетинговые стратегии так или иначе основаны на манипулировании информацией и анализе уже имеющихся данных. Именно поэтому использование больших данных может предугадать и дать возможность скорректировать дальнейшее развитие компании.

К примеру, RTB-аукцион, созданный на основе больших данных, позволяет использовать рекламу более эффективно – определенный товар будет показываться только той группе пользователей, которая заинтересована в его приобретении.

Чем выгодно применение технологий больших данных в маркетинге и бизнесе?

  1. С их помощью можно гораздо быстрее создавать новые проекты, которые с большой вероятностью станут востребованными среди покупателей.
  2. Они помогают соотнести требования клиента с существующим или проектируемым сервисом и таким образом подкорректировать их.
  3. Методы больших данных позволяют оценить степень текущей удовлетворенности всех пользователей и каждого в отдельности.
  4. Повышение лояльности клиентов обеспечивается за счет методов обработки больших данных.
  5. Привлечение целевой аудитории в интернете становится более простым благодаря возможности контролировать огромные массивы данных.

Например, один из самых популярных сервисов для прогнозирования вероятной популярности того или иного продукта – Google.trends. Он широко используется маркетологами и аналитиками, позволяя им получить статистику использования данного продукта в прошлом и прогноз на будущий сезон. Это позволяет руководителям компаний более эффективно провести распределение рекламного бюджета, определить, в какую область лучше всего вложить деньги.

Примеры использования Big Data

Активное внедрение технологий Big Data на рынок и в современную жизнь началось как раз после того, как ими стали пользоваться всемирно известные компании, имеющие клиентов практически в каждой точке земного шара.

Это такие социальные гиганты, как Facebook и Google, IBM., а также финансовые структуры вроде Master Card, VISA и Bank of America.

К примеру, IBM применяет методы больших данных к проводимым денежным транзакциям. С их помощью было выявлено на 15% больше мошеннических транзакций, что позволило увеличить сумму защищенных средств на 60%. Также были решены проблемы с ложными срабатываниями системы – их число сократилось более, чем наполовину.

Компания VISA аналогично использовала Big Data, отслеживая мошеннические попытки произвести ту или иную операцию. Благодаря этому ежегодно они спасают от утечки более 2 млрд долларов США.

Министерство труда Германии сумело сократить расходы на 10 млрд евро, внедрив систему больших данных в работу по выдаче пособий по безработице. При этом было выявлено, что пятая часть граждан данные пособия получает безосновательно.

Big Data не обошли стороной и игровую индустрию. Так, разработчики World of Tanks провели исследование информации обо всех игроках и сравнили имеющиеся показатели их активности. Это помогло спрогнозировать возможный будущий отток игроков – опираясь на сделанные предположения, представители организации смогли более эффективно взаимодействовать с пользователями.

К числу известных организаций, использующих большие данные, можно также отнести HSBC, Nasdaq, Coca-Cola, Starbucks и AT&T.

Самой большой проблемой больших данных являются затраты на их обработку. Сюда можно включить как дорогостоящее оборудование, так и расходы на заработную плату квалифицированным специалистам, способным обслуживать огромные массивы информации. Очевидно, что оборудование придется регулярно обновлять, чтобы оно не теряло минимальной работоспособности при увеличении объема данных.

Вторая проблема опять же связана с большим количеством информации, которую необходимо обрабатывать. Если, например, исследование дает не 2-3, а многочисленное количество результатов, очень сложно остаться объективным и выделить из общего потока данных только те, которые окажут реальное влияние на состояние какого-либо явления.

Проблема конфиденциальности Big Data. В связи с тем, что большинство сервисов по обслуживанию клиентов переходят на онлайн-использование данных, очень легко стать очередной мишенью для киберпреступников. Даже простое хранение личной информации без совершения каких-либо интернет-транзакций может быть чревато нежелательными для клиентов облачных хранилищ последствиями.

Проблема потери информации. Меры предосторожности требуют не ограничиваться простым однократным резервированием данных, а делать хотя бы 2-3 резервных копии хранилища. Однако с увеличением объема растут сложности с резервированием – и IT-специалисты пытаются найти оптимальное решение данной проблемы.

Рынок технологий больших данных в России и мире

По данным на 2014 год 40% объема рынка больших данных составляют сервисные услуги. Немного уступает (38%) данному показателю выручка от использования Big Data в компьютерном оборудовании. Оставшиеся 22% приходятся на долю программного обеспечения.

Наиболее полезные в мировом сегменте продукты для решения проблем Big Data, согласно статистическим данным, – аналитические платформы In-memory и NoSQL . 15 и 12 процентов рынка соответственно занимают аналитическое ПО Log-file и платформы Columnar. А вот Hadoop/MapReduce на практике справляются с проблемами больших данных не слишком эффективно.

Результаты внедрения технологий больших данных:

  • рост качества клиентского сервиса;
  • оптимизация интеграции в цепи поставок;
  • оптимизация планирования организации;
  • ускорение взаимодействия с клиентами;
  • повышение эффективности обработки запросов клиентов;
  • снижение затрат на сервис;
  • оптимизация обработки клиентских заявок.

Лучшие книги по Big Data



Подойдет для первоначального изучения технологий обработки больших данных – легко и понятно вводит в курс дела. Дает понять, как обилие информации повлияло на повседневную жизнь и все ее сферы: науку, бизнес, медицину и т. д. Содержит многочисленные иллюстрации, поэтому воспринимается без особых усилий.

«Introduction to Data Mining», Панг-Нинг Тан, Майкл Стейнбах и Випин Кумар

Также полезная для новичков книга по Big Data, объясняющая работу с большими данными по принципу «от простого к сложному». Освещает многие немаловажные на начальном этапе моменты: подготовку к обработке, визуализацию, OLAP, а также некоторые методы анализа и классификации данных.

Практическое руководство по использованию больших данных и работе с ними с применением языка программирования Python. Подходит как студентам инженерных специальностей, так и специалистам, которые хотят углубить свои знания.

«Hadoop for Dummies», Дирк Дерус, Пол С. Зикопулос, Роман Б. Мельник

Hadoop – это проект, созданный специально для работы с распределенными программами, организующими выполнение действий на тысячах узлов одновременно. Знакомство с ним поможет более детально разобраться в практическом применении больших данных.