что такое биг дата
Алекс Цельный

Big Data: область применения и другие особенности

Пожалуй, многие слышали о таком понятии как big data, но далеко не каждый реально понимает, что это понятие значит. Дословный перевод с английского — большие данные. А вот насколько они большие, какими свойствами обладают и что с ними можно делать, мы и будем с тобой разбираться сегодня.

Что такое big data

Big data — что это такое?

Простым словом «информация» можно обобщить наше понятие, но это будет слишком грубо. Big data — это огромные объемы структурированных и неструктурированных данных, которые обрабатываются самыми разными способами и методами с целью использования их для решения разных задач. Объемы этих данных настолько велики, что ни один классический компьютер просто не в силах вместить в себя такой объем информации.

Важно понимать, что такие данные в таких масштабах невозможно проанализировать и отфильтровать стандартными средствами аналитики. Именно по этой причине понимают технологии поиска, обработки и применения этой самой информации.

Данные, которые относятся к бигдейта, редко бывают структурированными. Как правило, они носят бессистемный характер и нередко имеют ошибки. В 2021 году они измеряются в петабайтах. Для понимания: один петабайт — это миллион гигабайт. И обновляются они ежесекундно.

Чтобы лучше разобраться в понятии, давай приведем пример: данные о тысячи сотрудников колл-центра, собранные в программе или таблице — это небольшие данные. Они имеют четкую структуру, их легко выгрузить в отчет или Excel-таблицу, отфильтровать и проанализировать.

А вот данные обо всех действиях этих самых сотрудников на работе, это уже биг дата. Огромные объемы неструктурированной разноплановой информации, которая идет просто потоком. Далее полученные данные обрабатываются с целью получения из них полезной информации или какой-либо выгоды.

Но к этому мы вернемся позже.

История появления

Термин «большие данные» связывают с Клиффордом Линчем, редактором журнала Nature. Несмотря на то, что большие данные впервые появились в 60–70-е годы ХХ века, именно он в сентябре 2008 года издал спецвыпуск журнала, в котором говорилось о взрывном росте информации и о влиянии на будущее науки технологий, который могут работать с большими данными.

Термин был предложен, исходя из аналогии с известными деловыми метафорами «большая нефть» или «большая руда», На тот момент к big data относили неоднородные данные, которые превышали суточный размер в 150 гигабайт.

Несмотря на то, что изначально термин появился в науке, уже в 2009 году его начали активно использовать в деловой прессе. Считается, что первые технологии по обработке больших данных появились в 2010 году. Уже к 2011 году понятие «биг дата» начинают активно использовать многие крупнейшие поставщики информационных технологий. Среди них IBM, Oracle, Microsoft, Hewlett-Packard, EMC. А основные аналитики IT индустрии занимаются исследованием этой концепции.

использование биг дата

В 2011 году Gartner отметил большие данные в качестве второго тренда в информационно-технологической инфраструктуре. Тогда же прогнозировалось, что если начать активно использовать большие данные, то они окажут наиболее сильное влияние на сферу здравоохранения, торговлю, производство, государственное управление.

В 2013 году big data начинают изучать в ВУЗах. А уже в 2015 году все та же Gartner исключила большие данные из цикла зрелости новых технологий, объясняя это переходом к практическому применению.

Как именно работает big data

Характеристики

Объемы данных, которые можно назвать биг дата, обладают рядом характеристик, которые называют три V: Volume, Velocity, Variety. Разберем подробнее.

Volume (объем)

Измерение данных по физической величине и занимаемому пространству. К биг дата можно отнести то, что превышает 150 гигабайт в сутки.

Velocity (скорость, обновление)

Данные обновляются постоянно в режиме реального времени, и для правильной обработки нужны интеллектуальные технологии больших данных.

Variety (разнообразие, вариативность)

Информация в больших данных может быть самой разной — структурированной и нет, одного или сразу нескольких типов. Например, социальные сети собирают текстовый, графический и видеоконтент, финансовые транзакции и многое другое.

Позже добавились еще две характеристики.

Variability (изменчивость)

Информация в биг дата не идет ровным потоком. Можно наблюдать подъемы и спады в зависимости от сезонности и других факторов. Информацию в периоды максимального подъема довольно сложно обрабатывать — для этого нужны мощные технологии.

Value (значение данных)

Информация в биг дата может быть разной сложности для восприятия и переработки. И главная задача машин — определить степень важности, чтобы быстро ее структурировать.

Основной принцип работы — максимальное информирование пользователя о предмете или явлении, чтобы он мог все взвесить и принять верное решение на основе полученной информации. В интеллектуальных машинах на основе полученных данных строится модель будущего, рассматриваются разные варианты решений и анализируются предполагаемые результаты. Подобные симуляции используют многие крупные компании, чтобы спрогнозировать реакцию на новую идею, услугу, продукт.

Если говорить о получении данных для биг дата, источником служит не что-то одно, а сразу несколько мест:

  • интернет, в том числе соцсети, блоги, СМИ, разного рода сайты;
  • корпоративную информацию — транзакции, базы данных и т.д.;
  • показания считывающих устройств, например, метеостанции;
  • статистика регионов и стран — перемещение населения, рождаемость, смертность и т.д.;
  • медицинские данные, такие как анализы, диагнозы и другие.

Для хранения биг дата используют специальные центры с мощнейшими серверами. Кроме стандартных серверов применяют еще и облачные хранилища.

Факторы

Принципы работы с биг дата включают три основных фактора.

Расширяемость системы

Это горизонтальная масштабируемость носителей информации. Говоря простыми словами, это увеличение мощности и количества серверов для хранения при увеличении объема данных.

Устойчивость к отказу

Одним из важнейших факторов стабильной работы с большими данными можно с уверенностью назвать отказоустойчивость серверов.

Локализация

Часть информации хранится и обрабатывается в рамках одного сервера, чтобы не тратить время и ресурсы на передачу от одного к другому.

Как работают с большими данными

как работают с биг дата

Вся работа с big data состоит из трех этапов.

Интеграция

Здесь компания интегрирует в свою работу специальные системы, которые позволяют собирать большие объемы данных и работать с ними. Внедряются разные инструменты по обработке и форматированию получаемой информации.

Управление

До начала работы с данными нужно решить, где именно они будут храниться. Решение нужно принимать, исходя из предпочтений по формату и технологиям обработки.

Анализ

Big data приносят пользу только после анализа. Для это применяют разные методы, в том числе машинное обучение, генетические алгоритмы и иные технологии.

Как и где используют big data

Современные компании благодаря высоко производственным технологиям могут использовать любые объемы больших данных в своих целях. Биг дата актуальны для решения задач в рамках расширенной аналитики, в том числе и искусственный интеллект.

Методы анализа

Существует четыре основных метода анализа биг дата.

Описательная аналитика или descriptive analytics

Самый популярный метод, который отвечает на вопрос «Что случилось?». Может анализировать как исторические данные, так и данные, которые поступают в режиме реального времени. Основная цель — понять причины провалов и неудач, чтобы использовать эти данные для улучшения ситуации. Пример — информация из Google Analytics.

Прогнозируемая аналитика или predictive analytics

Основная цель — спрогнозировать события на основе полученной информации. Так, прогнозируемая или предикативная аналитика дает возможность предполагать, как изменится цена на фондовом рынке или спрос на тот или иной вид услуг.

Предписательная аналитика или prescriptive analytics

Это уже следующий уровень. Биг дата в тандеме с современными технологиями может выявить проблемы и просчитать, как их можно избежать в дальнейшем.

Диагностическая аналитика или diagnostic analytics

Отвечает на вопрос «Почему это произошло?». С ее помощью можно выявить случайные связи между действиями и результатом. 

Теперь давай попробуем на примерах понять, где используют биг дата на практике. На самом деле их можно применять практически в любой сфере.

Банки

Если говорить о банковской сфере, то впервые биг дата в свой процесс ввел всеми известный Сбербанк. Еще в 2014 году на основе биометрии и big data они реализовали идентификацию клиента по фотографии. За основу брался снимок, который делался при выдаче клиенту карты. Итог: случаи мошенничества значительно сократились. Сегодня Big data не только помогают бороться, но и оценивать кредитные риски, регулировать очереди клиентов в отделении и многое другое.

ВТБ начал использовать большие данные чуть позже. На сегодняшний день они применяют полученную информацию для сегментации клиентов, уменьшения оттока, формирования отчетов, получения данных о кредитоспособности и многого другого.

Еще один банк, который активно применяет big data — это Альфа Банк. Помимо кредитоспособности, большие данные помогают организации влиять на формирование имиджа, персонализировать предложения.

Бизнес

биг дата в бизнесе

Не только в банках или в IT могут пригодиться большие данные. Например, «Магнитогорский металлургический комбинат» разработал сервис «Снайпер», который не просто собирает все данные, но и дает реальные советы по оптимизации расходов материалов. А у «Сургутнефтегаз» есть специальная система, которая отслеживает бизнес-процессы в режиме реального времени. Благодаря большим данным компания регулирует ценообразование, ведет автоматический учет продукции и всячески упрощает свое производство.

Большие данные помогают Билайну не только собрать информацию об абонентах, но и на основе анализа полученных данных разработать новые продукты и услуги. К примеру, именно big data показали необходимость ввести внешний консалтинг и IPTV-аналитику. Big data используют такие компании как Netflix, Procter & Gamble или Coca-Cola. Зачастую они указывают прогноз на спрос на основе больших данных.

Маркетинг

Один из самых ярких примеров использования big data в маркетинге — это Google Trends. Система анализирует большие объемы данных и выдает пользователям информацию о популярности того или иного товара в разный период времени. Помимо этого, маркетологи используют биг дата для прогнозирования успеха рекламной кампании, анализа и сегментации аудитории и т.д.

Аукцион RTB также применяет большие данные в контекстной рекламе для эффективного продвижения конкретно целевой аудитории, а не всем и сразу. То есть big data неплохо экономит бюджет.

Продажи

Тут можно привести в пример маркетплейс Amazon. Его рекомендация товара основана не только на поведении и анализе прошлых покупок пользователя, но и на ближайших праздниках и иных факторах. В итоге рекомендации начали генерировать 35% всех продаж сервиса.

Если ты что-то покупал в Ozon, то наверняка получал письма с фразой «Мы видим, у вас заканчивается корм для кота. Не забудьте купить» — это как раз про big data. А всем известный супермаркет «Лента» при помощи больших данных анализирует покупательские корзины и предлагает своим клиентам индивидуальные скидки и предложения. Kroger использует big data для персонализации скидочных предложений, которые клиенты получают по электронке.

Госструктуры

Big data также применяют госорганы, и это ни для кого не секрет. Они собирают не только статистику, но и ведут наблюдение за гражданами. Такая практика наблюдается во многих странах. Например, есть сервис PRISM, которым активно пользуются ФБР и ЦРУ, чтобы получать данные о пользователях из их социальных сетей, а также продуктов Microsoft, Google и Apple. В России известна система СОРМ, собирающая данные о звонках.

Также big data используют в HR, медицине, логистике, медиа, автомобилестроении, на рынке недвижимости и во многих других сферах.

Кто работает с данными

кто работает с биг дата

С большими данными разобрались. И теперь может возникнуть логический вопрос: если они существуют, кто-то же с ними работает? Есть три основные профессии.

Дата-инженер

Работа с биг дата начинается именно с него. Дата-инженер отвечает за техническую сторону вопроса: он организует сбор, хранение и первичную обработку данных. Он же создает программы и алгоритмы, которые должны помочь автоматизировать выполнение задач.

Дата-сайентист

Он анализирует информацию из big data, ищет закономерности, выстраивает модели и на основе всего этого прогнозирует события. Как пример: проанализировать пользование банкоматами — сколько снимают денег, сколько вносят, в какой период. А затем на основе полученных данных можно давать рекомендации инкосаторам, чтобы налички хватило на запросы владельцев карт.

Big data analyst

По сути, он пользуется теми же инструментами, что и сайентист, но с другими целями. Он должен интерпретировать, систематизировать и предоставлять данные в удобной для восприятия форме. Аналитик обрабатывает информацию и выдает систематизированный результат в виде таблиц, графиков, диаграмм и т.д.

Как стать специалистом по big data

Чтобы стать специалистом по big data, нужно иметь хотя бы базовое представление об алгоритмах и хорошо разбираться в математике. Также необходимы навыки Python и SQL. Компетенции могут отличаться в зависимости от конкретной професси. Например, для дата-сайентиста важно понимать основы математического анализа и знать языки программирования, а также уметь работать с SQL-базами данных. Инженер должен знать Python и SQL и уметь работать с фреймворками.

Если ты ощущаешь, что мог бы работать с big data, можешь поступить в ВУЗ и получить соответствующее образование. Однако учеба в университете — это довольно долго, к тому же там изучают множество «лишних» дисциплин.

Есть и другой способ — пройти курсы оффлайн или онлайн. Из плюсов: ты получишь необходимые навыки в кратчайшие сроки, а обучение будет строиться только на нужных тебе специальностях. Однако в этом случае важно ответственно подойти к выбору курсов, чтобы не потратить время и деньги впустую. Изучи программу обучения, поищи отзывы. Практика показывает, что при выборе второго варианта входа в профессию можно начать зарабатывать уже в процессе.

Заключение

Big data — важная часть практически любой сферы деятельности. С каждым годом их популярность становится все больше. Многие крупные компании используют полученные данные для оптимизации бизнес-процессов, поэтому игнорировать их важность нельзя. И очень вероятно, что в ближайшем будущем к работе с большими данными перейдут представители малого и среднего бизнеса.

Комментарии (0)

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *