Биг дата и анализ данных

3 дочитывания
0 комментариев
Эта публикация уже заработала 0,15 рублей за дочитывания
Зарабатывать

Биг дата и анализ данных

Термин «Big Data» означает «большие данные» и впервые был использован в 2008 году Клиффордом Линчем, редактором журнала «Nature». Он рассказал о стремительном росте объемов информации в мире и подчеркнул, что освоить их помогут только новые инструменты и более совершенные технологии.

Линч считает, что «большие данные» — это любая форма данных объемом более 150 ГБ в день, но единой единицы измерения данных до сих пор не существует.

Количество оцифрованной информации в мире постоянно растет.

По данным IBS, в 2003 году было собрано 5 экзабайт (1 экзабайт = 1 миллиард гигабайт) данных. К маю 2015 года объем собираемых в мире данных превысил 6,5 зеттабайт, а в 2020 году человечество создало 40-44 зеттабайта цифровой информации.

«Big Data» — это большая коллекция структурированных и неструктурированных цифровых данных, которая растет очень быстрыми темпами. «Большие данные» включают в себя инновационные способы хранения и обработки информации с целью оптимизации и автоматизации бизнес-процессов и обеспечения принятия наиболее эффективных решений на основе собранных данных.

Хотя сама концепция «больших данных» является относительно новой, ее происхождение фактически восходит к 1960-м и 1970-м годам, когда были разработаны первые центры обработки данных и реляционные базы данных.

В 2005 году люди начали понимать, сколько данных генерируют пользователи Facebook****, YouTube и других онлайн-сервисов. В этом году была разработана Hadoop (платформа с открытым исходным кодом, разработанная специально для хранения и анализа больших данных).

До 2011 г. анализ больших данных осуществлялся только в рамках научно-статистических исследований, но к началу 2012 г. в связи с масштабным увеличением объема данных возникла потребность в их систематизации и практической реализации. Применение.

С 2014 года ведущие мировые высшие учебные заведения, готовящие специалистов в области прикладной инженерии и ИТ, делают упор на большие данные. Затем последовали Microsoft, IBM, Oracle, YEMC, а затем Google, Apple, Facebook**** и Amazon. Сегодня большие данные используются крупными компаниями и государственными структурами в различных сферах.

Все собранные Big Data можно классифицировать по источникам, из которых они были получены. Американская компания Gartner предлагает следующую классификацию информации, входящей в «большие данные»:

1) Операционные данные. Это информация о клиентах, поставщиках, партнерах и сотрудниках, которая доступна при обработке онлайн-транзакций или получена из баз данных онлайн-аналитики. Обычно включает транзакционную информацию, контактную информацию и общую информацию о физических лицах. Часто такую информацию успешно собирают с помощью дополнительных датчиков и мониторинга процессов предприятия. Например, кассовые аппараты, подключенные к банковской системе, умные счетчики, голосовая связь, радиочастотная идентификация и т. д.;

2) «Темные» данные. Информация, которая не хранится и не собирается организациями намеренно, а создается случайно (на ходу) в процессе ведения бизнеса или работы с сетевыми сервисами и остается в интернет-архивах. Такая информация находится в открытом доступе и структурирована для частичного анализа, включая сообщения электронной почты, электронные договоры, документы, мультимедиа, системные журналы и т. д.;

3) Коммерческая информация. До появления технологии больших данных в различных отраслях существовали ценные агрегаторы коммерческих данных. Эти агрегаторы предоставляют полный доступ к своим каталогам данных подписки. Однако, учитывая направленность современных рыночных отношений на раскрытие информации потенциальным инвесторам и клиентам, многие сведения, представляющие коммерческий интерес, находятся в открытом доступе в цифровой среде;

4) Официальная информация. Информация, распространяемая государственными органами (отчеты, пресс-релизы, прогнозы погоды, информация о муниципальных планах развития), открытые государственные реестры, опубликованные нормативные правовые документы (в том числе их проекты), являются наиболее достоверными и наиболее информативными;

5) Информация из социальных сетей и сервисов. Функции крупных социальных сетей (Facebook****, ВКонтакте, LinkedIn, Twitter, Instagram**** и др.), участие частных лиц в бизнесе, рыночные отношения создали еще один источник информации о новых и перспективных продуктах, услугах, компаниях. Сообщения, комментарии, предложения («репосты») активно используются для выявления и прогнозирования целевых клиентов, коммерческих возможностей, конкурентных отношений, деловых и потенциальных партнеров.

Big Data выбирают и систематизируют данные для анализа, используя искусственный интеллект для выполнения расширенных аналитических задач на основе больших данных. Все больше и больше больших данных используется для задач расширенной аналитики, включая искусственный интеллект.

Существует четыре основных метода анализа:

1. Описательный анализ (дескриптивная аналитика) — самый распространенный метод, который «что случилось?» отвечает на вопрос и анализирует входящие и исторические данные в режиме реального времени. Основная цель — определить причины и закономерности успеха или неудачи в той или иной области и эффективно использовать эту информацию.

2. Predictive analysis (предиктивная аналитика) – на основе имеющихся данных помогает прогнозировать наиболее вероятное развитие событий. Для этого он использует готовые шаблоны на основе любого объекта или события с аналогичным набором свойств.

3. Предписывающая аналитика — следующий уровень по сравнению с предиктивной аналитикой. С помощью больших данных и современных технологий можно выявить проблемные точки в бизнесе или другой деятельности и просчитать, как их избежать в будущем.

4. Диагностическая аналитика — использует данные для анализа причин инцидента. Он помогает выявлять аномалии и случайные связи между событиями и действиями.

По мере того, как данные становятся новым источником богатства, ожидается, что решения для работы с большими данными будут играть все более важную роль в росте компаний. Компании всегда имели доступ к данным, но ограниченные возможности доступа и обработки данных для извлечения значимой информации. Решения для работы с большими данными позволяют компаниям решать эти проблемы.

Аналитика больших данных лежит в основе компаний, помогая им управлять, обрабатывать и оптимизировать большие наборы данных в режиме реального времени и улучшать возможности принятия решений. Кроме того, основная цель больших данных и бизнес-аналитики — помочь компаниям лучше понять своих клиентов и улучшить свои маркетинговые кампании.

В то время как некоторые отрасли добились больших успехов в использовании больших данных, другие по-прежнему уделяют им недостаточно внимания. К 2025 году рынок аналитики больших данных в банковской сфере может вырасти до 62,10 млрд долларов. Согласно Big Data в банковской статистике, инфраструктура мирового банковского сектора уже включает в себя аналитику больших данных.

Например, по состоянию на 2013 год 64 процента мирового финансового сектора уже внедрили большие данные в свою инфраструктуру, а в 2015 году объем рынка достиг 12 миллиардов долларов. К 2019 году рынок аналитики банковских транзакций с большими данными оценивался в 29,87 млрд долларов. Ожидается, что в период с 2020 по 2025 год рынок аналитики больших данных в банковской сфере будет расти в среднем на 12,97%.

Рынок больших данных оценивается в 198,08 млрд долларов в 2020 году и вырастет до 274,3 млрд долларов к 2022 году со среднегодовым темпом роста в 13,2% в течение следующих 5 лет. Ожидается, что к 2027 году он вырастет до 103 миллиардов долларов, а на сегмент программного обеспечения будет приходиться 45 процентов.

По данным BARC, организации получают выгоду от «больших данных». В частности, способность принимать стратегические решения увеличилась на 69 %, способность получить больший контроль над операционными процессами — на 54 %, способность лучше понимать потребителей — на 52 % и способность снижать затраты на 47 %. Компании, использующие большие данные, сообщают об увеличении выручки в среднем на 8% и снижении затрат на 10%.

Forbes прогнозирует, что к 2025 году в режиме реального времени будет проанализировано более 150 зеттабайт или 150 триллионов гигабайт данных. По данным Forbes, более 95% компаний нуждаются в помощи в управлении несколькими наборами неструктурированных данных, а 40% компаний говорят, что им необходимо работать с большими данными.

По данным StrategyMRC, рынок Hadoop и больших данных в настоящее время оценивается в 138,9 млрд долларов, и ожидается, что к 2022 году он вырастет до 30 млрд долларов при среднегодовом темпе роста в 28,5%.

По данным Wikibon, ожидается, что объем решений для больших данных, аналитики и прикладных баз данных вырастет с 6,4 млрд долларов в 2017 году до 12 млрд долларов к 2027 году при совокупном ежегодном темпе роста в 6 процентов за десятилетие. Спрос на платформы с открытым исходным кодом в экосистеме больших данных, такие как Hadoop, Kafka, Spark и TensorFlow, может снизиться из-за их прямого применения к искусственному интеллекту, машинному обучению, глубокому обучению или науке о данных. Но гибридные развертывания платформ анализа данных, таких как Hadoop, NoSQL, in-memory, потоковые и многие другие базы данных, увеличат долю рынка решений для масштабирования данных и интеллектуального анализа данных.

Сегодня на рынке технологий «Больших данных» США Amazon.com, Inc., IBM, Microsoft, Oracle, Dell Technologies, Cisco Systems, Inc., Cloudera, Inc., Salesforce.com, Inc., Teradata , Tableau Software, Hewlett-Packard Packard, Prolifics, Inc., Xplenty, Clairvoyant, Teradata, EquBot Inc., Dell Technologies, Vmware, Inc. Databrix Corporations и SAS Institute, немецкие SAP SE и Software AG, японские Fujitsu Limited и CMIC Co., Ltd., индийская Infosys Limited, китайская Huawei Technologies Co., Ltd. и Deloitte Touche Tohmatsu Limited из Великобритании являются ведущими компаниями.

Доля стран на мировом рынке больших данных и бизнес-аналитики в 2021 году: США — 51%; Япония – 5,7%; Китай — 5,5 % Великобритания — 5,1 %; Германия – 4,4%; Остальные - 28,3%.

Будущее больших данных требует аналитиков. По мере того, как объем больших данных продолжает расти, растет и потребность в обученных аналитиках данных, которые могли бы погрузиться в них и извлечь ценную информацию. Аналитика больших данных предлагает большие возможности для изменения ситуации в таких отраслях, как финансы, правительство и здравоохранение, а также помогает изменить жизнь людей, предотвращая мошенничество, распределяя ресурсы в случае стихийного бедствия или улучшая здравоохранение.

Подписаться
Донаты ₽
* * * * Instagram/Facebook принадлежит компании Meta, признанной экстремистской организацией и запрещенной в РФ

Трамп в игноре. Крупнейшие покупатели российской нефти заинтересованы в углублении связей с Москвой

Президент США Дональд Трамп для меня личность не понятная, так как в своих действиях и словах постоянно изменчив. То он хочет мира и тут же не против помочь оружием Украине, то он пытается запугать нашу страну,

Тебя не используют. Ты сам выдал доступ

Мы часто кричим о несправедливости: «Меня используют! Меня не ценят! Я столько делаю, а в ответ — ничего». Но правда куда болезненнее: никто не может брать у тебя больше, чем ты сам позволяешь.

Европейский политик: Украина представляет угрозу для Европы

В Европе всё ещё остались адекватные суверенные государства, способные мыслить критически. Одним из таких государств является Венгрия. Глава МИД Венгрии Петер Сийярто высказался о ситуации на Украине.
00:42
Поделитесь этим видео

Тихий враг в вашей спальне: почему вы просыпаетесь уставшим даже после 8 часов сна

Вы просыпаетесь с тяжелой головой, хотя в кровати провели 8 часов? Дело не в количестве сна, а в его качестве. Часто виновник — синий свет от гаджетов, который незаметно разрушает структуру вашего отдыха.

В Литве разгорелся языковой скандал: аналитика

В Литве вспыхнул новый языковой скандал, причиной которого стал робот. Житель Вильнюса подал жалобу на уборщика-робота в одном из магазинов столицы, который общался с покупателями на русском языке.