Дізнайтеся, що таке Big Data, які бувають види та особливості великих даних, а також про переваги і небезпеки їх застосування.
Що таке Big Data?
Big Data (великі дані) – це поєднання структурованих, напівструктурованих та неструктурованих даних, які можуть бути видобуті для отримання інформації та використані в проектах машинного навчання, прогнозного моделювання та інших передових програм аналітики.
Системи, які обробляють і зберігають Big Data, стали загальним компонентом архітектур управління даними в великих організаціях.
Big Data часто характеризуються такими характиристиками (англійською – 3 V):
- великий обсяг даних (Volume)
- широкий вибір типів даних, що зберігаються в системах великих даних (Variety)
- швидкість, з якою дані генеруються, збираються та обробляються (Velocity)
Нещодавно до опису того, що таке Big Data, було додано кілька нових V:
- достовірність (Veracity)
- цінність (Value)
- мінливість (Variability)
Хоча великі дані кількістно не прирівнюються до будь-якого конкретного обсягу даних, розгортання великих даних часто включає в себе терабайти (TB), петабайти (PB) і навіть екзабайти (EB) даних.
Важливість великих даних
Компанії використовують накопичені в їх системах Big Data для поліпшення операцій, забезпечення кращого обслуговування споживачів, створення персоналізованих маркетингових кампаній на основі конкретних уподобань клієнтів і, зрештою, підвищення прибутковості.
Підприємства, які використовують великі дані, мають потенційну конкурентну перевагу перед тими, хто цього не робить. Вони можуть приймати швидші та більш обгрунтовані ділові рішення, за умови, що вони ефективно використовують дані.
Наприклад, Big Data можуть надати компаніям цінну інформацію про своїх клієнтів. Вона може бути використана для вдосконалення маркетингових кампаній з метою збільшення залучення клієнтів та коефіцієнтів конверсії.
Крім того, використання великих даних дозволяє компаніям дедалі краще орієнтуватися на споживача.
Історичні дані та дані в реальному часі можуть бути використані для оцінки мінливих уподобань споживачів. Це дозволить підприємствам оновлювати та вдосконалювати свої маркетингові стратегії та ставати більш чутливими до бажань та потреб клієнтів.
Великі дані також використовуються медичними дослідниками для виявлення факторів ризику захворювання та лікарями для діагностики захворювань та станів у окремих пацієнтів.
Крім того, дані, отримані з електронних медичних записів, соціальних мереж, Інтернету та інших джерел, надають організаціям охорони здоров’я та державним установам найсвіжішу інформацію про загрози інфекційних захворювань чи спалахи захворювання.
В енергетичній галузі Big Data допомагають нафтогазовим компаніям визначати потенційні місця буріння та контролювати експлуатацію трубопроводі. Так само комунальні служби використовують їх для спостереженням за електричними мережами.
Фірми фінансових послуг використовують системи Big Data для управління ризиками та аналізу ринкових даних у реальному часі.
Виробники та транспортні компанії покладаються на великі дані для управління своїми ланцюгами поставок та оптимізації шляхів доставки.
Інші сфери використання включають – реагування на надзвичайні ситуації, запобігання злочинності та побудова розумних міст.
Приклади Big Data
Великі дані надходять з безлічі різних джерел, таких як системи ділових операцій, бази даних клієнтів, медичні записи, журнали кліків в Інтернеті, мобільні додатки, соціальні мережі, сховища наукових досліджень, машинно генеровані дані та датчики даних в реальному часі, що використовуються в Інтернеті речей (що таке інтернет речей).
Дані можуть залишатися в необробленому вигляді в системах великих даних або попередньо оброблятися за допомогою інструментів інтелектуального аналізу даних або програмного забезпечення для того, щоб вони стали готові до конкретного використання в аналітиці.
Приклади Big Data:
- Порівняльний аналіз. Включає вивчення показників поведінки користувачів та спостереження за діями клієнтів у реальному часі з метою порівняння продуктів, послуг та авторитету однієї компанії з продуктами її конкурентів
- Відстеження соціальних мереж. Це інформація про те, що люди говорять у соціальних мережах про конкретний бізнес чи товар. Ці дані можуть бути використані, щоб допомогти визначити цільову аудиторію для маркетингових кампаній.
- Маркетинговий аналіз. Сюди входить інформація, яка може бути використана для просування нових продуктів, послуг та ініціатив.
- Аналіз задоволеності споживачів та їх настроїв. Вся зібрана інформація може показати, як клієнти ставляться до компанії чи бренду, як можна зберегти їх лояльність до бренду та як покращити зусилля щодо обслуговування клієнтів.
Детальний опис характеристик Big Data
Обсяг
Обсяг є найбільш часто цитованою характеристикою великих даних.
Говорячи про те, що таке Big Data, слід памятати, що великі дані – це сукупність даних з різних джерел, починаючи від чітко визначених і закінчуючи слабко визначеними. Вони походять від людських або машинних джерел.
Різноманітність даних
Big Data також охоплюють широкий спектр типів даних, включаючи наступні:
- структуровані дані в базах даних та сховищах даних на основі мови структурованих запитів (SQL);
- неструктуровані дані, такі як текстові та файли документів, що зберігаються в кластерах Hadoop або системах баз даних NoSQL
- напівструктуровані дані, такі як журнали веб-сервера або потокові дані з датчиків.
Всі різні типи даних можна зберігати разом в озері даних, яке, як правило, базується на Hadoop або службі зберігання хмарних об’єктів (що таке хмарні технології).
Крім того, програми для Big Data часто містять кілька джерел даних, які в іншому випадку не можуть бути інтегровані.
Наприклад, проект аналітики великих даних може спробувати оцінити успіх товару та майбутні продажі, співвідносячи дані про минулі продажі, дані про повернення та дані огляду онлайн-покупців цього товару.
Швидкість
Швидкість відноситься до швидкості, з якою генеруються великі дані і вони повинні бути оброблені та проаналізовані.
У багатьох випадках набори великих даних оновлюються в режимі майже реального часу, замість щоденних, щотижневих або щомісячних оновлень, характерних багатьом традиційним сховищам даних.
Програми аналітики великих даних співвідносять та аналізують вхідні дані, а потім надають відповідь або результат на основі запиту. Це означає, що аналітики даних повинні детально розуміти наявні дані та мати певне розуміння того, які відповіді вони шукають, щоб переконатися, що отримана інформація є дійсною та актуальною.
Управління швидкістю передачі даних також має важливе значення, оскільки аналіз великих даних поширюється на такі сфери, як машинне навчання та штучний інтелект, де аналітичні процеси автоматично знаходять закономірності у зібраних даних та використовують їх для отримання знань.
Додаткові характеристики великих даних
Достовірність чи правдивість даних
Достовірність даних стосується ступеня визначеності в наборах даних.
Невизначені необроблені дані, зібрані з різних джерел, таких як платформи соціальних медіа та веб-сторінки, можуть спричинити серйозні проблеми з якістю даних.
Наприклад, компанія, яка збирає масиви великих даних із сотень джерел, може виявити неточні дані, але аналітикам потрібна інформація про шляхи надходження даних, щоб простежити, де дані зберігаються, щоб вони могли виправити проблеми.
Погані дані призводять до неточного аналізу та можуть підірвати цінність бізнес-аналітики, оскільки це може призвести до недовіри керівників до даних у цілому.
Кількість невизначених даних в організації повинна бути врахована перед тим, як їх використовувати для аналізу великих даних. Командам ІТ та аналітики також потрібно забезпечити наявність достатньо точних даних для отримання достовірних результатів.
Цінність даних
Як пояснювалося вище, не всі зібрані дані мають реальну ділову цінність, і використання неточних даних може послабити результат, що надаються додатками аналітики.
Дуже важливо, щоб організації застосовували такі практики, як очищення даних, і існував механізм підтвердження, що дані стосуються відповідних питань бізнесу, перш ніж використовувати їх у проекті аналізу великих даних.
Мінливість Big Data
Варіабельність також часто згадується, коли мова йде про набори великих даних, які є менш послідовними, ніж звичайні, і можуть мати кілька значень або можуть бути відформатовані по-різному.
Ці фактори додатково ускладнюють зусилля з обробки та аналізу даних.
Як Big Data зберігаються та обробляються
Необхідність швидкої передачі і обробки великих даних спричиняє вимоги до базової обчислювальної інфраструктури.
Обчислювальна потужність, необхідна для швидкої обробки величезних обсягів та різновидів даних, може перегрузити сервер або кластер серверів.
Організації повинні застосовувати адекватну обробну потужність для завдань повязаних із Big Data, щоб досягти необхідної швидкості операцій.
Це потенційно може вимагати сотень або тисяч серверів, які можуть розподіляти обробні роботи та працювати спільно в кластерній архітектурі, часто заснованій на таких технологіях, як Hadoop та Apache Spark.
Досягнення такої швидкості рентабельним способом також є проблемою.
Багато керівників підприємств стримано інвестують у власну розгалужену інфраструктуру серверів та сховищ для підтримки великих навантажень даних, особливо тих, які не працюють цілодобово.
Як результат, загальнодоступні хмарні обчислення зараз є основним засобом розміщення систем великих даних.
Публічний хмарний провайдер може зберігати петабайти даних і збільшувати необхідну кількість серверів. Бізнес платить лише за фактично використаний час зберігання та обчислень, а хмарні екземпляри можна вимкнути, поки вони знову не знадобляться.
Щоб ще більше покращити рівень обслуговування, провайдери загальнодоступних хмарних служб пропонують можливості передачі великих даних за допомогою керованих служб:
У хмарних середовищах великі дані можна зберігати в наступних симтемах:
- Розподілена файлова система Hadoop (HDFS)
- Дешевші сховища хмарних об’єктів, такі як Amazon Simple Storage Service (S3)
- Бази даних NoSQ
- Реляційні бази даних
Для організацій, які хочуть розгорнути локальні системи великих даних, зазвичай використовуються технології з відкритим кодом Apache на додаток до Hadoop та Spark і включають наступне:
- YARN, вбудований менеджер ресурсів і планувальник робіт Hadoop
- програма програмування MapReduce, яка також є основним компонентом Hadoop;
- Kafka, платформа обміну повідомленнями та передачі даних від програми до програми
- HBase бази даних
- Системи запитів SQL-on-Hadoop, такі як Drill, Hive, Impala та Presto.
Користувачі можуть самостійно встановити версії технологій з відкритим кодом або звернутися до комерційних платформ великих даних.
Проблеми Big Data
Окрім проблем обсягу обробки та вартості, проектування архітектури великих даних є ще однією загальною проблемою для користувачів.
Системи великих даних повинні бути адаптовані до конкретних потреб організації, це робота, що вимагає від ІТ-команд та розробників програм складання набору інструментів з усіх доступних технологій.
Розгортання та управління системами великих даних також вимагають нових навичок порівняно з тими, якими володіють адміністратори баз даних (DBA) та розробники.
Обидві ці проблеми можна полегшити за допомогою керованої хмарної служби, але ІТ-менеджери повинні пильно стежити за використанням хмар, щоб переконатися, що витрати не виходять з-під контролю.
Крім того, перенесення локальних наборів даних та обробка робочих навантажень у хмару часто є складним процесом для організацій.
Зробити дані в системах великих даних доступними для аналітиків також є проблемою, особливо в розподілених середовищах, що включають поєднання різних платформ та сховищ даних.
Щоб допомогти аналітикам знаходити відповідні дані, команди ІТ та аналітики все частіше працюють над створенням каталогів даних, що включають функції управління метаданими та функціями лінійки даних.
Якість даних та управління даними також повинні бути пріоритетами для забезпечення чистоти, послідовності та правильного використання наборів Big Data.
Що таке криптовалюта: базові речі, які необхідно знати
Практики та правила збору Big Data
Протягом багатьох років компанії не мали обмежень щодо даних, які вони збирали від своїх клієнтів.
Однак, оскільки збір та використання великих даних збільшився, зростає і зловживання ними.
Стурбовані громадяни вимагають прийняття законів щодо прозорості збору даних та конфіденційності даних споживачів.
Що таке GDPR в ЄС
Резонанс щодо порушень конфіденційності особистої інформації змусив Європейський Союз прийняти Загальний регламент про захист даних (GDPR), який набрав чинності в травні 2018 року. Він обмежує типи даних, які організації можуть збирати, і вимагає згоди окремих осіб або дотримання інших визначених законних підстав для збору персональних даних.
GDPR також включає положення, яке дозволяє жителям ЄС просити компанії видаляти їх дані.
Що таке CCPA в США
Хоча в США немає подібних федеральних законів, Каліфорнійський закон про конфіденційність споживачів (CCPA) має на меті надати жителям Каліфорнії більше контролю над збором та використанням їх особистої інформації компаніями.
Закон CCPA був підписаний у 2018 році і набув чинності 1 січня 2020 року. Крім того, урядовці США розслідують практику обробки даних, зокрема серед компаній, які збирають споживчі дані та продають їх іншим компаніям для невідомого використання.
Що таке блокчейн технологія: це не лише про криптовалюту
Людська сторона аналітики великих даних
Зрештою, цінність та ефективність Big Data залежать від працівників, яким доручено аналізувати дані та формулювати відповідні запити для спрямування проектів аналізу великих даних.
Деякі інструменти для обробки Big Data відповідають спеціалізованим нішам і дозволяють менш технічним користувачам використовувати повсякденні ділові дані в програмах прогнозної аналітики.
Інші технології, такі як пристрої Big Data на базі Hadoop, допомагають компаніям впровадити відповідну обчислювальну інфраструктуру для реалізації проектів Big Data, мінімізуючи при цьому потребу в апаратному та програмному забезпеченні.
Big Data можна порівняти з малими даними, іншим терміном, який часто використовується для опису даних, обсяг і формат яких дозволяють легко проаналізувати ці дані самостійно.
Зазвичай цитується аксіома:
Джерело: searchdatamanagement.techtarget.com/