4 тренди Data Science в 2020

Які зміни й перетворення очікують галузь у 2020? Розглянемо 4 основних тренди.

По всьому світу компанії в різних галузях переживають так звану цифрову трансформацію. Тобто, компанії беруть такі традиційні бізнес-процеси, як наймання, маркетинг, ціноутворення та стратегію, і використовують цифрові технології, щоб зробити їх в 10 разів кращими.

Наука о даних стала невіддільною частиною цих перетворень. Завдяки Data Science, організаціям більше не доводиться приймати важливих рішень на основі інтуїції, найкращих здогадок чи невеликих опитувань. Натомість вони аналізують велику кількість реальних даних, щоб базувати свої рішення на реальних фактах, основаних на даних. Це і є суть Data Science – створення цінності за допомогою даних.

Ця тенденція інтеграції даних в основні бізнес-процеси значно зросла, за останні 5 років зацікавлення збільшилась більш ніж у чотири рази відповідно до Пошукових тенденцій Google. Дані дають компаніям різку перевагу перед своїми конкурентами. Маючи більше даних та вдосконалених вченими-аналітиками даних, компанії можуть отримувати інформацію про ринок, про існування якого їхні конкуренти можуть навіть не знати. Це стало грою: дані або загинути.

У сучасному цифровому світі, що постійно розвивається, випередження конкурентів потребує, постійних інновацій. Патенти вийшли з моди, в той час як гнучка методологія програмування і нові тенденції під питанням.

Організації вже не можуть покладатися на свої старі методи. Якщо з’являється нова тенденція, як Science Data, Artificial Intelligence або Blockchain, її потрібно заздалегідь передбачити та швидко адаптувати.

Нижче перелічено 4 найгарячіших тенденції науки про дані у 2020 році. Це тенденції, які викликали жвавий інтерес у 2019 та продовжать стрімко розвиватися у 2020 році.

Автоматизована наука про дані

Навіть у сучасний цифровий вік, Data Science все ще вимагає багато ручної роботи. Зберігання, очищення, візуалізація та дослідження даних та, нарешті, моделювання даних для отримання фактичних результатів. Виконання цієї роботи в ручному режимі демонструвало потребу в автоматизації, і зрештою відбувся підйом автоматизованої науки про дані й машинного навчання.
Майже кожен крок процесу був або знаходиться в процесі автоматизації.

Протягом останніх років ретельно досліджувалося автоочищення даних. Чистка великих даних часто займає багато дорогоцінного часу вченого. Як стартапи, так і такі великі компанії, як IBM пропонують автоматизацію та інструменти для очищення даних.

Інша значна підгалузь Data Science, відома як функціональна інженерія, зазнала значних інновацій. Featuretools пропонує рішення для автоматичної функціональної інженерії. На додаток до цього, сучасні методи глибинного навчання, такі як згорткові та рекурентні нейронні мережі, вивчають свої особливості без необхідності проектування функцій вручну.

Мабуть, автоматизація найбільше помітна у сфері машинного навчання. І Data Robot, і H2O зарекомендували себе в цій галузі, запропонувавши комплексні платформи машинного навчання, завдяки чому спеціалісти з обробки та аналізу даних можуть дуже легко впоратися з управлінням даними та розробкою моделей. AutoML, метод автоматичної розробки та навчання моделей, також процвітав протягом 2019 року, оскільки ці автоматизовані моделі перевершують найсучасніші дослідження. Google, зокрема, інвестує значні кошти в Cloud AutoML.

В цілому компанії інвестують значні кошти в будівництво та придбання інструментів та послуг для автоматизації Data Science. Усе для того, щоб зробити процес дешевшим і простішим. Водночас, автоматизація також враховує більш дрібні та менш технічні організації, які можуть використовувати ці інструменти та послуги для доступу до Data Science без створення власної команди.

Конфіденційність та безпека даних

Конфіденційність та безпека – це завжди делікатні теми у сфері технології. Усі компанії хочуть швидко рухатися та впроваджувати інновації, але втрата довіри власних клієнтів щодо питань конфіденційності чи безпеки може стати фатальною. Таким чином, компанії змушені зробити це питання пріоритетним, принаймні, подбати про те, щоб не відбулося витоку даних.

Конфіденційність та безпека даних стали надзвичайно гарячою темою в минулому році, оскільки наявні проблеми посилилися величезними громадськими хакерськими можливостями. Зовсім недавно, 22 листопада 2019 року в Google Cloud було виявлено відкритий сервер без захисту. Сервер містив особисту інформацію 1,2 млрд унікальних користувачів, включаючи імена, електронні адреси, номери телефонів, а також інформацію про профілі LinkedIn та Facebook. До справи булу залучено ФБР. Це один з найпоказовіших прикладів незахищеності даних за усі часи.

Як дані потрапили туди? Кому вони належать? Хто відповідає за безпеку цих даних? Це було на сервері Google Cloud, отже винуватцем міг бути хто завгодно.

Тепер ми можемо бути впевнені, що ніхто не буде видаляти свої облікові записи LinkedIn та Facebook після читання новин, але, безумовно, виникнуть певні питання. Споживачі стають все більш уважними до того, кому вони дають свою електронну адресу та номер телефону.

Компанії, яка може гарантувати конфіденційність та безпеку даних своїх клієнтів, набагато легше й швидше переконати клієнтів надати їй більше даних (продовжуючи користуватися її продуктами та послугами). Це також гарантує, що якщо місцевий уряд прийме будь-які закони, що вимагають протоколів безпеки для даних клієнтів, вони вже добре підготовлені. Багато компаній вибирають SOC 2 Compliance, щоб підтвердити міцність своєї безпеки.

Уся методологія науки про дані базується на даних, але більшість з них не є анонімними. В руках зловмисника ці дані можуть бути використані для розпалювання глобальних катастроф та розстроєння повсякденного життя та добробуту людей. Дані – це не просто необроблені цифри, вони представляють і описують реальних людей та реальні речі.

По мірі того, як Data Science розвивається, відбувається трансформація протоколів конфіденційності та безпеки навколо даних. Це включає процеси, закони та різні методи встановлення та підтримки безпеки та цілісності даних. «Кібербезпека» має усі шанси стати модним терміном у цьому році.

Наука даних у хмарі

За той час, коли Data Science зросла від ніші до власної галузі, дані, доступні для аналізу, також вибухнули в розмірах. Організації збирають та зберігають більше даних, ніж будь-коли раніше.
Обсяг даних типової компанії Fortune 500, які, можливо, потребують аналізу, далеко обійшов можливості персонального комп’ютера. Пристойний ПК може мати приблизно 64 ГБ оперативної пам’яті з 8-ядерним процесором та 4 ТБ зовнішньої пам’яті. Він чудово підходить для особистих проектів, але навряд стане у пригоді, коли ви працюєте для такої глобальної компанії, як банк або роздрібний магазин, які мають дані мільйонів клієнтів.

Ось тут і знадобиться хмарна обробка даних. Хмарні обчислення пропонують можливість будь-кому і будь-де отримати доступ до практично безмежної обчислюваної потужності. Такі хмарні постачальники, як Amazon Web Services (AWS), пропонують сервери з 96 віртуальними процесорними ядрами та 768 ГБ оперативної пам’яті. Ці сервери можуть бути налаштовані в групу автоматичного масштабування, де сотні з них можна запускати або зупиняти без особливих затримок – обчислювальна потужність на вимогу.

Крім простого обчислення, хмарні обчислювальні компанії також пропонують повноцінні платформи для аналізу даних. Google Cloud пропонує платформу під назвою BigQuery, безсерверний і масштабований склад даних, що надає експертам з даних змогу зберігати та аналізувати петабайти даних, і все це на одній платформі. BigQuery також може бути підключений до інших GCP-сервісів для Data Science. Завдяки використанню Cloud Dataflow для створення потокової передачі даних, Cloud DataProc для запуску Hadoop або Apache Spark на даних, або BigQuery ML для побудови моделей машинного навчання на величезних наборах даних.

Все, від даних до потужності обробки, зростає. По мірі дозрівання Data Science, остання може остаточно «оселитися» на хмарі.

Обробка природної мови

Обробка природних мов пробилася до науки про дані після величезних проривів у дослідженнях глибинного навчання.

Спочатку Data Science була аналізом чисто необроблених чисел, оскільки це був найпростіший спосіб обробити й зібрати їх в електронних таблицях. Якщо вам потрібно було обробити будь-який вид тексту, його зазвичай потрібно було класифікувати або якось перетворити на числа.
Однак стиснути абзац тексту в одне число досить складно. Природна мова та текст містять настільки багато важливих даних та інформації, які ми раніше пропускали, оскільки нам бракувало можливості представити цю інформацію як цифри.

Величезний прогрес в ОПМ, можливий завдяки глибокому навчанню, підживлює повну інтеграцію обробки природної мови у регулярний аналіз даних. Нейронні мережі тепер можуть неймовірно швидко отримувати інформацію з великих фрагментів тексту. Вони можуть розподіляти текст на різні категорії, визначати ставлення до тексту та проводити аналіз схожості текстових даних. Зрештою, вся ця інформація може бути збережена в одному функціональному векторі чисел.

В результаті ОПМ стає потужним інструментом в Data Science. Величезні сховища даних тексту, не лише однослівні відповіді, а повні абзаци, можуть бути перетворені в числові дані для стандартного аналізу. Зараз ми можемо досліджувати набори даних, які є набагато складнішими.

Наприклад, уявіть веб-сайт новин, який хоче побачити, які теми набирають більше переглядів. Без просунутого ОПМ все, від чого можна було б відштовхуватися, це ключові слова, а може і лише здогадка щодо того, чому певна назва спрацювала краще за іншу. Завдяки ОПМ сьогодні ми зможемо кількісно оцінити текст на веб-сайті, порівнюючи цілі абзаци тексту чи навіть веб-сторінки, щоб отримати набагато більш вичерпну інформацію.

Для технічного огляду найважливіших досягнень ОПМ за останні кілька років, ви можете ознайомитися з матеріалом Віктора Санха (Victor Sanh).

Data Science розвивається. По мірі зростання її можливостей вона впроваджується в кожну галузь, як технічну, так і нетехнічну, і кожен бізнес, як малий, так і великий.
Оскільки галузь розвивається в довгостроковій перспективі, не дивно, що вона демократизується у великих масштабах, стає доступною для багатьох інших людей як інструмент у програмному наборі інструментів.

ВАРТО ЧИТАТИ:

Тренажерний зал майбутнього — віртуальна реальність, шоу та персоналізація

10 трендів соціальних медіа у 2020

Специфічні глибинні тренди 2020 року

Джерело: Medium

4 тренди Data Science в 2020

Автоматизована наука про дані

Конфіденційність та безпека даних

Наука даних у хмарі

Обробка природної мови

Читайте также: