Хитра правда про те, як генеративний штучний інтелект використовує наші дані

Системи штучного інтелекту викликають чимало побоювань, зокрема через те, як вони використовують дані. Ми дуже мало знаємо про те, звідки ці моделі отримують необхідні їм петабайти даних, як ці дані використовуються і які заходи захисту, якщо такі є, застосовуються, коли йдеться про конфіденційну інформацію. Розробники неохоче говорять на цю тему і, можливо, самі не знають про це.

Можливо, вас це влаштовує, чи вам здається, що користь генеративного штучного інтелекту переважує ризики. Але так рахують далеко не всі.

Два тижні тому у Twitter завірусився пост, автор якого звинуватив Google у зборі даних із Google Документів для навчання штучного інтелекту. У коментарях він додав, що компанія «роками використовувала документи та email для навчання свого штучного інтелекту».

Початковий твіт набрав майже 10 млн переглядів, і його репостнули тисячі разів. Ніхто не звернув увагу, що це, можливо, навіть не відповідає дійсності.

Google заявляє, що без дозволу користувача не використовує дані зі своїх безплатних чи корпоративних продуктів, включаючи Пошту та Документи. З усім тим, компанія використовує анонімізовані дані для навчання таких функцій як перевірка орфографії та Smart Compose.

Ймовірно, судові позови та зміни у законодавстві забезпечать захист нашої інформації у майбутньому. Але ці компанії вже зібрали наші дані, використали їх та змогли на них заробити. І навряд чи ми зможемо щось із цим зробити.

Як розробники отримують ваші дані

Грубо кажучи, системам генеративного штучного інтелекту потрібно якнайбільше даних для навчання. Чим більше вони отримають, тим точніше уявлятимуть, як звучать, виглядають, розмовляють та пишуть люди.

Інтернет надає величезні обсяги даних, які легко отримати за допомогою агрегаторів і API-інтерфейсів. Але ці інструменти не роблять різниці між творами, захищеними авторським правом, або особистими даними; якщо щось перебуває у доступі, воно буде використано.

Це означає, що якийсь стартап може взяти ваші дані для запуску технології, про яку ви й не підозрювали. Вони могли з’явитися у мережі за роки до запуску цього стартапу. Можливо, їх навіть опублікували не ви. Або, можливо, ви думали, що надаєте свої дані компанії для мети, яка вас влаштовувала, але тепер ви боїтеся, що вони були використані для чогось іншого.

Не допомагає справі й те, наскільки обережно компанії, які займаються генеративним штучним інтелектом, розкривають свої джерела даних, часто просто заявляючи, що вони загальнодоступні.

У списку джерел першої моделі LLaMA від Meta згадується Common Crawl, який є архівом з відкритим вихідним кодом всього інтернету, а також такі сайти, як Github, Вікіпедія та Stack Exchange, які також є величезними сховищами інформації. Щодо джерел Llama 2 Meta не була такою відвертою. Усі ці джерела можуть містити особисту інформацію.

OpenAI визнає, що використовує персональні дані для навчання своїх моделей, але каже, що знаходить їх «випадково» і використовує їх тільки для того, щоб зробити «моделі кращими», а не створювати профілі людей для продажу їм реклами.

Google і Meta мають величезні масиви персональних даних користувача, які, за їхніми словами, вони зараз не використовують для навчання своїх мовних моделей. Втім, немає гарантії, що вони не зроблять цього у майбутньому, особливо якщо це означає отримання конкурентної переваги.

Відомо, що Google роками сканувала електронні листи користувачів, щоби таргетувати рекламу (компанія заявляє, що більше цього не робить).

Meta потрапила у великий скандал і отримала штраф у розмірі $5 млрд, коли поділилася даними з третіми особами, включаючи Cambridge Analytica, яка потім використовувала їх не за призначенням.

Річ у тім, що ці компанії дали користувачам безліч приводів не довіряти їхнім повідомленням про конфіденційність даних або зобов’язання створювати безпечні системи.

Авторські права, закони про конфіденційність та «загальнодоступні» дані

Для творчих людей, наприклад, письменників, музикантів та акторів, авторські права та права на зображення є серйозною проблемою, і досить очевидно чому. Моделі генеративного штучного інтелекту навчалися на їхніх творах, і навіть можуть залишити їх без роботи.

Ось чому комік Сара Сільверман подає до суду на OpenAI та Meta у рамках колективного позову. Вона стверджує, що дві компанії навчалися на її творах, використовуючи набори даних із текстом із її книги The Bedwetter. Є також судові позови щодо прав на зображення та використання опен-сорс коду.

Використання генеративного штучного інтелекту також стало однією з причин, через яку письменники та актори страйкують, причому обидві їх профспілки, WGA та SAG-AFTRA, побоюються, що студії тренуватимуть моделі на репліках та зображеннях артистів і просто генеруватимуть новий контент, не виплачуючи компенсації людям.

Але у пересічного користувача може не бути інтелектуальної власності, яку потрібно захищати, чи його заробіток не буде від цього залежати. Набагато більше такого користувача хвилює те, як OpenAI та інші захищають конфіденційність, коли їхні системи збирають інформацію, перемішують її та викладають назад.

Регуляційні органи, законодавці та юристи теж ставлять собі ці питання.

Італія навіть тимчасово заборонила ChatGPT з питань конфіденційності.
Інші європейські країни розглядають можливість проведення власних перевірок щодо ChatGPT.
Крім того, OpenAI привернула увагу Федеральної торгової комісії, і щодо неї ведеться розслідування щодо можливих порушень законів про захист прав споживачів. Агентство також дало зрозуміти, що уважно слідкуватиме за інструментами генеративного штучного інтелекту.

Поки моделі не мають змоги видалити особисту інформацію, які вони про нас дізналися, що є чистим прикладом порушення конфіденційності.

Інструменти ChatGPT для очищення та видалення даних призначені лише для інформації, зібраної користувачами сервісу. Тепер люди в «певних юрисдикціях» мають можливість відмовитися від обробки даних моделями OpenAI, але немає гарантії, що це станеться, і для цього потрібно спочатку довести, що дані були оброблені.

Попри те, що OpenAI нещодавно змінила свою політику і припинила навчати моделі на основі даних, наданих її власними клієнтами, виникає ще одна проблема конфіденційності, пов’язана з тим, як ці моделі використовують дані, які ви надаєте їм, коли використовуєте їх, та інформацію вони публікують у відкритому доступі.

CEO OpenAI Сем Альтман визнає, що клієнти явно хочуть, щоб компанія не тренувалася на їхніх даних. Тим часом на OpenAI подали до суду за наклеп через відповідь ChatGPT, в якій хибно стверджувалося, що хтось обдурив НКО та вкрав гроші. І це не єдиний випадок, коли у відповіді ChatGPT містяться неправдиві звинувачення.

Що із цим можна зробити? Ось що тут найскладніше. Багато проблем з конфіденційністю в цей час є результатом того, що в минулому не було відповідних законів, які могли б захистити дані ще до того, як було створено ці набори даних та технології.

Ми завжди можемо постаратися публікувати менше даних, але з тим, що вже потрапило в мережу, практично нічого не зробити. Для цього вам знадобилася б машина часу, а поки що її не винайшов навіть генеративний штучний інтелект.

БІЛЬШЕ ЦІКАВОГО:

Джерело: Vox

Хитра правда про те, як генеративний штучний інтелект використовує наші дані

Як розробники отримують ваші дані

Авторські права, закони про конфіденційність та «загальнодоступні» дані

Читайте также: