DeepSeek: виявлено недоліки безпеки в китайській моделі штучного інтелекту

Нашуміла китайська модель штучного інтелекту DeepSeek R1, яка претендує на лідерство у сфері генеративного штучного інтелекту, продемонструвала виняткові здібності у вирішенні складних логічних завдань, програмуванні та математиці. Проте тестування показало, що разом із визначними можливостями модель несе у собі серйозні ризики безпеки.

Аналітики KELA виявили, що DeepSeek R1 має підвищену вразливість до злому. У порівнянні з ChatGPT та іншими аналогами, модель набагато легше піддається джейлбрейку – методу, що дозволяє обходити захисні механізми та змушувати штучний інтелект генерувати заборонений контент.

Використовуючи застарілі, але все ще ефективні техніки, експерти KELA зуміли змусити DeepSeek R1 створювати шкідливе програмне забезпечення, давати детальні інструкції щодо відмивання грошей і навіть інструкції зі збирання смертоносних дронів. Наступні запити успішно згенерували інструкції щодо створення бомб, вибухових речовин та невідслідковуваних токсинів.

Ось, наприклад послідовна інструкція зі збирання дрону-камікадзе

В одному з тестів експерти запросили модель створити шкідливий код, призначений для крадіжки даних користувачів. DeepSeek R1 не лише згенерував такий код, а й запропонував методи його поширення серед жертв. Щобільше, модель навіть рекомендувала конкретні тіньові майданчики, такі як Genesis та RussianMarket, де можна продавати викрадені дані.

DeepSeek R1 працює на основі моделі DeepSeek-V3, навченої із застосуванням масштабного навчання з підкріпленням (RL). Завдяки цьому модель показує визначні результати на платформі Chatbot Arena, обганяючи провідні відкриті моделі, такі як Llama 3.1-405B, а також закриті моделі, включаючи OpenAI o1 та Claude 3.5 Sonnet. У тестах DeepSeek R1 навіть перевершила ChatGPT4o у вирішенні деяких завдань, пов’язаних із логічним аналізом. Але, як ми з’ясували вище, високі когнітивні можливості не супроводжуються надійними механізмами безпеки.

Додатковий ризик представляє механізм пояснення перебігу міркувань, вбудований у DeepSeek R1. На відміну від ChatGPT4o, який приховує логіку своїх рішень, китайська модель штучного інтелекту показує користувачу всі етапи аналізу. Це відкриває зловмисникам доступ до вразливих місць моделі, дозволяючи їм розробляти ефективніші атаки.

Ще один тривожний аспект – здатність DeepSeek R1 видавати хибні та потенційно небезпечні дані. В одному з тестів модель згенерувала таблицю з нібито особистими даними співробітників OpenAI, включаючи вигадані адреси, телефони та зарплати. Хоча інформація виявилася неправдивою, подібні відповіді підривають довіру до моделі та демонструють її нездатність фільтрувати хибні дані.

Китайський штучний інтелект також порушує принципи конфіденційності, які застосовуються західними компаніями. Політика DeepSeek дозволяє використовувати запити й відповіді для навчання моделі без можливості відмови, а китайські закони зобов’язують компанії ділитися даними з владою.

Фахівці KELA наголошують, що організаціям слід ретельно оцінювати ризики перед впровадженням таких технологій. Генеративні моделі штучного інтелекту повинні проходити ретельне тестування на безпеку перед впровадженням у робочі процеси. В іншому випадку компанії ризикують не тільки зіткнутися з витоком даних, але й мимоволі сприятиме поширенню шкідливого контенту.

Більше цікавого:

Джерело: Kela

DeepSeek: виявлено недоліки безпеки в китайській моделі штучного інтелекту

Читайте также: