Де виник DeepSeek і хто є творцями цієї ШІ-лабораторії, яка справила сенсацію в Кремнієвій долині?

Нова штучна інтелектуальна модель DeepSeek-R1, розроблена китайською лабораторією DeepSeek, з'явилася на сцені несподівано. Перші згадки про неї почали з'являтися в медіа лише минулого тижня, але вже зараз складається враження, що всі обговорюють DeepSeek. Вражаюче, але програма DeepSeek за короткий час змогла перевершити популярний ChatGPT у рейтингах App Store у США. Крім того, вона швидко піднялася в топ завантажень на платформі Hugging Face, де розробники прагнуть протестувати її можливості та зрозуміти, як цей реліз може вплинути на їхні проекти в галузі штучного інтелекту. Це викликає логічні запитання: звідки походить DeepSeek, хто стоїть за цим стартапом і чому він викликав таку велику увагу. У цьому матеріалі я намагатимусь дати відповіді на ці питання.

Звідки взявся DeepSeek

Враховуючи історію китайських технологічних компаній, DeepSeek мав би бути проєктом таких гігантів, як Baidu, Alibaba або ByteDance. Але цю ШІ-лабораторію у 2023 році запустив китайський хедж-фонд High-Flyer, заснований у 2015 році підприємцем Лян Веньфенгом. Він заробив статок, використовуючи ШІ та алгоритми для виявлення закономірностей, які можуть впливати на ціни акцій. Хедж-фонд швидко набув популярності в Китаї, та зміг залучити понад 100 мільярдів юанів (близько $15 мільярдів). З 2021 року ця цифра знизилася приблизно до $8 мільярдів, але High-Flyer досі залишається одним з найважливіших хедж-фондів у країні.

Оскільки основна діяльність High-Flyer була пов'язана з розробкою штучного інтелекту, хедж-фонд протягом кількох років збирав графічні процесори та створював суперкомп'ютери Fire-Flyer для детального аналізу фінансових даних. На фоні стрімкого зростання популярності чат-бота ChatGPT від американської компанії OpenAI, Лян, котрий має магістерський ступінь у галузі комп'ютерних наук, у 2023 році ухвалив рішення інвестувати ресурси свого фонду в новий проект під назвою DeepSeek, що ставив за мету розробку власних інноваційних моделей та створення загального штучного інтелекту (AGI).

Лян поділився з китайським технологічним виданням 36Kr, що його рішення було зумовлене науковим інтересом, а не бажанням заробити. "Я б навіть не зміг визначити комерційні причини для створення DeepSeek, якщо б ви мене про це запитали," - зазначив він. "Справа в тому, що з комерційної точки зору це не є вигідним. Основні наукові дослідження мають дуже низький рівень повернення інвестицій. Коли перші інвестори OpenAI вкладали в нього гроші, вони, напевно, не розглядали потенційний прибуток. Скоріше, їхнє справжнє бажання полягало в тому, щоб займатися цим проектом."

За словами Ляна, коли він збирав дослідницьку команду DeepSeek, він також не шукав досвідчених інженерів для створення продукту, орієнтованого на споживачів. А зосередився на докторантах з провідних університетів Китаю, включаючи Пекінський університет, Університет Цінхуа та Бейханський університет, які прагнули проявити себе. Багато хто з них публікувався у провідних журналах та отримував нагороди на міжнародних академічних конференціях, але не мав досвіду роботи в галузі, повідомляє китайське технологічне видання QBitAI.

"Наші ключові технічні позиції переважно заповнені спеціалістами, які завершили своє навчання цього року або впродовж останніх одного-двох років," - зазначав Лян у інтерв'ю 2023 року. Він переконаний, що студенти можуть бути більш підходящими для участі у високоінвестиційних дослідженнях, навіть якщо вони не приносять значного прибутку. "Багато молодих людей здатні цілковито віддатися місії, не зважаючи на практичні міркування," - підкреслив Лян. Він закликав потенційних співробітників приєднатися до DeepSeek, адже компанія була заснована для "вирішення найскладніших викликів, з якими стикається світ".

Лян, який особисто бере участь у розробках DeepSeek, використовує доходи від свого хедж-фонду для виплати високих зарплат найкращим талантам ШІ. Поряд з власником TikTok ByteDance, DeepSeek відомий в Китаї тим, що надає найвищу винагороду інженерам ШІ, а персонал базується в офісах у Ханчжоу та Пекіні.

Лян представляє DeepSeek як виняткову "локальну" компанію, що складається з докторів наук, які здобули освіту в провідних університетах Китаю. У інтерв'ю вітчизняним медіа минулого року він зазначив, що в його команді "немає жодного спеціаліста, який би повернувся з-за кордону. Усі вони місцеві... Ми повинні самостійно виховувати кращі таланти". Таке сприйняття DeepSeek як суто китайського підприємства LLM стало причиною її зростаючої популярності в країні, адже цей підхід повністю узгоджується з політикою китайського уряду.

Цього тижня Лян був єдиним представником китайської ШІ індустрії, якого обрали для участі в розрекламованій зустрічі підприємців з другим за важливістю лідером країни Лі Цяном. Підприємцям було сказано "зосередити зусилля на прориві в ключових технологіях".

Як саме DeepSeek починала створювати власні великі мовні моделі (LLM) відомо небагато, але лабораторія швидко відкрила їхній вихідний код, і дуже ймовірно, що, як і багато китайських розробників ШІ, спиралася на відкриті проєкти створені Meta, наприклад, модель Llama та бібліотеку машинного навчання Pytorch. При цьому особлива зосередженість DeepSeek на дослідженнях робить його небезпечним конкурентом для OpenAI, Meta та Google, оскільки ШІ-лабораторія, принаймні поки що, готова ділитися своїми відкриттями, а не захищати їх заради комерційної вигоди. DeepSeek не залучав кошти ззовні та поки що не робив значних кроків для монетизації своїх моделей. Але достеменно невідомо, чи бере участь уряд Китаю в фінансуванні компанії.

Яка особливість ШІ-моделі DeepSeek-R1?

У листопаді DeepSeek вперше оголосив, що досяг продуктивності, яка перевершує передову модель OpenAI o1, але на той час випустив лише обмежену модель R1-lite-preview. З випуском повної моделі DeepSeek-R1 минулого тижня та супровідною технічною статтею компанія представила дивовижну інновацію: свідомий відхід від традиційного процесу керованого тонкого налаштування (SFT), який широко використовується для навчання великих мовних моделей (LLM).

SFT є традиційним методом у створенні штучного інтелекту, який включає навчання моделей на спеціально підготовлених наборах даних для розвитку їх здатності до покрокового міркування, відомого також як ланцюг думок (CoT). Проте компанія DeepSeek вирішила переглянути це уявлення, відмовившись від SFT і зосередившись на навчанні з підкріпленням (RL) для розвитку своєї моделі DeepSeek-R1.

За словами Джеффрі Емануеля, серійного інвестора та генерального директора блокчейн-компанії Pastel Network, компанії DeepSeek вдалося обійти Anthropic у впровадженні методики ланцюга думок (CoT). Тепер вони фактично є єдиними, окрім OpenAI, хто зумів ефективно реалізувати цю технологію на широкому рівні.

На відміну від OpenAI, яка зберігає в таємниці деталі роботи своїх моделей на низькому рівні і надає фактичні ваги лише обраним партнерам, таким як Microsoft, моделі DeepSeek є абсолютно прозорими і мають відкриту ліцензію. Вони опублікували надзвичайно докладні технічні звіти, які пояснюють функціонування моделей, а також надають доступ до коду, з яким може ознайомитися кожен бажаючий.

З R1 DeepSeek по суті зламав один із "святих Граалів" ШІ: змусив моделі міркувати крок за кроком, не покладаючись на масивні набори даних з учителем. Їхній експеримент DeepSeek-R1-Zero показав щось надзвичайне: використовуючи чисте навчання з підкріпленням з ретельно розробленими функціями винагороди, дослідникам вдалося змусити моделі розвивати складні можливості міркування повністю автономно. Це було не просто розвʼязання проблем - модель органічно навчилася генерувати довгі ланцюжки думок, самостійно перевіряти свою роботу та виділяти більше обчислювального часу на складніші проблеми.

Таким чином, модель самостійно навчилася переглядати своє мислення.

Особливо вражаючим є те, що під час навчання в DeepSeek було зафіксовано явище, яке учасники назвали "моментом прозріння". Це фаза, коли модель несподівано навчалась переглядати свій логічний процес в момент виникнення невизначеності. Ця раптова зміна в поведінці не була закладена заздалегідь, а виникла органічно внаслідок взаємодії між моделлю та середовищем навчання з підкріпленням. Модель фактично ставила себе на паузу, виявляючи можливі проблеми у своїх міркуваннях та перезапускаючи процес з новим підходом, і все це без попереднього навчання такій поведінці.

У DeepSeek вдалося вирішити одну з ключових проблем, що виникають у моделях міркування: збереження мовленнєвої узгодженості. Раніше спроби реалізації міркувань з використанням ланцюга думок часто призводили до плутанини в мовах або до отримання незв'язного результату. Проте, завдяки впровадженню інноваційної системи винагороди за мовленнєву узгодженість під час процесу навчання з підкріпленням (RL), DeepSeek змогла подолати цю перешкоду, прийнявши незначне зниження продуктивності на користь значно вищої читабельності та узгодженості виходу.

В результаті DeepSeek-R1 демонструє вражаючу точність і ефективність. На AIME 2024, одному з найскладніших математичних змагань для учнів старшої школи, R1 показав 79,8% точності, що є на рівні моделі o1 від OpenAI. На MATH-500 його результат склав 97,3%, а на змаганнях з програмування Codeforces – 96,3 процентиля. Особливо вражає те, що DeepSeek змогла адаптувати ці здібності до набагато компактніших моделей: їхня версія з 14 мільярдами параметрів перевищує за результатами багато більших моделей, що підкреслює, що ефективність міркування не визначається лише кількістю параметрів, а також методами навчання моделі для обробки даних.

Однак, особливість DeepSeek-R1 полягає не лише в інноваційному підході до навчання моделі, а й у тому, що вперше китайська штучна інтелектуальна система отримала таку значну популярність у західному світі. Користувачі, звичайно, одразу почали ставити їй запитання, що викликають занепокоєння у китайського уряду, зокрема щодо подій на площі Тяньаньмень та статусу Тайваню, і швидко виявили, що в DeepSeek діє цензура. Дійсно, було б наївно вважати, що китайська лабораторія штучного інтелекту не буде дотримуватися місцевих законів та політики.

Однак значна частина розробників сприймає цю цензуру як рідкісні екстрені ситуації в практичному застосуванні, які можна зменшити шляхом ретельного налаштування. Тому навряд чи питання етики використання DeepSeek-R1 зупинить багатьох розробників і користувачів, які прагнуть отримати доступ до новітніх досягнень у сфері штучного інтелекту, ще й безкоштовно.

Звісно, для багатьох під питанням залишається безпека даних, адже DeepSeek-R1 ймовірно, зберігає їх на китайських серверах. Але як запобіжний захід, модель можна спробувати на Hugging Face в режимі пісочниці, або навіть запустити локально на своєму ПК, якщо в наявності є необхідне обладнання. В таких випадках модель не буде повнофункціональною, але це зніме питання з передачею даних на китайські сервери.

Скільки коштувала розробка DeepSeek-R1?

Для тренування своїх алгоритмів хедж-фонд High-Flyer придбав більше 10 000 графічних процесорів NVIDIA H100 до запровадження експортних обмежень США у 2022 році. Мільярдер та генеральний директор Scale AI, Александр Ванг, нещодавно в інтерв'ю CNBC зазначив, що, за його оцінками, DeepSeek володіє приблизно 50 000 чипами NVIDIA H100, про які вони не можуть розповідати через діючі експортні обмеження. Якщо ця інформація вірна, то це значно менше в порівнянні з провідними гравцями в сфері штучного інтелекту, такими як OpenAI, Google та Anthropic, які мають понад 500 000 графічних процесорів кожен.

За словами інженера NVIDIA Джима Фаня, DeepSeek навчив свою базову модель, яка називається V3, з бюджетом у $5,58 мільйона протягом двох місяців. Проте оцінити загальну вартість навчання DeepSeek-R1 складно. Використання 50 000 графічних процесорів NVIDIA потенційно могло обійтися в сотні мільйонів доларів, тож точні цифри залишаються спекулятивними.

Чому DeepSeek-R1 шокувала Кремнієву долину

DeepSeek значною мірою порушує традиційну бізнес-модель OpenAI та інших західних компаній, які розробляють власні закриті моделі штучного інтелекту. Адже DeepSeek-R1 демонструє кращі результати, ніж найсучасніша відкрита альтернатива - Llama 3 від Meta. Ця модель відкрито розкриває весь процес формування своїх відповідей, що ставить під сумнів репутацію OpenAI, яка досі приховувала логіку своїх моделей, посилаючись на комерційну таємницю та на бажання уникнути непорозумінь, коли модель робить помилки.

Окрім цього, успіх DeepSeek підкреслює, що економні та ефективні методи розробки ШІ - це реально. Ми вже визначили, що у випадку з китайською компанією складно порахувати вартість розробки, й завжди можуть бути "сюрпризи" у вигляді багатомільярдного державного фінансування. Але наразі DeepSeek-R1, при схожому рівні точності з OpenAI o1, коштує для розробників значно дешевше. Якщо OpenAI o1 коштує $15 за мільйон вхідних токенів і $60 за мільйон вихідних токенів, то DeepSeek Reasoner API, заснований на моделі R1, пропонує $0,55 за мільйон вхідних токенів і $2,19 за мільйон вихідних токенів.

Проте хоча інновації DeepSeek є новаторськими, вони аж ніяк не забезпечили китайській ШІ-лабораторії лідерства на ринку. Оскільки DeepSeek опублікував свої дослідження, інші компанії, що займаються розробкою моделей ШІ, навчаться на них і адаптуються. Meta та Mistral, французька компанія, що займається розробкою моделей з відкритим кодом, можливо, трохи відстають, але, ймовірно, їм знадобиться лише кілька місяців, щоб наздогнати DeepSeek. Як сказав провідний дослідник ШІ в Meta Ян ЛеКун: "Ідея полягає в тому, що кожен отримує вигоду від ідей інших. Ніхто нікого не "випереджає" і жодна країна не "програє" іншій. Ніхто не має монополії на хороші ідеї. Кожен вчиться у кожного".

Пропозиції від DeepSeek, ймовірно, продовжать знижувати витрати на використання моделей штучного інтелекту, що принесе вигоду не лише звичайним користувачам, а й стартапам та бізнесам, які прагнуть впроваджувати ШІ. Проте, якщо розробка моделі DeepSeek-R1, що потребує менше ресурсів, стане дійсністю, це може створити проблеми для компаній у сфері ШІ, які вже інвестували великі суми у свою інфраструктуру. Зокрема, роки витрат на операційні та капітальні потреби OpenAI та інших можуть виявитися марними.

Ринок досі не має чіткої відповіді на питання, чи вимагатиме розробка штучного інтелекту в майбутньому менше обчислювальних ресурсів, але вже відреагував на це падінням акцій NVIDIA та інших постачальників компонентів для центрів обробки даних ШІ. Це викликає сумніви щодо доцільності проекту Stargate, ініціативи, в рамках якої OpenAI, Oracle та SoftBank планують збудувати в США нові дата-центри для штучного інтелекту, на які вони готові витратити до $500 мільярдів.

З іншого боку, якщо американські корпорації дійсно матимуть надлишок ресурсів для розвитку штучного інтелекту, то китайська компанія DeepSeek, з урахуванням експортних обмежень на чіпи з боку США, може опинитися в ситуації гострої нестачі. Навіть якщо припустити, що ці обмеження стимулювали інноваційний процес, що призвело до створення конкурентоспроможного продукту, бракуватиме обчислювальних потужностей для його масштабування, в той час як конкуренти будуть активно заповнювати прогалини. Таким чином, незважаючи на всі інноваційні досягнення DeepSeek, ще зарано стверджувати, що китайські фірми здатні скласти серйозну конкуренцію західним гігантам у сфері штучного інтелекту, навіть якщо ігнорувати питання цензури та безпеки даних.

#Microsoft #Google #Університет #Інженер #Модель #Західний світ #Наукове дослідження #Північна та Південна Америка #ChatGPT #OpenAI #Штучний інтелект #Сервер (обчислювальна техніка) #NVIDIA #Інвестор #Китай #Доктор наук #Ступінь магістра #Китай (регіон) #Цензура #Пекін #Пекінський університет #Тайвань #Долар #Юань Женьміньбі #Мета-платформи #Корпорація Oracle #CNBC #Навчання з підкріпленням #Графічний процесор #Хедж-фонд #Програмне забезпечення з відкритим кодом #Шум #Alibaba Group #Суперкомп'ютер #Машинне навчання #Baidu #Ханчжоу #SoftBank Group #Силіконова долина

Читайте також

Найпопулярніше
Древко на гербі
У бібліотеку Ірландії повернули книгу, яка була втраченя більш ніж 50 років.
Акторку з популярного серіалу "Сексуальне виховання" викликали до суду у справі про сексуальне насильство: деталі ситуації.
Актуальне
Протести в Сербії: студенти організували марш з Белграда до Нового Саду.
Ключовий бар'єр: які наслідки може мати російська агресія стосовно України
Сотні студентів з Сербії стартували в багатоденний похід на підтримку протесту.
Теги