
Цього тижня китайська лабораторія штучного інтелекту DeepSeek увірвалася в загальну свідомість після того, як її додаток для чат-ботів піднявся на вершину чартів Apple App Store ( а також Google Play ). Моделі штучного інтелекту DeepSeek, які були навчені з використанням обчислювально-ефективних методів, змусили аналітиків Уолл-стріт -- і технологів -- поставити під сумнів, чи зможуть США зберегти лідерство в гонці штучного інтелекту та чи збережеться попит на мікросхеми ШІ.
Але звідки ж виник DeepSeek і як йому вдалося так оперативно завоювати світову популярність?
DeepSeek підтримується High-Flyer Capital Management, китайським кількісним хедж-фондом, який використовує штучний інтелект для прийняття торгових рішень.
У 2015 році Лян Венфен, захоплений технологіями штучного інтелекту, став одним із засновників компанії High-Flyer. Венфен, котрий розпочав свою трейдингову діяльність під час навчання в Чжецзянському університеті, у 2019 році заснував High-Flyer Capital Management, хедж-фонд, що спеціалізується на створенні та впровадженні алгоритмів на основі штучного інтелекту.
У 2023 році High-Flyer заснувала DeepSeek як лабораторію, що займається дослідженням інструментів ШІ окремо від фінансового бізнесу. Завдяки High-Flyer як одному з інвесторів лабораторія відокремилася у власну компанію, яка також називається DeepSeek.
З першого дня DeepSeek створив власні кластери центрів обробки даних для навчання моделей. Але, як і інші компанії штучного інтелекту в Китаї, DeepSeek постраждала від заборони США на експорт апаратного забезпечення . Щоб навчити одну зі своїх останніх моделей, компанія була змушена використовувати чіпи Nvidia H800, менш потужну версію чіпа, H100, доступну для американських компаній.
Кажуть, що технічна команда DeepSeek перекошує молодь. Повідомляється, що компанія агресивно набирає докторантів ШІ з провідних китайських університетів. Згідно з The New York Times, DeepSeek також наймає людей без будь-якого досвіду в інформатиці, щоб допомогти своїм технологам краще зрозуміти широкий спектр тем.
DeepSeek анонсував свій дебютний набір моделей — DeepSeek Coder, DeepSeek LLM та DeepSeek Chat — у листопаді 2023 року. Однак інтерес до цього стартапу в сфері штучного інтелекту почав зростати лише навесні минулого року, коли компанія представила нове покоління моделей DeepSeek-V2.
DeepSeek-V2 — це універсальна платформа для аналізу текстів та зображень, яка продемонструвала відмінні результати в ряді тестів штучного інтелекту, при цьому її експлуатаційні витрати виявилися значно нижчими, ніж у подібних моделей того періоду. Це спонукало внутрішніх конкурентів DeepSeek, таких як ByteDance та Alibaba, зменшити ціни на свої рішення та запропонувати інші продукти безкоштовно.
DeepSeek-V3 , запущений у грудні 2024 року, лише додав DeepSeek слави.
Згідно з результатами внутрішнього тестування DeepSeek, нова версія DeepSeek V3 демонструє кращі результати порівняно з завантажуваними, відкритими моделями, такими як Meta's Llama, а також з "закритими" моделями, доступ до яких можливий лише через API, наприклад, OpenAI GPT-4o.
Не менш вражаючою є модель "аналізу" DeepSeek R1. Цей продукт, представлений у січні, запевняє, що R1 демонструє таку ж ефективність, як і модель OpenAI o1 у основних тестових показниках.
Як модель міркування, R1 успішно перевіряє факти, що дозволяє уникати певних пасток, які часто зустрічаються в інших моделях. Процес міркування займає більше часу — зазвичай від секунд до хвилин — для знаходження рішень, якщо порівнювати з традиційними моделями, які не використовують міркування. Проте, їхня надійність у таких галузях, як фізика, природничі науки та математика, є значною перевагою.
Проте R1, DeepSeek V3 та інші моделі DeepSeek мають свої недоліки. Як штучний інтелект, розроблений у Китаї, вони підлягають перевірці китайським Інтернет-регулятором, щоб гарантувати, що їхні відповіді "відповідають основним соціалістичним цінностям". Наприклад, чат-бот DeepSeek R1 не надасть відповіді на запитання щодо площі Тяньаньмень або питання про автономію Тайваню.
У березні DeepSeek досягнув понад 16,5 мільйонів відвідувачів. "Попри зниження трафіку на 25% у порівнянні з лютим, DeepSeek посідає друге місце за кількістю щоденних відвідувань," - зазначив Девід Карр, редактор Similarweb, у коментарі для TechCrunch. Однак, у порівнянні з ChatGPT, який у березні налічував понад 500 мільйонів активних користувачів на тиждень, DeepSeek виглядає менш вражаюче.
Якщо у DeepSeek дійсно існує бізнес-модель, то вона залишається незрозумілою. Компанія встановлює ціни на свої продукти та послуги значно нижче ринкових, а частину з них взагалі надає безкоштовно. Це не відволікає інвестиційні кошти, незважаючи на численні інтереси венчурних капіталістів.
Згідно з інформацією від DeepSeek, значний прогрес у продуктивності забезпечив їй виняткову конкурентоспроможність у витратах. Проте, ряд фахівців ставлять під сумнів дані, представлені компанією.
У будь-якому випадку розробники скористалися моделями DeepSeek, які не є відкритими, як це прийнято розуміти, але доступні за дозвільними ліцензіями, які дозволяють комерційне використання. За словами Клема Деланга, генерального директора Hugging Face, однієї з платформ, на якій розміщено моделі DeepSeek, розробники Hugging Face створили понад 500 "похідних" моделей R1 , які разом зібрали 2,5 мільйона завантажень.
Успіх DeepSeek у боротьбі з більшими та відомішими конкурентами був описаний як "штучний інтелект, що перевертає" та "надмірний розквіт". Успіх компанії принаймні частково спричинив падіння ціни акцій Nvidia на 18% у січні та викликав публічну реакцію генерального директора OpenAI Сема Альтмана. У березні бюро Міністерства торгівлі США повідомило співробітникам, що DeepSeek буде заборонено на їхніх державних пристроях , повідомляє Reuters.
Корпорація Майкрософт оголосила, що DeepSeek доступний у її службі Azure AI Foundry , платформі Microsoft, яка об'єднує служби ШІ для підприємств під одним банером. Коли його запитали про вплив DeepSeek на витрати Meta на штучний інтелект під час телефонної розмови про прибутки за перший квартал, генеральний директор Марк Цукерберг сказав, що витрати на інфраструктуру штучного інтелекту й надалі будуть "стратегічною перевагою" для Meta. У березні OpenAI назвав DeepSeek "субсидованим державою" та "контрольованим державою" та рекомендував уряду США розглянути питання про заборону моделей у DeepSeek.
У ході телефонної конференції, присвяченої фінансовим результатам Nvidia за останній квартал, генеральний директор Дженсен Хуанг акцентував увагу на "вражаючій інновації" під назвою DeepSeek. Він зазначив, що ця технологія, разом з іншими "інтелектуальними" моделями, є надзвичайно вигідною для компанії, оскільки їх впровадження вимагає значних обчислювальних потужностей.
Одночасно деякі компанії вводять заборону на використання DeepSeek, а також ціле низка країн і урядів, серед яких і Південна Корея. Крім того, штат Нью-Йорк заборонив застосування DeepSeek на державних пристроях.
#Microsoft #Університет #Студент #Свідомість #Модель #Експорт #Північна та Південна Америка #Бізнес #Технологія #Стартап-компанія #Інтегральна схема #ChatGPT #OpenAI #Штучний інтелект #Комп'ютерні науки #NVIDIA #Алгоритм #Інвестор #Китай #Конкуренція (економіка) #Марк Цукерберг #Китай (регіон) #Тайвань #Південна Корея #The New York Times #Apple Inc. #Мета-платформи #Тестування #Alibaba Group #Комп'ютерне обладнання #Google Play #Нью-Йорк (штат)