Українська мовна модель (LLM) планує розпочати бета-тестування навесні 2026 року, повідомив Федоров | УНН.

Бета-тестування української національної LLM (великої мовної моделі) заплановано на весну 2026 року. Про це у середу повідомив перший віцепрем'єр-міністр і міністр цифрової трансформації Михайло Федоров у Telegram, розкривши деталі поточного етапу розробки, інформує УНН.

Національна LLM навесні вийде в бета-тестування. Місія України - увійти в топ-3 країни за розвитком штучного інтелекту у світі. Один з наймасштабніших кроків - запуск власної великої мовної моделі, яка навчена на унікальних українських даних

"Розробка LLM потребує ресурсів, а в часи війни всі кошти повинні бути спрямовані на оборону. Тому технічним партнером проєкту став Київстар. Компанія фінансує розробку національної великої мовної моделі, а потім передасть її державі", - вказав віцепрем'єр.

За його словами, навчання української LLM буде здійснюватися на основі сімейства моделей Gemma від Google, нашого стратегічного партнера. "Це інноваційні технології, які ми налаштовуємо під українську мову та специфіку", - зазначив він.

"А якість розробки національної LLM тестуватиме група незалежних експертів з різних галузей, яка перевірятиме модель на: технічну якість; етичність та безпечність для користувачів; знання української мови; розуміння національного контексту", - повідомив Федоров.

Зараз відбувається ключовий етап нашої роботи - збір даних для навчання великих мовних моделей (LLM). Для досягнення високої якості інформації з інтернету недостатньо, тому ми співпрацюємо з державними установами, медіа, університетами та іншими організаціями. Це дозволяє нам отримати терабайти унікальних даних, - зазначив Федоров.

Водночас, за його словами, формується "правова структура, яка дозволяє відповідально обробляти дані, що надаються для навчання моделі".

Він також зазначив, що "команда фахівців вже займається розробкою бенчмарків — тестових систем для мовної моделі, що сприятимуть оцінці та вдосконаленню її якості". Віцепрем'єр додав, що це "дозволить зосередитися на ефективності та безпеці мовної моделі".

У січні 2026 року ми вже матимемо: першу колекцію текстів для навчання LLM; вдосконалений токенізатор – інструмент, що розбиває слова на складові частини, що дозволяє LLM ефективніше обробляти мову; власні методи оцінки якості. Навесні 2026 року ми плануємо розпочати бета-тестування. А назву для української LLM оберуть самі громадяни – у січні стартує голосування в "Дії". Ми прагнемо перетворити Україну на державу з акцентом на штучний інтелект.

Минулого року в березні, оголошуючи початок розробки, Федоров підкреслив, що запуск національної LLМ стане поштовхом для масового виробництва українських інструментів штучного інтелекту. За його словами, тисячі продуктів на основі LLM вже були створені, серед яких віртуальні асистенти, подібні до ChatGPT, генератори тексту, на кшталт Notion AI, а також інструменти для програмування, такі як GitHub Copilot.