Мінцифри: Створюємо основу для українського Gemini — коли розпочне свою роботу національна LLM.

У 2025 році Міністерство цифрової трансформації України поставило амбітну ціль -- створити українську велику мовну модель (LLM). Це технологія, яка запустить бум ШІ-чатів та асистентів для держсервісів і бізнесів. Вони працюватимуть як Gemini та ChatGPT, тільки на базі українських даних.

Мінцифри успішно перейшло від етапу розробки концепцій до впровадження практичних технічних рішень та ділиться інформацією про те, що відбувається "за лаштунками" проекту в даний момент.

Хто займається будівництвом і на яких технологіях базується цей процес?

Технічним партнером проекту виступила компанія Київстар. Вона забезпечує фінансування та займається розробкою, а після завершення проекту передасть мовну модель державним органам.

Для основи нашої потужної мовної моделі ми вибрали модельну родину Gemma від Google. Ці інноваційні технології ми "українізуємо", тобто налаштовуємо відповідно до нашої мови та специфічного контексту.

Що коїться в даний момент?

В даний момент відбувається "невидима", проте надзвичайно важлива фаза роботи — підготовка даних. Це ключова проблема, адже для створення якісної української моделі необхідно не лише використання інформації з інтернету, а й глибоке вивчення історичних архівів та інших письмових джерел.

Інформацію для навчання збираємо у державних інституціях, медіа, університетах та наукових закладах. Але значна частина важливих текстів досі існує лише на папері, що вчергове нагадує про потребу загальної цифровізації в країні.

Для забезпечення незалежного моніторингу розробки моделі Міністерство цифрової трансформації сформувало експертний комітет, що працює в чотирьох ключових сферах: науково-технічній, правовій, культурно-історичній та мовній. Основна мета їхньої діяльності полягає у створенні професійних бенчмарків (системи тестування), що забезпечить впевненість у високій якості навчання моделі.

У січні 2026 року ми отримаємо:

Перша колекція текстів для навчання мовної моделі.

Удосконалений токенізатор - це інструмент, що ефективно сегментує слова на складові частини. Завдяки цьому, модель зможе швидше та результативніше працювати з українською мовою.

Унікальні бенчмарки для оцінювання якості — це критерії, за якими ми здійснюватимемо аналіз ефективності та безпеки LLM.

Водночас розробляються правові норми, що забезпечують прозорість, безпеку та відповідність вимогам інтелектуальної власності при обробці даних для моделі.

Коли реліз

Перший варіант моделі планується вивести на бета-тестування вже навесні 2026 року. Він буде навчений на ексклюзивних даних і зможе змагатися з іншими моделями у відкритих рейтингах.

А тим часом готуємося до вибору імені для української LLM. У січні розпочнеться голосування в Дії — назву оберете саме ви!