Укрдержархів передав 10 терабайтів інформації для навчання національної LLM "Сяйво".

#Технології

Державна архівна служба України надає 10 терабайтів історичних матеріалів, офіційних документів та наукових текстів для навчання національної мовної моделі "Сяйво". Це еквівалентно 70 тисячам книг, повідомляє Міністерство цифрової трансформації.

"Для тренування національної мовної моделі ми збираємо дані, щоб мовна модель була натренована на унікальному масиві інформації", - цитуються в релізі слова в.о. міністра цифрової трансформації Олександра Борнякова.

Згідно з інформацією, наданою головою Державного архіву Анатолієм Хромовим, до завершення 2026 року заплановано зростання кількості цифрових версій державних архівів з 150 мільйонів до понад 200 мільйонів.

"Це особливий момент, оскільки Укрдержархів вперше ділиться своїми даними для підтримки розвитку цифрових послуг в Україні", - цитуються у прес-релізі слова Хромова.

В Міністерстві цифрової трансформації зазначили, що на сьогодні більше 50 партнерів, включаючи медіа, університети та бібліотеки, вже долучилися до надання своїх матеріалів.

Згодом буде оприлюднено повний перелік інституцій, які надали свої матеріали для тренування національної моделі, йдеться у повідомленні.

В кінці березня 22,6 тисячі українців підтримали вибір назви "Сяйво" для нової національної мовної моделі.

На початку січня повідомлялось, що запустити бета-тестування національної LLM заплановано навесні 2026 року.

Тоді, за словами екс-першого віцепрем'єр-міністра цифрової трансформації Михайла Федорова, у січні мало бути сформовано першу базу текстів для тренування LLM, покращено токенізатор, який розділяє слова на елементи, для швидкої та продуктивної обробки мови, а також власні бенчмарки для оцінки якості.

У грудні 2025 року стало відомо, що Міністерство цифрової трансформації України спільно з провідним оператором мобільного зв'язку "Київстар" вибрали відкриту ШІ-модель Gemma 3 від Google для розвитку української мовної моделі LLM.

У своєму заяві "Київстар" зазначив, що модель Gemma вже показала свої можливості в якості основи для MamayLM та Lapa LLM – перших українських мовних моделей, а також стала основою для INSAIT BgGPT – сучасної LLM, розробленої для болгарської мови.

#Google #Університет #Бібліотека #Українці #Терабайт #Мобільний зв'язок #болгарська мова #«Сяйво» (фільм) #«Київстар»