Складові 70 тисяч книг: Укрдержархів надав 10 терабайтів інформації для тренування українського штучного інтелекту Сяйво | УНН

Для навчання національної мовної моделі буде використано масив даних, що складається з 70 тисяч книг. Це сприятиме покращенню розуміння штучним інтелектом українського культурного контексту.

Державна архівна служба України надала 10 терабайтів інформації для навчання штучного інтелекту Сяйво. За повідомленням Міністерства цифрової трансформації, обсяг цієї інформації еквівалентний 70 тисячам книг, як зазначає УНН.

Уявіть собі величезний обсяг інформації, що дорівнює 70 тисячам книг. Це саме та кількість — 10 терабайтів унікальних історичних джерел, офіційних документів та наукових текстів — яку Державна архівна служба України вперше надає для навчання національної мовної моделі Сяйво.

За інформацією, наданою Міністерством цифрової трансформації, більшість світових AI-асистентів спочатку формують відповіді англійською мовою, а потім перекладають їх на українську. При цьому часто втрачається важливий контекст.

Для того щоб Сяйво стало надійним інформаційним ресурсом для громадян і підприємств, ми навчаємо його на основі українських даних. У цьому процесі модель вивчатиме історичні документи, рукописи, нормативні акти, судові рішення, медіа матеріали та словники.

У відомстві додали, що створення великої мовної моделі -- важливий крок до побудови ШІ-суверенітету.

В даний момент ми активно збираємо високоякісні дані для нашої моделі. Вже більше 50 партнерів, серед яких медіаорганізації, університети, бібліотеки та інші установи, долучились до надання своїх матеріалів. Як тільки модель буде запущена, ми опублікуємо повний список організацій та осіб, які внесли свій вклад у розвиток національного українського штучного інтелекту.

В. о. міністра цифрової трансформації України Олександр Борняков підкреслив, що "для навчання національної мовної моделі ми акумулюємо дані, щоб ця модель була сформована на основі унікального набору інформації".

Це державні документи, наукові статті, медіаматеріали, словники, історичні матеріали, закони, судові рішення тощо

У Мінцифри зазначають, що використання подібних даних прискорює розробку ефективної української моделі, яка зможе усвідомлювати нашу історію та культурний контекст.

Це безпрецедентна подія, оскільки Укрдержархів вперше відкриває свої дані для сприяння розвитку цифрових сервісів в Україні. Ми володіємо величезним обсягом інформації, що охоплює різні історичні періоди, включаючи як друковані, так і рукописні матеріали, українською та іншими мовами. До кінця 2026 року ми плануємо збільшити кількість цифрових копій з 150 мільйонів до понад 200 мільйонів, що забезпечить один із найшвидших темпів оцифрування архівних ресурсів у світі.