Google DeepMind анонсувала Aeneas — інноваційну модель штучного інтелекту, призначену для реконструкції давніх текстів.

Дмитро Джугалик – журналіст новин на Mezha.Media. Моїм захопленням є технології, ігри та кіно, про які я із задоволенням пишу.

У римській культурі існувало безліч письмових свідчень, які можна було знайти як на імперських монументах, так і на звичайних предметах побуту. Однак до сьогодні збереглися лише частини текстів, які були пошкоджені або навмисно знищені. Для підтримки істориків у відтворенні цих написів команда Google DeepMind розробила Aeneas — відкриту модель штучного інтелекту, призначену для реконструкції давніх текстів.

Відновлення, датування та локалізація стародавніх написів стають майже неможливими без відповідної контекстуальної інформації. Історики традиційно покладаються на свій досвід і спеціалізовані джерела для виявлення "паралелей" — текстів, які мають схожі характеристики у формулюваннях, синтаксисі, стандартизованих структурах або походженні. Aeneas була створена задля того, щоб прискорити цей процес, аналізуючи тисячі латинських написів та за кілька секунд знаходячи текстові й контекстуальні паралелі.

Aeneas також може адаптуватися до інших стародавніх мов, писемностей та медіа, від папірусів до монет. Розробка великої мовної моделі проходила спільно з Ноттінгемським університетом та у партнерстві з дослідниками з університетів Ворвіка, Оксфорда та Афінського університету економіки та бізнесу. Заразом Google хоче, аби це дослідження приносило користь якомога більшій кількості людей, тому модель є повністю відкритою для дослідників, студентів, викладачів, музейних працівників та інших на сайті predictingthepast.com.

Розширені функції моделі охоплюють виявлення паралелей у зібраннях латинських написів, обробку мультимедійних даних, таких як географічний контекст тексту, а також заповнення пропусків у текстах. Тим часом Google DeepMind стверджує, що Aeneas демонструє відмінні результати та "встановлює нові критерії у відновленні пошкоджених текстів, а також у прогнозуванні їхнього часу і місця створення".

Для навчання моделі Aeneas компанія Google створила обширний набір даних, що базується на багато років досліджень істориків. Усі записи були очищені, узгоджені та об'єднані в єдиний "Латинський епіграфічний набір даних" (LED), який містить понад 176 тисяч латинських написів. Модель використовує декодер на основі архітектури трансформера для обробки текстового введення напису. Після цього спеціалізовані нейронні мережі виконують завдання відновлення символів і датування, спираючись на текст, а географічна атрибуція здійснюється за допомогою зображень написів.

Кожен напис в Aeneas супроводжується списком схожих прикладів, який формується за допомогою методу "вбудовування" -- способу кодування змісту та контексту напису у своєрідний історичний профіль. Такий підхід враховує тему тексту, мову, час і місце його створення, а також зв'язки з іншими написами.