На липневій лекції YCombinator AI Startup School у Сан-Франциско теоретичний фізик і співзасновник Anthropic, Джеред Каплан, зазначив, що штучний інтелект (ШІ) наразі має значні обмеження у здатності сприймати всі органи чуттів людини. Це впливає на його розуміння сучасного світу, але його команда активно працює над подоланням цієї проблеми.
На цій же літній школі, де обговорювалися питання штучного інтелекту, видатна професорка Стенфордського університету Фей-Фей Лі підкреслила, що усвідомлення емоцій є ключовою умовою для розвитку справжнього штучного загального інтелекту (AGI).
Спираючись у своїй гіпотезі на філософські ідеї емпіриків (Локка, Берклі та Юма), Лі каже, що знання народжується з досвіду, який ми отримуємо через органи чуття, а не з чистої логіки. І додає, що перед тим, як розвити спроможність до логічного мислення, ШІ повинен навчитися сприймати та взаємодіяти з простором у тривимірному світі саме через різні "органи" чуття. В нещодавніх виступах та подкастах Фей-Фей Лі казала, що без такої здатності відчувати AGI залишиться лише теоретичним конструктом.
Колишній головний ШІ-дослідник компанії Meta, Ян ЛеКун (Yann LeCun), наголошує, що для розвитку справжнього ШІ потрібні world models (моделі світу для ШІ), які будуть побудовані не тільки на аналізі текстів (як LLM), а й на зовнішніх спостереженнях світу. Фей-Фей Лі погоджується з цією тезою і каже, що spatial intelligence (просторовий інтелект) буде наступним фронтиром для ШІ, який знову ж таки неможливий без чуття, вбудованого в ШІ моделі.
Ці думки змусили мене замислитися, наскільки дійсно обмеженим поки що є ШІ у відтворенні навіть базових п'яти людських чуттів, з яких складається наша сенсорна система (зір, слух, дотик, запах і смак). Ще слабкіше ШІ виглядає, коли ти починаєш аналізувати й інші не загально прийняті чуття людини (пропріоцепцію, інтероцепцію тощо). Тому я вирішив більше дослідити цю тему задля власної зацікавленості, і ось, що в мене вийшло.
Комп'ютерний зір (computer vision) - одна з найрозвиненіших функцій сучасного ШІ, історія якого почалася як мінімум ще в 1960-х роках, коли дослідники MIT наївно вважали, що "навчити машину бачити" - це завдання на одне літо. Як ми знаємо, це їм не вдалося, і у наступні десятиліття вчені пробували багато різних алгоритмів (переважно ручного виділення ознак різних картинок), які могли виявляти контури, обличчя чи рух, але які не масштабувалися до виробничого рівня.
Ситуація докорінно змінилася після прориву 2012 року, коли завдяки використанню глибоких нейронних мереж модель AlexNet Іллі Суцкевера, Алекса Крижевського та Джефрі Гінтона з Університету Торонто перемогла в конкурсі ImageNet, який у 2006 році організувала та ж Фей-Фей Лі зі Стенфорду. Саме цей момент вважається початком сучасної епохи комп'ютерного зору на базі глибинного навчання.
Завдяки цьому значному досягненню, сучасні мультимодальні моделі здатні ефективно аналізувати та точно ідентифікувати об'єкти на зображеннях, коментувати їх, а також відповідати на запитання про практично будь-який візуальний контент. Моделі, такі як GPT-5.1, Gemini 3 та Claude Opus 4.5, можуть інтерпретувати графіки, розпізнавати дорожні знаки і визначати стиль одягу людей. Штучний інтелект також використовується для розпізнавання рукописного тексту, виявлення осіб у натовпі за допомогою камер спостереження, а також для аналізу емоцій на обличчях цих людей.
Безліч людей застосовує алгоритми для візуального аналізу відеоматеріалів, щоб точніше розуміти, що саме демонструється на каналах YouTube і TikTok. У Tesla та Waymo технології комп'ютерного зору вже використовуються для навігації в реальному часі, а в медицині вони допомагають виявляти пухлини на зображеннях з рівнем точності, що перевищує показники середнього лікаря.
Водночас фахівці навчили штучний інтелект "бачити" лише в обмеженому значенні, зокрема розпізнавати пікселі та їхні структури. Однак людське "бачення" охоплює не лише ідентифікацію об'єктів. Воно також включає в себе сприйняття контексту, культурних нюансів та символічних значень.
Відтак, сучасні дослідження в галузі машинного зору зосереджуються на моделюванні динаміки, намірів та просторових сценаріїв. Компанія Waymo навчає свої моделі прогнозувати дії пішоходів і автомобілів у режимі реального часу на основі відео. Meta розробляє відеомоделі з тривалою пам'яттю, які здатні аналізувати не лише окремі кадри, а й послідовності подій у часі. Google DeepMind працює над системами, що інтегрують зорову інформацію та мовлення, щоб пояснювати, що сталося у відео і чому. У підсумку, ці зусилля спрямовані на створення агентів, які не просто "бачать", а також можуть мислити логічно, спираючись на те, що вони спостерігають.
Слух є другим за важливістю сенсором, який штучний інтелект навчився відтворювати. Історично, наступною значущою віхою в еволюції ШІ стало розпізнавання та синтез мовлення, що з'явилося після розвитку комп'ютерного зору. У середині XX століття в компанії Bell Labs була розроблена одна з перших систем для розпізнавання мови, здатна визначати цифри від 0 до 9, коли їх вимовляли одним голосом. Пізніше IBM розробила системи Tangora, які змогли розпізнавати десятки слів. Однак справжній прорив стався лише після 2012 року, коли нові досягнення в нейромережах дозволили створити мовні моделі, що вирізняються високою точністю, адаптивністю і можливістю роботи в реальному часі. Це призвело до виникнення нової ери аудіоінтерфейсів, які подарували нам перших голосових асистентів, таких як Siri, Alexa та Google Assistant.
Сьогодні технологічні можливості розширилися до небачених висот. Системи, такі як ChatGPT, Gemini, Perplexity та Grok, демонструють виключну точність розпізнавання мови, навіть у шумному середовищі або при наявності сильного акценту. ElevenLabs пропонує можливість модулювати ваш голос, надаючи йому специфічні емоційні відтінки та інтонації, а також створювати голосові моделі на основі коротких зразків. Яскравим прикладом є розмова президента Зеленського з Лексом Фрідманом, яку надзвичайно вправно озвучив ElevenLabs.
Деякі сучасні моделі здатні не лише ідентифікувати джерело звуку, але й розпізнавати емоційний стан співрозмовника, а також аналізувати ритм і структуру музичних композицій. Вони можуть також фільтрувати ненормативну лексику, вдосконалюючи вашу мову в подкастах. У кол-центрах штучний інтелект вже давно виконує аналіз розмов у режимі реального часу, оцінюючи рівень стресу або агресії клієнтів. Аналогічні звукові технології знаходять своє застосування у системах синхронного перекладу під час відеодзвінків або презентацій, де необхідно миттєво адаптувати мову з урахуванням інтонацій та темпу висловлювань.
Проте навіть найсучасніші аудіомоделі залишаються вразливими до контексту. Коли людина висловлює іронію або поєднує різні емоції, штучний інтелект може легко неправильно інтерпретувати сказане (хоча й самі люди іноді не вловлюють гумор). У міжкультурному спілкуванні, де важливими є паузи, інтонація та стиль мовлення, такі моделі часто не в змозі передати справжній зміст. Вони не мають уявлення про ситуацію, фізичну присутність або реакцію співрозмовника, тому не "розуміють" те, що чують, а лише статистично аналізують звукові сигнали.
Подальші дослідження в області слухового сприйняття зосереджуються на моделюванні аудіальної пам'яті, взаємодії багатьох голосів та розпізнаванні аудіо контекстів. Компанія Google працює над системами, які можуть одночасно слухати кількох співрозмовників, аналізувати теми бесіди та визначати, хто говорить і про що. Тим часом, OpenAI експериментує з аудіоагентами, які не лише відповідають, а й здатні ініціювати діалоги в режимі реального часу. У музичній сфері продовжуються зусилля зі створення штучного інтелекту, який мог би генерувати складні музичні композиції, беручи до уваги стиль, структуру та емоційний настрій, а не просто відтворювати набір звуків.
Хоча штучний інтелект вже успішно навчився обробляти візуальні та звукові інформації, відчуття дотику досі залишається для нього недоступним у звичному розумінні. Моделі, що функціонують лише в цифровому просторі, не мають матеріального тіла і, відповідно, не можуть взаємодіяти безпосередньо з навколишнім світом.
Отже, рівень "сприйняття" дотику у комп'ютерів залишається доволі обмеженим. Штучний інтелект може збирати інформацію про такі параметри, як тиск, вологість, температура чи текстура, проте для алгоритмів це всього лише числові значення. Моделі можуть аналізувати ці сигнали, отримані від зовнішніх сенсорів, але це не надає їм відчуття дотику, яке характерне для людей. Для людини дотик, наприклад, рук, дотик до дитини або дружнє підштовхування, має емоційне, соціальне та навіть етичне значення. На даний момент жодна модель не в змозі відтворити цю глибину взаємодії.
Цікаво, що вивчення дотику в штучному інтелекті розпочалося ще задовго до виникнення сучасних мовних моделей. Це пов'язано з розвитком робототехніки, коли постала необхідність створення механічних рук, здатних взаємодіяти з різними об'єктами. У 80-90-х роках XX століття інженери розробляли тактильні сенсори, проте вони були досить примітивними та лише фіксували факт контакту. У 2000-х роках з'явилися перші прототипи "штучної шкіри", які почали реагувати на тиск та температуру. Нині деякі лабораторії, зокрема у MIT, ETH Zurich та Toyota Research, займаються створенням гнучких покриттів з інтегрованими сенсорами, здатними детально аналізувати мікроструктуру поверхонь.
Однак поряд із фізичним контактом поступово розвиваються також його цифрові аналогії. У хірургічних симуляторах чи віртуальних середовищах моделі вчаться передавати відчуття, наприклад, створюючи ілюзію дотику за допомогою вібрацій або опору. Хоча такі системи ще не здатні "відчувати", вони вже надають користувачам можливість взаємодіяти з віртуальним світом. Це має особливо велике значення для створення біонічних протезів, які повинні не лише рухатися, а й відновлювати базові тактильні відчуття для пацієнтів.
Подальший прогрес у галузі технологій тісно пов'язаний із синтезом робототехніки та штучного інтелекту, зокрема в рамках концепції Embodied AI. У таких сферах, як робототехніка, логістика та медицина, активно розробляються системи, здатні точно регулювати силу натиску або обережно маніпулювати предметами. Іншою цікавою перспективною областю є "емоційний дотик": наприклад, роботи-компаньйони досліджують, як м'якість чи тепло їхнього дотику можуть впливати на емоційний стан людини. Проте до справжнього усвідомлення сенсорного та емоційного контексту ще дуже далеко. На даний момент штучний інтелект не має фізичного тіла, що обмежує його можливості у досягненні справжнього "відчуття" в людському розумінні.
За словами Алекса Уілчка (Alex Wiltschko - досить українське прізвище), який очолює стартап Osmo, запах поки що залишається одним із найменш алгоритмізованих сенсорів у ШІ. Згідно з дослідженнями науковців людський ніс може відрізнити до 1 трлн різних запахів, але на відміну від зору чи слуху, де сигнал легко переводиться в цифрову форму, складну суміш молекул запаху, які взаємодіють із рецепторами у досить варіативному середовищі, дуже важко оцифрувати. Цьому також заважає нестача великих, структурованих датасетів із мітками, що відображають людське сприйняття запахів.
Сьогодні цифрові технології, що займаються "розумінням" запахів, здебільшого реалізуються через так звані "електронні носи" (e-noses). Ці пристрої здатні виявляти наявність і концентрацію молекул у повітрі. Отримані дані з цих сенсорів передаються до моделі штучного інтелекту, яка класифікує запахи, спираючись на заздалегідь визначені унікальні цифрові сигнатури та патерни. Компанія Osmo активно займається розробкою технологій, які дозволяють створювати спеціальні "карти запахів", що комп'ютер може інтерпретувати і відтворювати.
Одні з перших експериментів із поєднанням сенсорів запаху в "електронних носах" з технологіями штучного інтелекту датуються 1990-ми роками, коли NASA працювала над новими методами для виявлення газів і летючих сполук на борту космічних апаратів. Сьогодні e-noses знаходять широке застосування в різних галузях: у виноробстві для перевірки справжності ароматів, в контролі якості продуктів харчування для виявлення неприємних запахів, у медичних дослідженнях, таких як аналіз дихання для діагностики діабету та онкологічних захворювань (українські науковці також досліджували їх використання під час пандемії COVID-19), а також у військових та промислових системах для раннього виявлення витоків газу чи токсичних речовин.
Як видно, технології продовжують свій розвиток, однак все ще мають ряд обмежень, зокрема через труднощі у створенні універсальних сенсорів, які здатні ефективно функціонувати в непередбачуваних реальних умовах та розрізняти схожі аромати. Крім того, існують суттєві проблеми, пов’язані з нестабільністю вимірювань, старінням сенсорних матеріалів, а також впливом таких факторів, як вологість, температура й тиск, що ускладнює масштабування технологій для створення "універсальних сенсорів".
Нещодавно у Південній Кореї вчені розробили нове покоління електронного носа, який здатен розпізнавати запахи з точністю до 95%, тобто на рівні людського нюху. Пристрій успішно ідентифікував дев'ять ароматів, типових для косметики та парфумів, а також визначав не лише типи, а й концентрацію запахів. Науковці наголошують, що успіх їх технології полягає у здатності інтегрувати декілька сенсорів із різними властивостями в один пристрій, подібно до будови справжнього людського носа.
ШІ зараз вже може визначити хімічний склад, але все ще не може зрозуміти емоції, які цей запах викликає в людини, тому що навіть найточніші моделі не мають доступу до людської інтерпретації запахів. І хоча Osmo вже змогли захопити й відтворити аромат свіжої сливи у вигляді рідини, що може звучати як "телепортація запаху", ШІ досі не розуміє, що цей запах викликає у людини -- любов, тривожність чи ностальгію. ШІ також не розуміє, як аромат здатен викликати або зруйнувати якийсь спогад. І так, не всі люди змогли б точно це пояснити, але розум людини й без вербального пояснення сам "розуміє" це.
Попри це, дослідження тривають. Група вчених, напевно майбутніх конкурентів Osmo, за допомогою графових нейромереж створила Principal Odor Map (POM), "перцептивну карту", яка точно відображає ієрархії сприйняття запахів та дозволяє передбачати та відтворити інтенсивність і подібність ароматів. Ця модель настільки точна, що її прогнози можуть замінити відповіді професійних нюхачів і покращити загальний опис запахів у майбутніх бізнес-рішеннях.
Інші дослідники прагнуть впровадити аромати у VR/AR середовища, використовуючи компактні бездротові генератори запахів, які інтегруються у гнучкі інтерфейси, що прикріплюються до шкіри. Ці пристрої забезпечують точне регулювання інтенсивності запаху, швидко реагують на зміни та споживають мінімальну кількість енергії, що робить їх ідеальними для тривалого використання. Вже сьогодні їх випробовують у 4D-кінотеатрах, онлайн-освіті, передачі емоційних повідомлень і навіть у терапевтичних практиках, пов'язаних із ароматами.
Як ми бачимо, темою цифровізації запаху цікавляться вже десятиліттями, але вона дійсно є складною для алгоритмізації, тому що мова йде не лише про хімію, а про значно більше глибоке еволюційне, емоційне і контекстуальне значення запахів. У майбутньому системи, здатні "відчувати" та "розуміти" запах, можуть бути критично важливими, наприклад, для відновлення смаку й запаху після хвороб, а також для створення глибших занурень у віртуальну чи доповнену реальність. Але поки ШІ не має рецепторів, спогадів чи втіленого досвіду, поняття "відчути аромат" для нього залишається ще мало зрозумілим.
Як і у випадку із запахом, розуміння смаку в ШІ перебуває лише на початковій стадії. Мовні моделі вже активно використовуються у сфері харчування для генерації рецептів, аналізу харчових переваг користувачів, підбору продуктів під дієти. Але при цьому ШІ майже зовсім не розуміє, що таке смак у людському сенсі, і не знає, що таке жирний післясмак, терпкість вина чи гіркота кави, не має відрази до зіпсованого йогурту і не здатен оцінити різницю між "дуже смачно" і "просто їстівне".
Перші спроби "оцифрувати" смак з'явилися в 1990-х роках, коли були розроблені так звані електронні язики: комплекти сенсорів, що здатні визначати pH, вміст солі, гіркоту або кислотність. Ці системи були створені в Японії, зокрема в університеті Кюсю, з метою автоматизації контролю якості напоїв, соусів і фармацевтичних рідин. У 2000-х роках розпочалися перші спроби інтегрувати ці сенсори з алгоритмами машинного навчання для класифікації смакових профілів. Проте навіть сьогодні ці технології ще не досягли рівня, на якому могли б "смакувати" щось складне.
Тим часом штучний інтелект володіє певними можливостями. Наприклад, система IBM Watson здатна генерувати нові рецепти, комбінуючи інгредієнти, що мають сумісні аромати і смакові характеристики. Проте ШІ не може "відчути" різницю між стравою, яка недостатньо солона, і тією, що пересолена. Він не розуміє, що таке "занадто прісно" чи "смачно, але важко переварюється". У нього відсутні смакові рецептори, пам’ять і контекст. І найважливіше: йому бракує індивідуальних смакових уподобань, які формуються протягом багатьох років під впливом культури, звичок, дитячих спогадів і тілесного досвіду.
Подальші дослідження в даній області просуваються в кількох напрямках. По-перше, триває вдосконалення електронних язиків, які вже активно використовуються в харчовій промисловості для автоматизованого контролю якості продукції. По-друге, проводяться дослідження моделей молекулярного профілювання, здатних прогнозувати смакові характеристики речовин на основі їхньої хімічної структури (наприклад, пошук альтернатив цукру чи м'ясу). По-третє, створюються інтерфейси зворотного зв'язку, які завдяки електростимуляції язика можуть відтворювати базові смаки, такі як солоний, кислий або солодкий, тим самим емулюючи смак у віртуальній реальності. Однак до появи по-справжньому "розумного" або, принаймні, чутливого до смаку штучного інтелекту ще дуже далеко.
Концепція п'яти базових чуттів людини бере свій початок з твору Арістотеля "Про душу" (De Anima), де кожному з чуттів: зору, слуху, дотику, нюху і смаку, присвячено окремий розділ. На сучасному етапі розвитку науки ці п'ять чуттів продовжують вважатися основоположними істинами.
Водночас триває зацікавлена дискусія щодо того, що в людини існує не лише п’ять, а набагато більше чуттів: 9, 21 або навіть 33, залежно від підходу науковців. Ці "додаткові" чуття охоплюють внутрішні, тілесні та контекстуальні відчуття. Чесно кажучи, багато з термінів, які описують ці чуття, я рідко чую навіть від фахівців: рівноцепція, пропріоцепція, кінестезія, термоцепція, ноцицепція, хроноцепція та інші. Їх важче виміряти або відтворити в експериментальних умовах, проте вчені стверджують, що їх необхідно враховувати для глибшого розуміння складного світу людських відчуттів.
Дійсно, список додаткових чуттів можна продовжувати, але вже зрозуміло, що ми значно недооцінюємо складність людського сприйняття світу. Наші органи чуття рідко функціонують ізольовано: ми не просто "словимо звук" чи "розглядаємо зображення", а одночасно переживаємо мультисенсорний досвід цілісної реальності. Смак тісно пов'язаний із запахом, зорове сприйняття впливає на те, як ми чуємо, а дотик може підсилити або змінити емоційний контекст ситуації.
Сприйняття положення нашого тіла у просторі, несвідоме відчуття рівноваги, зміни температури або внутрішнього стану функціонують на фоні, без зупинок, формуючи наше усвідомлення присутності, руху та ритму життя. Проте без цих елементів жодна складна система, навіть надзвичайно "інтелектуальна", не зможе відчути світ так, як це робимо ми.
І тому Фей-Фей Лі, яку ми згадували декілька разів, дійсно має рацію: AGI не буде повноцінним без того, що вона називає просторовим інтелектом (spatial intelligence), тобто інтелекту, який базується на відчутті та розумінні законів функціонування навколишнього середовища.. На думку Лі, мова є одномірною, чисто генеративною конструкцією, створеною людьми. Натомість реальний світ -- тривимірний, складний, підпорядкований фізичним законам, який можна зрозуміти виключно через постійну сенсорну взаємодію за допомогою ШІ. Саме на цій темі й фокусується її стартап World Labs.
На це невеличке дослідження про чуття в ШІ мене підштовхнув виступ Джереда Каплана з Anthropic, і я почав читати на цю тему виключно з власної цікавості, більше як вправу для розуму, без чіткої мети. За цей час я багато чого дізнався для себе і дуже радію, бо люблю пізнавати нове.
Сподіваюся, що ця стаття, що містить більше ста посилань на різноманітні джерела, які я досліджував влітку, надихне когось на нові відкриття чи дії. Це може бути корисно для учнів, як мій син, які тільки починають усвідомлювати важливість біології та розмірковують над тим, як наші органи чуття можуть стати основою для технологій, зокрема робототехніки. Можливо, студенти, що займаються комп'ютерними науками, хімією, медициною або дизайном інтерфейсів, знайдуть у цьому матеріалі несподівані зв'язки між різними науковими галузями. Для дослідників це може стати нагадуванням про те, скільки ще невідомого залишається в основах сенсорних механізмів. А ще, можливо, ця інформація буде корисною для підприємців в Україні, які розвивають стартапи в сферах харчових технологій, медичних сенсорів, нейроінтерфейсів або віртуальної реальності.
Якщо цю статтю читають засновники стартапів, дозвольте поділитися трьома порадами від одного з засновників Anthropic. По-перше, присвятіть більше часу розробці продуктів, які наразі не працюють. По-друге, будьте готові не лише "використовувати" штучний інтелект, а інтегрувати його в архітектурні рішення з самого початку, а не на етапі завершення. І наостанок, звертайте особливу увагу на ніші, де технології можуть забезпечити не поступове, а експоненційне зростання. Можливо, саме розвиток інтелектуальних моделей та роботів знайде своє місце на перетині цих трьох рекомендацій.
#Google #Емоції #Модель #Медицина #OpenAI #Штучний інтелект #Кнопка #Слух #Алгоритм #Массачусетський технологічний інститут #Сприйняття #Японія #Стенфордський університет #Південна Корея #Тесла, Інк. #Температура #Сенсор. #Розвідка #Звук #Мета-платформи #Сигнал #Запах. #Берклі, Каліфорнія #Сенсорна нервова система #Комп'ютерний зір #Сан-Франциско #Університет Торонто #Нейронна мережа (машинне навчання) #Аромат #Ніс. #IBM #Швейцарська вища технічна школа Цюріха #Toyota #Дотик #Waymo #Ян Лекун