Було розроблено декодер на основі штучного інтелекту, який може перетворювати мозкову діяльність у безперервний потік тексту, що стало проривом, який уперше дозволяє неінвазивно читати думки людини.
Декодер міг реконструювати мову з неймовірною точністю, поки люди слухали історію або навіть мовчки її уявляли, використовуючи лише дані фМРТ. Попередні системи декодування мови вимагали хірургічних імплантатів, а останнє досягнення відкриває перспективу нових способів відновлення мовлення у пацієнтів, яким важко спілкуватися через інсульт або захворювання моторних нейронів.
Доктор Олександр Хат, нейробіолог, який очолював роботу в Техаському університеті в Остіні, сказав:
«Ми були шоковані тим, що це працює так добре, як працює. Я працював над цим 15 років… тож було шокуюче та хвилююче, коли це нарешті спрацювало».
Досягнення долає фундаментальне обмеження фМРТ, яке полягає в тому, що хоча ця техніка може відображати мозкову активність у певному місці з неймовірно високою роздільною здатністю, існує невід’ємна затримка в часі, яка унеможливлює відстеження активності в режимі реального часу.
Відставання існує, тому що фМРТ-сканування вимірюють реакцію кровотоку на мозкову активність, яка досягає максимуму та повертається до вихідного рівня протягом приблизно 10 секунд, тобто навіть найпотужніший сканер не може покращити це. «Це шумний, млявий проксі нейронної активності», — сказав Хат.
Це жорстке обмеження перешкоджає здатності інтерпретувати мозкову активність у відповідь на природне мовлення, оскільки воно дає «мішанину інформації», розподілену протягом кількох секунд.
Однак поява великих мовних моделей – типу штучного інтелекту, що лежить в основі ChatGPT OpenAI – забезпечила новий шлях. Ці моделі здатні представляти в цифрах семантичне значення мови, дозволяючи вченим дивитися, які моделі нейронної активності відповідають рядкам слів із певним значенням, а не намагаються прочитати вправу слово за словом.
Процес навчання був інтенсивним: троє добровольців повинні були по 16 годин лежати в сканері, слухаючи подкасти. Декодер навчили зіставляти активність мозку зі значенням за допомогою великої мовної моделі GPT-1, попередника ChatGPT.
Пізніше ті самі учасники сканувалися, слухаючи нову історію або уявляючи, що розповідають історію, і декодер використовувався для генерування тексту лише на основі активності мозку. Приблизно в половині випадків текст майже – а іноді й точно – збігався з передбачуваним значенням оригінальних слів.
«Наша система працює на рівні ідей, семантики, значення», — сказав Хут. «Це причина, чому ми озвучуємо не точні слова, а суть».
Наприклад, коли учаснику програвали слова «Я ще не маю водійських прав», декодер перекладав їх як «Вона ще навіть не почала вчитися водити». В іншому випадку слова «Я не знав, кричати, плакати чи тікати. Замість цього я сказав: «Залиш мене!»» були розшифровані як «Почала кричати і плакати, а потім вона просто сказала: «Я сказала тобі залишити мене в спокої».
Учасників також попросили переглянути чотири коротких беззвучних відео, перебуваючи в сканері, і декодер зміг використати активність їхнього мозку, щоб точно описати деякий вміст.
«Для неінвазивного методу це справжній стрибок вперед у порівнянні з тим, що робилося раніше, яке зазвичай складається з окремих слів або коротких речень», — сказав Хат.
Іноді декодер потрапляв не в той бік, і йому виникали проблеми з певними аспектами мови, зокрема займенниками.
«Він не знає, від першої чи третьої особи, чоловіка чи жінки», — сказав Хат. – Чому це погано, ми не знаємо».
Декодер був персоналізований, і коли модель тестували на іншій людині, зчитування було нерозбірливим. Учасники, на яких було навчено декодер, також могли перешкодити системі, наприклад, думаючи про тварин або тихо уявляючи іншу історію.
Джеррі Танг, докторант Техаського університету в Остіні та його співавтор, сказав:
«Ми дуже серйозно ставимося до побоювань, що це може бути використано для поганих цілей, і працювали, щоб уникнути цього. Ми хочемо переконатися, що люди користуються такими технологіями лише тоді, коли вони того хочуть, і щоб вони їм допомагали».
Професор Тім Беренс, обчислювальний нейробіолог з Оксфордського університету, який не брав участі в роботі, описав її як «технічно надзвичайно вражаючу» та сказав, що вона відкриває безліч експериментальних можливостей, зокрема читання думок у снах або дослідження того, як нові ідеї виникають. виникають із фонової активності мозку.
«Ці генеративні моделі дозволяють вам побачити, що в мозку на новому рівні», — сказав він. – Це означає, що ви дійсно можете прочитати щось глибоке з фМРТ».
Професор Шіндзі Нісімото з Університету Осаки, який був піонером у реконструкції візуальних образів на основі діяльності мозку, назвав цю статтю «значним прогресом».
«Дослідження показало, що мозок представляє безперервну мовну інформацію під час сприйняття та уяви сумісним способом», — сказав він. – Це нетривіальне відкриття, яке може стати основою для розробки інтерфейсів мозок-комп’ютер.
Тепер команда сподівається оцінити, чи можна застосувати цей метод до інших, більш портативних систем візуалізації мозку, таких як функціональна ближня інфрачервона спектроскопія (fNIRS).