這是人類有史以來首次直接根據(jù)大腦信號(hào),合成語音和面部表情,標(biāo)志著腦機(jī)接口應(yīng)用史上的又一里程碑。
18年前,年僅30歲的Ann?。剩铮瑁睿螅铮钤庥隽藝?yán)重的中風(fēng),當(dāng)時(shí)她是一名數(shù)學(xué)老師、排球教練以及一個(gè)嬰兒的母親,從此失去了運(yùn)動(dòng)和語言能力。
在她女兒的記憶里,從沒有過母親說話的聲音——直到美國加州大學(xué)舊金山分校等機(jī)構(gòu)的學(xué)者將一塊芯片植入了Ann Johnson的大腦皮層。接受植入后,當(dāng)她默念句子時(shí),屏幕上的AI替身會(huì)幫她發(fā)出“她自己的”聲音,并展示微笑、嘟嘴、悲傷等等那些Ann?。剩铮瑁睿螅铮钆ο雮鬟_(dá)的表情。
8月23日,《自然》雜志發(fā)布了這項(xiàng)壯舉,這也是人類有史以來首次直接根據(jù)大腦信號(hào),合成語音和面部表情,它標(biāo)志著腦機(jī)接口應(yīng)用史上的又一里程碑。領(lǐng)導(dǎo)這一研究的加州大學(xué)舊金山分校神經(jīng)外科教授Edward?。茫瑁幔睿缯f,“我們只是想恢復(fù)人們的本來面目?!?/p>
Ann?。剩铮瑁睿螅铮睢∨cAI替身互動(dòng)。(圖源:視頻截屏)
在腦機(jī)接口領(lǐng)域,近年來多個(gè)機(jī)構(gòu)陸續(xù)發(fā)布重磅成果。人工智能幫助癱瘓人士恢復(fù)基礎(chǔ)的日?;顒?dòng),中科院深圳先進(jìn)技術(shù)研究院正高級(jí)工程師李驍健告訴“醫(yī)學(xué)界”,“走得快的話,全球預(yù)計(jì)在2030年前就會(huì)有系統(tǒng)率先申報(bào)上市?!?/p>
從Ann?。剩铮瑁睿螅铮睢〉纳鲜鼋?jīng)歷來看,“讀心算法”的落地已并非天方夜譚。在價(jià)格方面,“不算手術(shù)、護(hù)理等醫(yī)療開銷,全套植入硬件設(shè)備成本最低可控制在5萬元人民幣之內(nèi)?!崩铗斀”硎?。
視頻由加州大學(xué)舊金山分校威爾神經(jīng)科學(xué)研究所Metzger等人提供。(視頻來源于網(wǎng)絡(luò))
2005年中風(fēng)后,Ann?。剩铮瑁睿螅铮罨忌狭碎]鎖綜合征。
十幾年來,她都靠著帶有反射點(diǎn)的眼鏡,對(duì)準(zhǔn)屏幕的字母敲擊形成文字和外界交流。每分鐘只能生成14個(gè)單詞,她在2020年的一篇文章中寫道,“閉鎖綜合征,就像你有充分的認(rèn)知,有完整的感覺,但被鎖在一個(gè)沒有肌肉的身體里。”
直到2021年,Ann?。剩铮瑁睿螅铮羁吹搅艘豁?xiàng)研究,科研團(tuán)隊(duì)通過腦機(jī)接口芯片和人工智能算法,幫助一名癱瘓人士將試圖說的話轉(zhuǎn)為文本,并顯示屏幕上。Ann?。剩铮瑁睿螅铮盍⒖搪?lián)系了對(duì)方,后來被選為此次臨床試驗(yàn)的8名受試者之一。
而這次,研究人員不再滿足僅用文字展示話語。具體地,研究小組將一個(gè)由?。玻担场€(gè)電極組成的、信用卡大小的芯片植入Ann?。剩铮瑁睿螅铮畲竽X皮層的語言區(qū)域。在那里,芯片將攔截在中風(fēng)前本應(yīng)傳遞到嘴唇、舌頭、喉部和臉部肌肉的神經(jīng)元信號(hào),重新采集并傳到Ann Johnson頭部的電子端口,端口和計(jì)算機(jī)相連,信號(hào)被解碼為文本,再合成語音。
本次試驗(yàn)系統(tǒng)的概念圖。(圖源:加州大學(xué)舊金山分校)
語音模版用的是20年前Ann?。剩铮瑁睿螅铮钤诨槎Y祝酒詞的發(fā)言,“聽到自己的聲音會(huì)讓人激動(dòng)......女兒也從未聽過我的聲音?!彼嬖V研究人員。
關(guān)于發(fā)聲的原理,李驍健向“醫(yī)學(xué)界”解釋道,當(dāng)她在大腦中默念單詞時(shí),芯片會(huì)采集到相應(yīng)的大腦信號(hào),再通過人工智能分類器,提取出不同單詞的音素組合特征,解碼并對(duì)應(yīng)到事先搭建好的單詞庫中識(shí)別,最終形成的語音由AI發(fā)聲。
研究人員構(gòu)建了由1024個(gè)單詞組成的詞庫,人工智能并不直接識(shí)別單詞,而是通過最小聲音單位的組合來實(shí)現(xiàn),比如“Hello”包含:“HH”、“AH”、“L”和“OW”,這樣,計(jì)算機(jī)只要和人建立了39 個(gè)聲音單元的連接,理論可以組合成任何詞句。
試驗(yàn)過程中,Ann Johnson進(jìn)行了幾周的訓(xùn)練,她必須一遍又一遍默念 1024 個(gè)單詞中的音節(jié),直到人工智能學(xué)會(huì)識(shí)別每個(gè)音節(jié)對(duì)應(yīng)的大腦活動(dòng),組合后與詞庫一一對(duì)應(yīng),建立連接。
Ann Johnson通過腦機(jī)接口系統(tǒng),與AI提升進(jìn)行“意念互動(dòng)”。(圖源:NBC)
由于植入電極密度增加、解碼和人工智能學(xué)習(xí)等方面的進(jìn)展,解碼發(fā)聲的速度得到了大幅提升。研究結(jié)果顯示,該系統(tǒng)每分鐘能生成?。罚浮€(gè)單詞,正常人的語速大約在每分鐘?。保叮啊€(gè)。而在同一團(tuán)隊(duì)前述2021年的試驗(yàn)中,還僅為每分鐘15到18?jìng)€(gè)單詞。
研究團(tuán)隊(duì)還和一家面部動(dòng)畫公司合作,和Ann?。剩铮瑁睿螅铮睢〈竽X連接時(shí),AI能識(shí)別信號(hào)并讓她的動(dòng)畫替身做出下巴張開、閉合、咧嘴等不同動(dòng)作,以表示開心、悲傷或驚訝。
“這是腦機(jī)接口在實(shí)用性上的重大突破。電子輔助失聲者溝通并不是新鮮事,但早期多為二維運(yùn)動(dòng)控制任務(wù),計(jì)算機(jī)只需解碼大腦中‘上下’和‘左右’兩個(gè)自由度,患者就能在虛擬鍵盤上任意選擇字母,甚至無需人工智能輔助解碼。但一個(gè)個(gè)字母拼,速度可想而知?!?/p>
“最新系統(tǒng)則屬于多分類任務(wù),分為表情和語言兩大類,表情中又有張嘴、閉嘴、咧嘴等,語言下面又包含幾十個(gè)不同音素。不同‘意念’形成龐大的排列組合后,還能相對(duì)快速、精準(zhǔn)地實(shí)現(xiàn)轉(zhuǎn)化,這反映了包括神經(jīng)科學(xué)、人工智能等多學(xué)科近年來的飛速發(fā)展。”李驍健說。
系統(tǒng)同時(shí)加入了聯(lián)想功能,在出現(xiàn)同音詞時(shí),能根據(jù)語義選出最接近的詞匯。結(jié)果表明,當(dāng)Ann?。剩铮瑁睿螅铮钍褂谩。保埃玻础€(gè)單詞的詞匯集時(shí),準(zhǔn)確率約為?。罚担?。
“我們的目標(biāo)是恢復(fù)一種完整的溝通方式,也是與他人交談最自然的方式。這將對(duì)他們(癱瘓人士)的獨(dú)立性和社交產(chǎn)生深遠(yuǎn)影響。”研究人員表示,目前他們正在開發(fā)“無線版本”的設(shè)備,讓使用者不必通過頭頂電線和計(jì)算機(jī)連接。
目前,這一系統(tǒng)還不適用于“完全癱瘓”人士。Ann?。剩铮瑁睿螅铮钌心苷{(diào)動(dòng)部分嘴部肌肉,對(duì)口型。李驍健介紹道,喪失肌肉活動(dòng)的人,大腦運(yùn)動(dòng)、語言相關(guān)的神經(jīng)活動(dòng)也會(huì)最大程度退化,神經(jīng)信號(hào)的采集和解讀會(huì)更加困難。
對(duì)于殘障人士,該試驗(yàn)被認(rèn)為是在“恢復(fù)身體獨(dú)立性和自主性”上又邁出了一大步。這兩年,腦接機(jī)口領(lǐng)域接連出現(xiàn)了革命性進(jìn)展。
2022年6月28日,美國約翰斯·霍普金斯大學(xué)研究人員完成了全球首例雙邊植入腦機(jī)接口人體試驗(yàn),讓一位癱瘓30年的患者通過意念操控機(jī)械臂切、遞送蛋糕,完成自主進(jìn)食;
美國Synchron公司則在今年1月公布“血管介入式”腦機(jī)接口臨床試驗(yàn)最新進(jìn)展,4名癱瘓者成功控制了外部設(shè)備,可進(jìn)行發(fā)短信郵件、個(gè)人理財(cái)、在線購物等日?;顒?dòng);
總部位于阿姆斯特丹的Onward公司開發(fā)了“腦-脊髓接口”,今年5月登頂《自然》的成果顯示,一位癱瘓12年的病人表現(xiàn)出神經(jīng)功能恢復(fù)跡象,植入物關(guān)閉后也能拄著拐杖行走。
大膽設(shè)想一個(gè)未來場(chǎng)景,無論是健康還是身患重疾,人類通過腦機(jī)接口,用“意念”實(shí)現(xiàn)對(duì)大部分智能設(shè)備的控制,解放身體勞動(dòng)力,能否成為現(xiàn)實(shí)?
李驍健說,從單純的概念到落地醫(yī)療市場(chǎng),腦機(jī)接口離大眾已并不遙遠(yuǎn)?!白屖苷呖咳斯ぶ悄艿妮o助拿水杯喝水、控制輪椅自行運(yùn)動(dòng)、發(fā)合成的語音,完成一些2D或簡(jiǎn)單的3D操作等,技術(shù)上已經(jīng)不是問題?!?/p>
“從這些基本需求出發(fā),只需采集大腦皮層運(yùn)動(dòng)和語言區(qū)的較少量神經(jīng)信號(hào),對(duì)植入電極、芯片和解碼算力等的要求也相對(duì)低。預(yù)計(jì)5到10年內(nèi)就會(huì)有相應(yīng)產(chǎn)品申報(bào)。”李驍健說。
也正因如此,他認(rèn)為此次研究成果,很大程度代表了醫(yī)用植入式腦機(jī)接口技術(shù)短中期內(nèi)的發(fā)展方向。不過分追求高端的硬件設(shè)備,首先在簡(jiǎn)單、實(shí)用的臨床應(yīng)用場(chǎng)景上做出突破,上市時(shí)定價(jià)也不會(huì)很高。“實(shí)驗(yàn)中每分鐘解碼了七八十個(gè)單詞,基本達(dá)到現(xiàn)實(shí)場(chǎng)景可用的水平?!?/p>
Ann?。剩铮瑁睿螅铮钪踩氲氖琴N附在大腦皮層的ECoG電極,這一技術(shù)已誕生了近20年。Synchron公司用的則是“血管介入式”腦機(jī)接口,電極放入大腦血管,而不是皮層組織,雖然犧牲了信號(hào)采集的豐富度,但更為安全成熟,解碼也相對(duì)簡(jiǎn)單,被認(rèn)為是或?qū)⒆钕壬鲜械漠a(chǎn)品。
而在約翰斯·霍普金斯大學(xué)的研究中,由于要采集和解碼多緯度、精細(xì)的動(dòng)作信號(hào),實(shí)現(xiàn)對(duì)機(jī)械臂的精準(zhǔn)控制。以目前的技術(shù)來看,則要通過向腦內(nèi)植入高密度、深度刺入式電極陣列來實(shí)現(xiàn)。離臨床使用上還有一定距離。
安全性是一方面的擔(dān)憂,同時(shí)復(fù)雜程度也將決定腦機(jī)接口能否實(shí)現(xiàn)無線控制。李驍健表示,只要頭頂還長(zhǎng)出“電線”,它就不可能成為真正的臨床醫(yī)療器械?!案?xì)的運(yùn)動(dòng)控制信息,要依靠全體內(nèi)植入式的腦機(jī)接口裝置大規(guī)模收發(fā)神經(jīng)信號(hào)。這方面要做成無線,目前技術(shù)上還達(dá)不到。”
價(jià)格是另一考量。即便硬件成本隨科技發(fā)展一降再降,但和藥物不同的是,醫(yī)用腦機(jī)接口還依賴專業(yè)人士輔導(dǎo)下的大量使用訓(xùn)練、醫(yī)療護(hù)理以及后期一系列維護(hù)成本。“越是復(fù)雜的系統(tǒng),脫離實(shí)驗(yàn)室回歸日常使用的可能性也越低?!崩铗斀”硎尽?/p>
對(duì)于國內(nèi)的腦接機(jī)口領(lǐng)域來說同樣如此。根據(jù)中國信息通信研究院發(fā)布的《腦機(jī)接口總體愿景與關(guān)鍵技術(shù)研究報(bào)告》,結(jié)合我國肢體殘障和神經(jīng)系統(tǒng)的疾病負(fù)擔(dān),預(yù)測(cè)神經(jīng)重塑、神經(jīng)替代、神經(jīng)調(diào)控等腦機(jī)接口技術(shù)將擁有十萬億級(jí)別的市場(chǎng)空間。
“硬件水平上,我國和歐美的差距沒有想象得那么大。前幾年大家把腦機(jī)接口當(dāng)作一種高端設(shè)備投資,強(qiáng)調(diào)‘高端設(shè)備國產(chǎn)替代’,但最近才發(fā)現(xiàn)海外率先取得臨床成果的,往往用的是較早期的設(shè)備技術(shù)?!崩铗斀≌f。
今年5月29日,中科院院士趙繼宗在中關(guān)村論壇腦機(jī)接口創(chuàng)新發(fā)展論壇上稱,語言重建、腦控機(jī)械臂,在這些領(lǐng)域,國外能做到的,國內(nèi)也能做到,但更重要的是如何讓政府部門參與協(xié)調(diào)整個(gè)產(chǎn)學(xué)研用這條線,“個(gè)別病例、個(gè)別試驗(yàn)可能都沒有問題,但最后要用于更多患者,就得考慮產(chǎn)業(yè)化路徑?!?/p>
“本次海外最新成果,靠的也不是新型硬件設(shè)備,而是團(tuán)隊(duì)在語言解碼領(lǐng)域方法的創(chuàng)新和突破,瞄準(zhǔn)簡(jiǎn)單卻實(shí)用的說話場(chǎng)景。相比硬件設(shè)備,臨床醫(yī)學(xué)、腦科學(xué)、人工智能、工程學(xué)的扎實(shí)基礎(chǔ)和多學(xué)科交叉、產(chǎn)學(xué)研間的緊密協(xié)作,結(jié)合臨床需求的緊迫程度,才是哪個(gè)系統(tǒng)能率先落地的關(guān)鍵因素?!崩铗斀≌f。
(文章來源于互聯(lián)網(wǎng))