找回密码
 立即注册
  • 回复
  • 收藏

人工智能将大脑活动转化为语音

tdmin 2019-1-4 10:46 56人围观 人工智能

对于许多瘫痪且无法说话的人来说,他们想说的话的信号隐藏在他们的大脑中。没有人能够直接破译这些信号。但是最近有三个研究小组在将手术放置在大脑上的电极数据转换成计算机生成的语音方面取得了进展。使用称为神经网络的计算模型,他们重建了在某些情况下可以被人类听众理解的单词和句子。

最近几个月在预印本服务器bioRxiv的论文中描述的所有努力都没有设法重新创造人们只是想象的演讲。相反,研究人员监视大脑的某些部分,因为人们要么大声朗读,要么默默地说话,要么听录音。但瑞士日内瓦大学的神经工程师斯蒂芬妮·马丁(Stephanie Martin)表示,重新演绎的演讲是可以理解的“绝对令人兴奋”,他没有参与新项目。

在中风或疾病之后失去说话能力的人可以使用他们的眼睛或做出其他小动作来控制光标或选择屏幕上的字母。(宇宙学家斯蒂芬霍金拉紧他的脸颊,触发安装在眼镜上的开关。)但如果脑机接口可以直接重新创造他们的演讲,他们可能会重新获得更多:例如,控制音调和变形,或者能力插入一个快速移动的对话。
障碍很高。哥伦比亚大学的计算机科学家Nima Mesgarani说:“我们正试图找出在不同时间点打开和关闭的神经元模式,并推断语音。” “从一个到另一个的映射不是很简单。” 这些信号如何转换为语音声音因人而异,因此必须对每个人进行“训练”。这些模型最适合使用非常精确的数据,这需要打开头骨。

研究人员只能在极少数情况下进行此类侵入性记录。一个是在移除脑肿瘤期间,当暴露的大脑的电子读数帮助外科医生找到并避开关键语音和运动区域。另一种是当癫痫患者植入电极数天以确定手术治疗前癫痫发作的起因。马丁说,“我们最多只有20分钟,也许是30分钟”,用于数据收集。“我们真的非常非常有限。”

新论文背后的团体通过将信息提供给神经网络来获取大部分宝贵数据,神经网络通过将信息传递到计算“节点”层来处理复杂模式。网络通过调整节点之间的连接来学习。在实验中,网络暴露于一个人产生或听到的语音记录和同时大脑活动的数据。

Mesgarani的团队依赖五名癫痫患者的数据。他们的网络分析了听觉皮层(在语音和听力过程中都很活跃)的录音,因为那些病人听到了故事录音和人们从0到9的数字命名。然后计算机仅从神经数据重建口述数字; 当计算机“说出”数字时,一组听众以75%的准确度命名它们。由德国不来梅大学的神经科学家Miguel Angrick和荷兰马斯特里赫特大学的Christian Herff领导的另一个团队依靠六名接受脑肿瘤手术的人的数据。麦克风在朗读单音节词时捕捉到了他们的声音。同时,从大脑的语音规划区域和运动区域记录电极,其向声道发送命令以清楚地表达单词。网络将电极读数映射到音频记录,然后从先前看不见的脑数据重建单词。根据计算机化的评分系统,大约40%的计算机生成的单词是可以理解的。最后,加州大学旧金山分校的神经外科医生Edward Chang和他的团队重建了从语言和运动区域捕获的大脑活动的整个句子,而三名癫痫患者大声朗读。在线测试中,有166人听过其中一个句子,不得不从10个书面选择中选择。超过80%的时间都能正确识别某些句子。研究人员还进一步推动了模型:他们使用它来重新创建句子,而人们默默地说话时记录的数据。赫尔夫说,这是一个重要的结果 - “离我们所有人都想到的言语假肢更近了一步。”

然而,“我们真正在等待的是当患者不能说话时[这些方法]将如何做,”加州圣地亚哥州立大学研究语言生产的神经科学家StephanieRiès说。当一个人默默地“说话”或“听到”他们的头部声音与言语或听力信号不同时,大脑会发出信号。如果没有外部声音来匹配大脑活动,计算机甚至可能很难理清内部语音的开始和结束位置。

奥尔巴尼纽约州卫生部国家自适应神经技术中心的神经工程师Gerwin Schalk说,解码想象的演讲将需要“大幅度的跳跃”。“根本不清楚如何做到这一点。”

Herff说,一种方法可能是向大脑 - 计算机界面的用户提供反馈:如果他们能够实时听到计算机的语音解释,他们可能能够调整他们的想法以获得他们想要的结果。通过对用户和神经网络的充分训练,大脑和计算机可能会在中间相遇。

鲜花

握手

雷人

路过

鸡蛋
我有话说......