在虚拟会议中,很容易阻止人们互相交谈。有人刚按了静音键。但在大多数情况下,这种能力并不容易转化为记录面对面的聚会。在熙熙攘攘的咖啡馆里,没有按钮可以让你旁边的桌子安静下来。
定位和控制声音的能力——例如,将一个人从拥挤的房间的特定位置隔离开来——给研究人员带来了挑战,尤其是在没有摄像头视觉线索的情况下。
由华盛顿大学的研究人员领导的一个团队开发了一种可变形的智能扬声器,它使用自动部署的麦克风将房间划分为语音区域,并跟踪单个扬声器的位置。在该团队的深度学习算法的帮助下,即使两个相邻的人的声音相似,该系统也可以让用户将某些区域或单独的同时对话静音。
就像一群直径约为一英寸的roomba一样,麦克风会自动从充电站部署,然后返回充电站。这允许系统在环境之间移动并自动设置。例如,在会议室会议中,可以部署这样一个系统,而不是中央麦克风,以便更好地控制室内音频。
该团队在《自然通讯》上发表了他们的研究结果。
“如果我闭上眼睛,房间里有10个人在说话,我不知道谁在说什么,也不知道他们在房间里的确切位置。这对人类大脑来说是很难处理的。到目前为止,这对技术来说也很困难,”共同主要作者马利克·伊塔尼说,他是华盛顿大学保罗·g·艾伦计算机科学与工程学院的博士生。“这是第一次,使用我们称之为‘声学群’的机器人,我们能够跟踪一个房间里说话的多人的位置,并将他们的讲话分开。”
以前对机器人群的研究需要使用头顶或设备上的摄像头、投影仪或特殊表面。华盛顿大学团队的系统是第一个仅使用声音精确分配机器人群的系统。
该团队的原型由七个小型机器人组成,它们分布在不同大小的桌子上。当它们从充电器中移动时,每个机器人都会发出高频声音,就像蝙蝠导航一样,利用这个频率和其他传感器来避开障碍物,四处移动而不会从桌子上掉下来。
自动部署使机器人能够以最大的精度放置自己,比人工设置它们更能控制声音。这些机器人分散在尽可能远的地方,因为距离越远,区分和定位说话的人就越容易。今天的消费者智能扬声器有多个麦克风,但聚集在同一个设备上,它们太近了,无法允许这个系统的静音和活动区域。
“如果我有一个麦克风离我一英尺远,另一个麦克风离我两英尺远,我的声音会先传到一英尺远的麦克风。如果其他人离麦克风更近,距离两英尺远,他们的声音会先传到那里,”联合首席作者、华盛顿大学艾伦学院的博士生陈拓超说。
“我们开发了神经网络,利用这些延时信号来区分每个人在说什么,并跟踪他们在空间中的位置。因此,你可以让四个人进行两次对话,并分离出四种声音中的任何一种,并在房间中定位每种声音。”
该团队在办公室、客厅和厨房测试了机器人,每组三到五人说话。在所有这些环境中,该系统可以在90%的情况下识别彼此相距1.6英尺(50厘米)以内的不同声音,而无需事先了解说话者的数量。该系统平均能够在1.82秒内处理3秒的音频,对于直播来说足够快,尽管对于视频通话等实时通信来说有点长。
研究人员表示,随着技术的进步,声群可能会被部署在智能家居中,以更好地区分与智能扬声器交谈的人。例如,这可能只允许坐在沙发上的人,在一个“活动区”,对电视进行语音控制。
研究人员计划最终制造出可以在房间里移动的麦克风机器人,而不是局限在桌子上。该团队还在研究扬声器是否能发出声音,允许真实世界的静音和活动区域,这样房间不同位置的人就能听到不同的声音。作者写道,目前的研究是向科幻小说中的技术迈出的又一步,比如《变聪明》和《沙丘》中的“沉默锥”。
当然,任何让人联想到虚构间谍工具的技术都会引发隐私问题。研究人员承认麦克风可能会被误用,所以他们设置了防范措施:麦克风是用声音导航的,而不是像其他类似系统那样用车载摄像头导航。
这些机器人很容易被看到,当它们活动时,它们的灯会闪烁。与大多数智能音箱在云端处理音频不同,声学群在本地处理所有音频,作为隐私约束。该团队表示,尽管有些人的第一反应可能是监视,但该系统可以用于相反的目的。
Itani说:“它有可能真正保护隐私,这超出了目前智能音箱的范围。”“我可以说,‘不要在我的桌子周围记录任何东西’,我们的系统就会在我周围三英尺处形成一个气泡。这个泡沫里的任何东西都不会被记录下来。或者,如果两组人在彼此旁边说话,其中一组人在进行私人对话,而另一组人在录音,那么其中一组人的对话可以处于静音区,并且保持隐私。”
微软首席研究经理吉冈卓也(Takuya Yoshioka)是这篇论文的合著者,艾伦商学院(Allen School)教授希亚姆·戈拉科塔(Shyam Gollakota)是这篇论文的资深作者。
更多信息:使用自分布声群创建语音区域,自然通信(2023)。DOI: 10.1038 / s41467 - 023 - 40869 - 8。www.nature.com/articles/s41467-023-40869-8期刊信息:Nature Communications
由华盛顿大学提供
引用:研究团队的变形智能扬声器可以让用户静音房间的不同区域(2023年,9月21日)2023年9月21日检索自https://techxplore.com/news/2023-09-team-shape-changing-smart-speaker-users.html本文档
作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。的有限公司
内容仅供参考之用。