想象你在一个美丽的海滩上。你可能会想象沙滩和大海,但也会听到一阵阵狂风、海浪撞击和海鸥鸣叫的交响乐。在这个场景中,以及在城市环境中,邻居们在说话,狗在叫,车辆在呼啸,声音是一个地方整体感觉的关键组成部分。
的确,声音是帮助人类了解环境的基本感官之一,环境声音条件已被证明与一个人的身心健康有很强的相关性。因此,从围绕城市规划和噪音管理的集体政策制定,到个人决定在哪里买房或创业,了解特定地理区域的声景观的可靠方法都是有价值的。
计算机科学与工程教授内森·雅各布斯(Nathan Jacobs)与在圣路易斯华盛顿大学麦凯维工程学院学习计算机科学与工程的研究生苏巴什·卡纳尔(Subash Khanal)、斯里库马尔·萨斯特(Srikumar Sastry)和阿尤什·达卡尔(Aayush Dhakal)一起开发了地理感知对比语言音频预训练(GeoCLAP),这是一种可以应用于世界任何地方的声景映射的新框架。
他们于11月22日在英国阿伯丁举行的英国机器视觉会议上展示了他们的工作。论文也被发布到arXiv预印本服务器上。
该团队的关键创新来自于他们在框架中使用了三种不同的模式或数据类型,其中包括地理标记音频、文本描述和头顶图像。不同于以往只关注两种模式的音景映射方法,GeoCLAP更丰富的理解允许用户从任何地理位置的文本或音频查询中创建可能的音景。
雅各布斯说:“我们已经开发出一种简单且可扩展的方法,可以为任何地理区域创建音景地图。”“我们的方法克服了以前基于规则的声景映射方法的局限性,这些方法经常遗漏重要的声源,或者依赖于直接的人类观察,这些方法很难在远离热门旅游目的地的地方获得足够的数量。
“通过利用声音和局部视觉线索之间的内在关系,我们的多模式工具和免费的头顶图像使我们能够为世界上任何地区创建声景地图。”
更多信息:Subash Khanal等人,学习零镜头声景映射的三模态嵌入,arXiv(2023)。DOI: 10.48550/ arXiv .2309.10667
由圣路易斯华盛顿大学提供
引用:工程师开发
2023年11月22日从https://techxplore.com/news/2023-11-f检索到的预测某些地点可能听到的声音类型的框架(2023,11月22日)
html本文档
作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。的有限公司
内容仅供参考之用。