人工智能决策现在在自动驾驶汽车、患者诊断和法律咨询中很常见,它需要安全可靠。研究人员一直试图通过开发可解释和透明的模型来揭开复杂人工智能模型的神秘面纱,这些模型统称为可解释的人工智能方法或可解释的人工智能(XAI)方法。一个研究团队在《智能计算》(Intelligent Computing)上发表的一篇评论文章中提供了他们对音频XAI模型的具体见解。
尽管音频任务的研究比视觉任务少,但它们的表达能力同样重要。音频信号很容易理解和交流,因为它们通常不像视觉信号那样依赖于专家的解释。此外,语音识别和环境声音分类等场景本质上是特定于音频的。
本文将现有的音频XAI方法分为两类:适用于音频模型的一般方法和音频特定方法。
使用通用方法意味着选择一个适合非音频任务的通用模型,并对其进行调整以适应特定的音频任务。这些方法通过各种输入表示(如频谱图和波形)和不同的输出格式(如特征、示例和概念)来解释音频模型。
流行的一般方法包括引导反向传播,它通过突出显示输入数据中最相关的部分来增强标准反向传播过程;LIME,用一个更简单的模型逼近一个复杂的模型;以及网络解剖,分析神经网络学习到的内部表征。
另一方面,音频特定方法是专门为音频任务设计的。他们的目标是将音频输入分解成有意义的组件,专注于音频数据的听觉本质。例如,在COVID-19检测中为咳嗽声音提供超声解释的CoughLIME,以及通过将音频组件的重要性归因于源分离来解释音乐标记模型的audioLIME。
XAI方法还可以按照它们的阶段、范围、输入数据类型和输出格式进行分类。阶段是指在培训过程之前、期间或之后产生解释的时期。范围决定了解释是针对整个模型还是针对特定的输入。
XAI通常涉及不同的策略,例如使用预定义的规则或特定的输入示例进行解释,突出显示最重要的特性、重点领域或输入更改,以及使用更简单的模型在局部解释复杂的模型。
研究小组确定了几种使音频模型更具可解释性的方法,例如使用原始波形或频谱图来提供可听的解释,并在音频数据中定义更高层次的概念,这类似于在图像数据中使用超像素的方式。他们还认为,音频解释的表达能力可以扩展到非音频模型,为基于视觉的用户交互提供补充的沟通渠道可能是一种可能性。
更多信息:Alican Akman等人,音频可解释人工智能:综述,智能计算(2023)。DOI: 10.34133 / icomputing.0074引文:音频可解释的人工智能:揭秘“黑匣子”模型(2024,2月26日)检索自2024年2月28日https://techxplore.com/news/2024-02-audio-artificial-intelligence-demystifying-black.html本文档受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。