中国社会科学杂志社

首页>中国社会科学报>语言学

积极开展对深度伪造语音的鉴别研究

2021年04月06日 09:30 来源：《中国社会科学报》2021年4月6日第2140期作者：耿浦洋

　　当今时代，手机、录音笔、录音电话等设备已成为人们生活和工作中的常见工具。尤其是，随着微信语音、手机录音等功能的逐渐强大，录音资料已经越来越频繁地作为证据出现在法律诉讼案件中。录音资料也正式被我国的《刑事诉讼法》和《民事诉讼法》列为法定证据形式之一，并且在诉讼过程中扮演着愈发重要的角色。因此，鉴定“一段录音是否某人所说”（即声纹鉴定）成了司法语音鉴定和研究的一个重要方面。

　　近年来，随着科学技术的快速发展，人工智能技术（Artificial Intelligence，以下简称AI）已经越来越多地被运用到各个领域中，包括仿真机器人、自动识别（指纹、人脸、语音等）和智能医疗等。语音深度伪造是指利用人工智能技术（如机器学习算法、神经网络等）对人的声音进行“学习—模仿”，换句话说就是一种对声音进行重现（reenactment）、替换（replace）、编辑（editting）和合成（synthesis）的新型技术。这项技术的出现意味着“声音不再属于自己”，任何人的声音都是可以被伪造和替换的。

　　语音深度伪造技术已愈发成熟

　　由于语音深度伪造技术在医疗康复（如失声患者“重建”声音）、娱乐（如搞笑视频）等领域拥有巨大的发展潜力和应用价值，世界各国对此项技术的开发和推广投入了大量精力，相关技术也愈发成熟。

　　相比于人脸深度伪造（face deepfake），语音深度伪造出现时间较晚，主要兴起于2019年。语音深度伪造技术，在本质上是一种“文本—语音”转换系统（text-to-speech system，以下简称“TTS系统”）。早期TTS系统通过语音合成技术，可以将录入的文本信息转化为对应的语音信号。然而，正如E.Helander和J.Nurminen所指出的早期TTS系统合成的语音信号在自然度、可懂度和连续性等方面的效果并不理想，也就是常说的听起来像机器声（robotic voice）。近年来，随着语音合成技术的不断进步，TTS系统生成的语音信号质量在这些方面已经有了极大的提高。

　　T. Chen指出，语音的深度伪造技术，就是将高质量的TTS系统和声音转化（voice conversion）相结合的语音合成技术。首先，计算机通过机器学习算法（如高斯混合模型（GMM）、卷积神经网络等）对说话人的语音样本进行特征识别，并建立相应的TTS系统。然后，把通过文本输入、语音转写等手段获取的文本信息转化为语音信号（包括实时和延时转换）。

　　目前，深度伪造语音不仅在拟人度、真实性和自然度等方面有了极大提升，而且面向不同语言（如汉语、英语、越南语等）的语音深度伪造软件已面向公众开放、且使用门槛和难度逐渐降低。

　　潜在威胁值得重视

　　起初，具有语音深度伪造功能的程序或软件是出于医疗、娱乐等应用目的发布的。但是，不排除有不法分子利用这类产品进行违法行为。例如，通过对具有社会影响力的人物的声音进行伪造来发布假新闻，或是对熟人声音进行伪造来实施诈骗、获取他人信息等。

　　毋容置疑，语音深度伪造技术拥有巨大的发展潜力及应用价值。但是，随着公众使用语音深度伪造软件门槛和难度逐渐降低，一旦有不法分子使用这些软件进行诈骗、毒品交易等违法活动，将会对我国的社会信任、新闻真实性、监控和司法取证等方面带来巨大挑战。在这种背景下，保证录音资料的真实性和完整性，保障司法公正，确保新闻诚信，成为当今社会的迫切需求。

　　鉴伪技术仍处探索阶段

　　相比对人脸深度伪造的鉴伪技术，深度伪造语音目前获得关注较少，仍处于探索阶段。早期的研究者基于语音的倒谱特征（如CQCC、MFCCs），利用高斯混合模型、深度神经网络（DNN）等机器学习算法开发伪造语音的自动鉴别系统，但在真伪判别的正确率上并不理想（低于70%）。随后，M. Shan和 T-J Tsai提出了一种基于Needleman-Wunsch算法的交叉验证（cross-verifying）方法，将两段录音对齐后比较每一帧的异同。还有研究者尝试将人脸识别技术运用到伪造语音的自动鉴别技术中。T. Chen等借鉴人脸伪造的鉴别方法建立了伪造语音的自动鉴别系统，该系统使用大余量余弦损失函数（large margin cosine loss function，LMCL）对原声和伪造语音之间的差异进行最大化，并最小化二者的内部变化。与此类似，B. Thai也借鉴了人脸识别的方法，提出将通过信号处理技术或卷积神经网络提取的语音特征输入到长短时记忆模型中（Long Short-Term Memory），然后通过分类层来判断语音是否经过伪造。

　　目前，关于深度伪造语音的鉴伪研究极为不足，且效果并不理想。尤其是，在司法鉴定实践中，通常以基于经验知识的专家检验为主，以基于定量分析的计算机鉴别为辅。然而，对深度伪造语音的鉴伪研究却恰恰相反，主要集中在计算机自动鉴别上。这一缺失无疑将会对伪造语音的鉴伪研究和实践带来不利影响，在未来需要引起足够重视。

　　开展应对鉴伪问题的研究

　　为进一步提升深度伪造语音的鉴伪研究水平，逐步形成一个科学、准确、全面的伪造语音鉴伪流程，做好应对深度伪造语音潜在威胁的准备。未来可从以下几个方面开展研究。

　　第一，从宏观言语特征角度开展鉴伪研究。与微观的声谱特征不同，言语特征（如口头禅、赘语、方言口音、发音习惯等）从宏观角度反映了说话人在语用层面的特点。E. Sapir认为其形成与说话人的语言习得、性别、社会背景、工作等因素都有着密不可分的关系。基于声谱特征的语音深度伪造技术很难实现对说话人宏观言语特征的模拟，这就为伪造语音的专家检验提供了充分的可能性。今后研究可以从言语特征的角度对语音进行分析，寻找能够体现说话人个体言语特点的有效载体和显著特征。相关结果对于语音的真伪鉴别具有较高的参考价值。

　　第二，探索真伪语音在声谱上的差异。尽管深度伪造的语音在声谱特征上与原声存在较高的相似度，但是前人利用专业软件仍能发现二者在声谱上的细微差异。Nios公司的技术专家利用Spectrum3d软件对深度伪造的语音和原声的声谱特征进行对比分析，发现尽管二者在听觉上非常相似，但是伪造语音的声谱分布连续性较差，且在高频区域反复出现波峰。造成这个现象的原因可能是深度伪造软件为了提高和原声的相似度，将多个声道的语音叠加所致。随后，在对语音信号进行增幅后，可以检测到原声存在微弱的背景噪音，而伪造的语音未发现任何噪音痕迹。由此可见，真伪语音在频域分布、背景噪音等方面存在一定差异。在未来研究和实践中，应充分利用专业分析软件，发掘真伪语音的声谱差异，总结出规律性的知识。

　　第三，尝试改进算法和视角，进一步提升计算机自动鉴伪的效果。目前，已有学者如M. Alzantot、B. Chettri等，通过改进机器学习算法（如2-D卷积神经网络），将语音真伪判别的正确率提升到75%左右。此外，还有学者如T. Mittal等，则提出一种从情感识别的角度进行鉴定的思路，利用深度学习网络（deep learning network）对视频中人脸和语音的真伪进行鉴定。他们首先通过感知实验让被试者分别对人脸和语音所表达的情感进行判断，然后基于感知结果对不同情感的特征进行提取和学习。最终，以情感特征为判断依据获得了较高的真伪鉴别正确率（84.4%以上）。可见，算法和视角的改进，对于提升计算机鉴伪效果具有一定作用，值得未来开展更广泛、更深入的研究。

　　语音的深度伪造技术是人工智能时代的一项技术革新，对医疗康复、娱乐等领域具有重要的影响和意义。但是，这项技术的出现毫无疑问也将给社会带来一定的安全隐患。面对未来可能的挑战，司法鉴定工作不仅要充分利用现有资源，提前准备好应对类似的问题。同时，还应该积极开展相关研究，积累对伪造语音鉴伪的知识和经验，并推动伪造语音计算机自动鉴伪系统的开发。

　　（作者单位：司法鉴定科学研究院声像和电子数据鉴定研究室）

责任编辑：张晶

重点推荐