新鲜事 > 万花筒 > 正文

☕打印版 ◪圖片版 ◫PDF

外国全新AI能通过声音反推长相？你的声音会出卖你的脸，细思恐极

【阿波罗新闻网 2022-05-10 讯】

科学家解释说，是因为AI在数百万视频中找到同一类人群相似的外形特征。比如非裔女性常是高挑眉，老年人永远头发稀疏，印裔男子喜欢留胡子，非洲男性戴顶小帽子。

在性别、种族特征符合后，这些边缘的外貌特征也会被画出来。

科学家们发现输入的音频越长，AI绘制的图越准确。下图可以看出，六秒音频的结果明显比三秒要好，其中有三个改对了性别、种族和年龄。

如果把一个人的不同视频片段截出来，会发现它们和AI绘制的图更像。

当然，Speech2Face也有翻车的时候，它有时会把音调高的男人当作女人，把声音嘶哑的男人当作老头。

种族也会搞错（虽然长得仍然挺像）。

科学家说这更多表现出的是一种刻板印象，AI能找到的是符合大部分人群的特征。

“我们使用的训练数据来自油管上的教育视频合集，不能代表全世界的人。”他们在论文里写道，“因此，就像其他机器学习模型一样，我们的模型也受到数据分布不均的影响。”

这种刻板印象也和语言有关，当亚裔男性说英语时，Speech2Face以为他是白人男性，当他说中文时，种族又对了。

不过，亚裔女孩说英语时，结果不受语言影响，只是年龄大了些。

麻省理工的科学家们还做了一个“卡通转换系统”，让Speech2Face听到音频后绘制出说话者的卡通图，准确率也挺高的。

这个项目挺有意思，但很多网友表示担忧：

“那些不愿露脸的油管博主现在肯定在瑟瑟发抖。”

“想想看，这技术很容易在网络社区里被当作武器使，虽然大家都不露面。”

科学家们在论文里也提到了隐私，他们认为不用担心。

“我们的方法不能从声音中复原一个人的真实身份（即他们脸部的确切图像），因为我们的模型是捕捉多人共有的视觉特征，只能生产大众化的平庸面孔，不能制作特定长相。我们的AI图像不能反映出真人的实际相貌。”

话是这么说，可从对比图上看，AI的结果已经很接近真人照了。

如果某些狂热粉丝想要找到不露面的视频博主，他们可以轻松知道博主的大概样子，加上地理位置等信息，也许他们能找上门。

想想还是蛮吓人的，不过类似的AI就算麻省理工不做，其他学校也在做了。

过去几年，爱尔兰、西班牙、日本和美国都在研究如何用音频构建人脸，其中走得最远的是卡内基梅隆大学的丽塔·辛格（Rita Singh）。

有好事者在2014年反复向美国海岸警卫队报假警，每通电话非常短。海岸警卫队找到研究语音识别20年的丽塔，问她有什么办法。

她先是比较了人耳无法察觉的发音上的特征，然后把报警电话分割为几毫秒的小片段，用AI梳理它们寻找信息点。

靠着微弱的信息，丽塔不光能知道报假警的人大致长什么样，还能知道他所处的环境，比如房间的大小，是否有窗户，以及墙壁用什么材料制成。

她的AI甚至能检测到录音中，因为当地电网波动产生的杂音。她将杂音和电网数据库匹配，可以知道报警者实际的位置，还有挂电话的确切时间。

最后，丽塔不仅解决了恶作剧电话，还解决了儿童性骚扰案件。

那些只露声不露脸的罪犯，自己把自己出卖了。

AI技术就是一把双刃剑，它可以逮捕罪犯，也可以伤害无辜者。

用声音绘制人脸，这个技术看来是无法避免的，只能希望它以后都用在正道上吧……

责任编辑：赵丽　来源：英国那些事儿转载请注明作者、出处並保持完整。

本文网址：https://www.aboluowang.com/2022/0510/1746571.html

上一页 1 2 下一页

AI 声音长相

相关新闻