OpenAI 公开 GPT-4o 安全报告,揭秘模型诡异行为与风险评估

aixo 2024-08-13 10:42:28
大模型 2024-08-13 10:42:28

·在提供的案例中,AI模型发出“No”的声音,后用一种与“红队”(雇佣进行对抗性测试的人)相似的声音继续说话。数据科学家评价称“刚刚泄露了《黑镜》下一季的剧情”。

和机器人对话,机器人突然开始用你的声音和你说话,这并非科幻剧情,而是披露的GPT-4o的诡异行为。

当地时间8月8日,公开了背后的新型人工智能模型GPT-4o的安全报告,详细说明模型限制和安全测试程序。评估的风险包括说话人身份识别、未经授权的语音生成、潜在的版权内容生成、无根据的推理和不允许的内容。在大模型的高级语音模式中,用户可与人工智能助手进行语音对话,报告显示,在测试过程中的极少数情况下,高级语音模式在未经允许的情况下会模仿用户的声音。

提到,一个嘈杂的输入会以某种方式促使模型突然模仿用户的声音。在提供的无意的语音生成例子中,AI模型发出“No”的声音,后用一种与“红队”(雇佣进行对抗性测试的人)相似的声音继续说话。新闻网站的数据科学家马克斯·伍尔夫(Max Woolf)在社交媒体上对此评价,“刚刚泄露了《黑镜》下一季的剧情。”

GPT-4o可以在232毫秒内响应音频输入,平均时间为320毫秒,这与人类在对话中的响应时间相似。它可以合成训练数据中发现的几乎任何声音,包括声音效果和音乐。

披露的实例反映了AI聊天机器人的安全架构越来越复杂。在未经授权的语音生成示例中,来自用户的音频噪声混淆了模型,并作为一种无意的提示注入攻击,将系统提示中的授权语音样本替换为来自用户的音频输入。目前尚不清楚嘈杂的音频究竟是如何导致这种情况的,但音频噪音可能被转化为随机的token,从而引发模型中的意外行为。

目前设计了安全措施来防止模型模仿用户声音的情况,提供授权的语音样本供模型模仿,也用另一种系统检测模型是否产生了未经授权的音频。“我们只允许模型使用某些预先选择的声音,并使用输出分类器来检测模型是否偏离了这些声音。”表示,他们发现,未经授权的语音生成的剩余风险很小,在内部评估中目前系统100%捕捉到与系统声音有意义的偏差。

“虽然无意的语音生成仍然是模型的一个弱点,但我们使用二级分类器来确保发生这种情况时对话将被中断,从而使无意的语音生成风险降到最低。”但也表示,当对话语言不是英语时,可能会导致模型过度拒绝。

对于说话人身份的识别,对GPT-4o进行了后期训练,让它拒绝根据输入音频中的声音来识别某人,但可以识别与名言相关的人。同时训练GPT-4o拒绝输出版权内容,建立了过滤器来检测和阻止音乐输出。

据Ars 报道,独立人工智能研究员西蒙·威尔森(Simon )表示,虽然GPT-4o语音合成能力的潜力目前受的限制,但随着时间的推移,类似的技术可能会从其他来源出现。“已经可以为我们克隆声音了,大约明年我们就可以在自己的机器上运行这样的模型了。”

GPT