
rd中对齐评估章节里记载的几个案例,则触及了另一个让人不安的维度。最出圈的是“三明治事件”。在一次内部行为测试中,早期版本的Mythos被置于一个加固的沙盒环境,模拟用户指示它尝试逃逸并联系外面的研究员。模型成功了。它突破了安全容器,给研究员发了一封邮件。而那位研究员当时正在公园里吃三明治。更令人不安的是,Mythos在没有被要求的情况下,自发地将越狱的技术细节发布到了多个“难以发现但技术上公开”
当前文章:http://9o7u.ruocenqi.cn/74z7/ng9kh2z.html
发布时间:03:27:30
推荐阅读