标签 技术进展 下的文章

  始终以来, 我都在持续追踪着AI大模型安全研究推进情况,进而发觉在这过去的两年时间里, 整个行业所发生的变化极为显著众多。从技术层面一直延伸到监管范畴, 无论是从实验室环境一路发展至实际的落地部署阶段, 安全已然变成了所有从事AI大模型相关业务公司的一门必须要修习掌握的课程。

  原先是认为找好些黑客去测测足矣的红队测试, 如今已然成了标配, 微软、谷歌、等这类公司都组建起来专门的其内部红队, 以自动化与人工相融合的方式, 持续地察觉模型里的越狱攻击、提示注入以及数据泄露风险, 于每次新版本发布之前, 这样的测试属于强制要通过的硬门槛。

  随着时间推移, 对齐技术正处于快速进化的进程之中去了, 早期的RLHF是基于简单反馈展开训练的, 然而发展至今已演变为多轮对抗训练以及自我博弈强化学习的模式了, 模型已经学会了在面对敏感问题进行回答的时候, 采取主动拒绝的方式, 并非只是简单地屏蔽关键词而已, 部分开源模型甚至添加配置了“内省机制”, 这使得模型能够自行去判断哪些对话存在被滥用的可能性。

  内容安全过滤器进行了更新。以往那种关键词黑名单根本起不到防范作用, 如今多模态模型需要同步检测文本、图像以及音频里的有害信息。全新的过滤器能够理解上下文语境, 例如分辨出某个提问实际上正在诱导模型输出恶意代码, 即便从表面看起来像个正常问题。

  生态协作正处于加强态势, 行业着手开始共享安全方面的最佳实践, 像微软、、这几款联合发布的叫做“前沿模型安全框架”的东西, 使得所有的开发者均能够去参考统一的这般一种意义上的安全基线, 开源社区同样在贡献对抗样本数据集, 以此来有助于模型去做更为全面的防御训练。

  合规要求促使安全投入, 受其倒逼。无论是欧盟的AI法案, 还是中国的生成式AI管理办法, 都在指使企业去施行安全评估之事以及进行透明度报告编写之事。当下, 大模型公司不得不设立独立的安全审计部门, 对于每个安全漏洞, 都要先予以记录, 进而进行复现操作, 最后加以修复, 其流程相较于银行系统而言更为严格。