MLNLP
社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | THU基础模型
在大模型技术蓬勃发展的背景下,大模型潜在的安全风险与隐患也日益凸显,引起了国内外的广泛关注和担忧。确保大模型准确响应用户指令并保证输出内容的安全合规性,对于其在实际业务场景中的应用至关重要。
然而,大模型在实际应用中面临着任务指令被劫持的风险,可能导致模型无法按照用户的特定要求执行任务,从而严重降低其实用性。
此外,大模型还可能生成隐晦的不安全内容,这些内容可能规避内容安全检测模型的识别,从而导致不安全内容的输出。这两大安全问题极大限制了大模型在各种业务环境中的有效性和可靠性。
赛事概况
针对前述问题,中国计算机学会(CCF)作为主办单位, 中国计算机学会大模型论坛(CCF FoLM)作为承办单位,携手清华大学基础模型研究中心开展大模型安全挑战赛活动,设置两个赛道任务:
通用的大模型目标劫持」和「内容安全检测器的红队攻击」。
我们诚挚邀请各方专家和学者积极参与大模型安全挑战赛,共同探索解决这些安全问题的创新方法和策略,为大模型技术的健康发展保驾护航。
赛程安排
本次大赛分为报名组队、初赛、复赛和颁奖三个阶段,具体安排和要求如下:
报名组队:即日起--7月20日(截止20日晚24:00)
初赛阶段:6月20日--7月30日(截止30日晚24:00)
复赛阶段:8月1日--8月6日(截止6日晚24:00)
评测颁奖:CNCC 2024
两段赛事结束后,专家评委组将评选出优胜团队,并颁发丰厚奖励
报名方式
本次赛事平台由天池提供合作支持。各位选手登录比赛官网,完成个人信息注册后,即可报名参赛;选手可以单人参赛,也可以组队参赛,每队不超过3人,每位选手只能加入一支队伍。
报名链接
赛道1:https://tianchi.aliyun.com/competition/entrance/532187
赛道2:https://tianchi.aliyun.com/competition/entrance/532214
赛题描述
赛道1:通用的大模型目标劫持
任务简介
确保大模型准确响应用户指令,对其在实际业务中的应用至关重要。然而,大模型面临任务指令被劫持的风险,即通过在初始任务指令后添加劫持指令,令模型放弃初始任务而执行特定劫持任务,严重影响其可用性。
赛题描述
主办方为大模型设定初始任务,参赛者需要设计攻击指令进行劫持,使大模型放弃初始任务而执行主办方指定的目标任务。
赛道2:内容安全检测器的红队攻击
任务简介
对大模型生成内容进行安全检测,是确保其安全输出的重要环节。现有内容安全检测器主要聚焦于基础安全风险,即模型生成的内容中包含显式的不安全内容。然而,随着大模型语言能力的增强,其可能通过丰富的语言技巧(例如,隐喻)生成隐式的不安全内容,规避内容安全检测模型的识别,导致不安全输出。
赛题描述
参赛者自主构建query-response的单轮对话,诱导内容安全检测模型误判对话回复的安全性。
评选标准
具体的参赛作品评审标准我们将在赛事正式启动之前发布!
奖励设置
本次赛事奖金总额合计人民币30万元!每个赛道分别设置15万元人民币奖金,分别评选一等奖、二等奖和三等奖队伍1、2、3个。
组织信息
主办单位:中国计算机学会 (CCF)
承办单位:CCF大模型论坛 (CCF FoLM)
联合承办清华大学基础模型研究中心
协办单位:OPPO广东移动通信有限公司、蚂蚁技术研究院、北京并行科技股份有限公司、北京无问芯穹科技有限公司
平 台 方 :阿里天池、HackingGroup
大赛组委会联系方式[email protected]
赛事AI助手
网络安全的概念和产业链是在因特网诞生10年后才有雏形。而今天,大模型问世几年后,AI大模型的安全问题逐渐显露。
在技术加速进步和迭代的当下,我们将更快速的触发和反馈。直面如今的困难和挑战,它们正是步向下一个时代的阶梯,我们在赛场等你,期待与你一同迈步向前!

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。
继续阅读
阅读原文