NLPCC 2024“大语言模型监管”评测任务发布，诚邀各界专家学者参与

简介

大语言模型已经展现出令人瞩目的能力并在多种任务上达到甚至超越人类的表现。然而，随着这些模型在社会中的应用越来越广泛，它们可能产生的负面影响也引起了人们的关注。确保模型的安全并负责任地部署，监管大语言模型成为了一个关键环节。鉴于此，浙江大学和新加坡国立大学学者在NLPCC 2024上组织了大语言模型监管评测任务（Task10），包含多模态大语言模型幻觉检测和大语言模型解毒两个子任务，促进大语言模型更加安全、可靠地应用。

任务介绍

本次评测共分为以下两个子任务：

1. 多模态大语言模型幻觉检测（Multimodal Hallucination Detection for Multimodal Large Language Models）：检测多模态大模型的输出如文本、图像是否具有幻觉，该任务涉及到使用闭源大模型（如GPT-4）或训练开源大模型作为检测器，及调用公开的工具或知识库来实现可靠的幻觉检测；

2. 大语言模型解毒（Detoxifying Large Language Models）：设计对大语言模型进行解毒的方法，不限于微调、对齐、编辑等以防止大语言模型生成有毒、有偏见或有害的内容。

比赛数据和baseline地址：

https://github.com/zjunlp/NLPCC2024_RegulatingLLM

赛程

训练数据发布

2024年4月15日

* 任务2会直接发布含test的全部数据

注册截止

2024年5月25日

测试数据发布

2024年6月11日

提交截止

2024年6月20日

评测结果发布

2024年6月30日

评测论文截止日期

2024年7月20日

评测论文通知

2024年8月9日

报名方式

1. 填写注册表：

http://tcci.ccf.org.cn/conference/2024/dldoc/NLPCC2024.SharedTask10.RegistrationForm.doc

2. 发送至邮箱：

[email protected]

注意事项

本次评测数据仅供学术研究，不可商业应用，不可私自公开，烦请各位选手遵循协议。

所有获奖队伍（2个子任务的各自前三名）将提交代码审核并复现，如无法提交代码或结果差距较大将依次递补。

组织方

单位：

浙江大学、新加坡国立大学

组织者：

张宁豫、陈想、王梦如、王晨曦、徐子文、邓淑敏

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

继续阅读

阅读原文