评测通知 | NLPCC2024评测任务：大语言模型监管

MLNLP

社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 开放知识图谱

简介

大语言模型已经展现出令人瞩目的能力并在多种任务上达到甚至超越人类的表现。然而，随着这些模型在社会中的应用越来越广泛，它们可能产生的负面影响也引起了人们的关注。确保模型的安全并负责任地部署，监管大语言模型成为了一个关键环节。鉴于此，浙江大学和新加坡国立大学学者在NLPCC2024上组织了大语言模型监管评测任务（Task10），包含多模态大语言模型幻觉检测和大语言模型解毒两个子任务，促进大语言模型更加安全、可靠地应用。

任务介绍

本次评测共分为以下两个子任务：

多模态大语言模型幻觉检测（Multimodal Hallucination Detection for Multimodal Large Language Models）： 检测多模态大模型的输出如文本、图像是否具有幻觉，该任务涉及到使用闭源大模型（如GPT-4）或训练开源大模型作为检测器，及调用公开的工具或知识库来实现可靠的幻觉检测；
大语言模型解毒（Detoxifying Large Language Models）： 设计对大语言模型进行解毒的方法，不限于微调、对齐、编辑等以防止大语言模型生成有毒、有偏见或有害的内容。

比赛数据和baseline地址： https://github.com/zjunlp/NLPCC2024_RegulatingLLM