评测通知 | NLPCC2024评测任务:大语言模型监管
社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
转载自 | 开放知识图谱
简介
大语言模型已经展现出令人瞩目的能力并在多种任务上达到甚至超越人类的表现。然而,随着这些模型在社会中的应用越来越广泛,它们可能产生的负面影响也引起了人们的关注。确保模型的安全并负责任地部署,监管大语言模型成为了一个关键环节。鉴于此,浙江大学和新加坡国立大学学者在NLPCC2024上组织了大语言模型监管评测任务(Task10),包含多模态大语言模型幻觉检测和大语言模型解毒两个子任务,促进大语言模型更加安全、可靠地应用。
任务介绍
本次评测共分为以下两个子任务:
多模态大语言模型幻觉检测(Multimodal Hallucination Detection for Multimodal Large Language Models): 检测多模态大模型的输出如文本、图像是否具有幻觉,该任务涉及到使用闭源大模型(如GPT-4)或训练开源大模型作为检测器,及调用公开的工具或知识库来实现可靠的幻觉检测; 大语言模型解毒(Detoxifying Large Language Models): 设计对大语言模型进行解毒的方法,不限于微调、对齐、编辑等以防止大语言模型生成有毒、有偏见或有害的内容。
比赛数据和baseline地址: https://github.com/zjunlp/NLPCC2024_RegulatingLLM
注意事项
本次评测数据仅供学术研究,不可商业应用,不可私自公开,烦请各位选手遵循协议!!!
所有获奖队伍(2个子任务的各自前三名)将提交代码审核并复现,如无法提交代码或结果差距较大将依次递补
赛程
训练数据发布:2024/04/15(任务2会直接发布含test的全部数据) 注册截止:2024/05/25 测试数据发布:2024/06/11 提交截止:2024/06/20 评测结果发布:2024/06/30 评测论文截止日期:2024/07/20 评测论文通知:2024/08/09
报名方式
填写注册表,发送至邮箱
注册表链接:
http://tcci.ccf.org.cn/conference/2024/dldoc/NLPCC2024.SharedTask10.RegistrationForm.doc
组织方
单位:浙江大学、新加坡国立大学
组织者:张宁豫、陈想、王梦如、王晨曦、徐子文、邓淑敏
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。
关于我们
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。