编辑 | 李忠良  
在今年 4 月 25 日的 ArchSummit 全球架构师峰会(上海站)上,恒生电子研究院 NLP 团队负责人林金曙分享了 NLP 在证券行业的实战。本文选取了部分要点分享给你,希望对证券行业的 AI 从业者有所启发。
  1. 中国证券公司目前有 120 多家,目前开展人工智能研究的仅仅只占不到 2/3,涉及的方面有智能客服、智能投研、智能风控。
  2. 证券领域的 NLP 应用有三大挑战——快读本地迭代、配置复杂、编注成本高。
  3. 恒生电子通过金融行业的预训练模型 NLP 开放平台 +NLP 全流程开发工具,可以做到无需高精尖人才,就可以完成预训练模型。
  4. 证券市场的 NLP 应用有两个场景——智能问答与智能文档。
  5. 智能问答的三个关键点“动”“准”“快”。
  6. “动”指的是智能问答需要跟随业务变化而变化,例如短时间如何新增大量的标准问题;某些问题解答错了如何处理;如何增加一个相似的问题?等等。
  7. “准确”指的是如何处理以下三方面内容——情感不一致问题、语义核心问题以及多主题问题。
  8. 情感不一致问题,例如,我怎么才能开通基金账户 VS 我怎么才能注销基金账户?关于这两个问题的答案必须得匹配,不然一个拉新活动变成了注销账户。
  9. 语义核心问题,例如,苹果手机上如何购买股票 VS 苹果手机上如何购买车票?这里的核心词汇是“车票”与“股票”。如何找到这两个核心词汇?由于没有巨量的数据,最后恒生选择通过依存语法,把主谓宾结构加入到 Char-Transformer 层,很好地找到了这些核心词汇。
  10. 多主题问题,例如,如何开通科创板,还有后面是否需要回访?这句话的有两个主题。恒生通过 Label Smoothing 选取了一个 Log,使得对应数据“非 0 即 1”变得更加平滑。
  11. “快”指的是性能快以及干预快,有两个可以分享的经验,首先是可以直接训练最后一层参数即可,其次是针对特定任务进行蒸馏,比如短文本的相似度、意图的识别、问题的聚类等。
  12. 智能文档对账单上的挑战有两个,一方面是每个券商和基金公司的对账单都不一样,另一方面需要快速本地迭代模型。
  13. 智能文档表单的预训练模型,恒生引入了微软的 LayoutLM2,最重要的是——文本和图像加入了布局的信息(页面 X 和 Y 轴的坐标信息)进行联合训练。
  14. 形近字、同音字、知识错误等等都可以通过 Transformer 编码 + 中文音形信息约束 + 多层逐步纠错 + 小模型预训练来处理。
  15. NLP 工程化 Pipeline 的三个关键步骤——首先语料库维护,其次文档标注,最后是模型训练以及效果验证。
  16. 模型开发和训练一定要针对核心场景,比如咨询、研报、公告标注等,另外不要过度追逐新的算法和平台。
  17. 模型评测和推理服务部署方面,当 Docker 镜像过于庞大,建议分层镜像。
  18. 对未来我认为有两个趋势,一方面混合模型(NLP、图像、语音)是一个很大的趋势,另一方面资本市场下 NLP 预训练模型也会越来越多。
 活动推荐
11 月 5-6 日,AICon 全球机器学习与人工智能大会(北京站)2021 设置了【NLP 技术与应用】专题,度小满技术委员会执行主席杨青担任专题出品人,我们一起邀请了业界 4 位 NLP 专家,为你分享 NLP 在各大厂的实践。
除去 NLP 专题外,还有人工智能前沿技术、通用机器学习技术、计算机视觉实践、智能金融技术与业务结合、推荐广告技术与实践、AI 工程师团队建设与管理、认知智能的前沿探索、AI 与产业互联网结合、大数据计算和分析、大规模机器学习算法及应用、智能语音前沿技术应用、大规模预训练模型进展、自动驾驶技术等,共 14 个专题。
更多精彩议题请点击阅读原文查看。
目前大会门票限时 8 折特惠中,购票欢迎联系票务小姐姐文柳:13269078023(电话同微信),点击底部 【阅读原文】 可以了解更多大会信息。   
继续阅读
阅读原文