赛事评奖|“中文保险小样本多任务竞赛”知识工场团队方案——2022AIWIN(春季)世界人工智能创新大赛优秀方案分享系列

2025China.cn 2022年08月08日

赛事评奖

　　赛事评奖是世界人工智能大会(WAIC)“会、展、赛、用”四大板块之一，由世界人工智能大会组委会主办，上海市人工智能行业协会作为唯一组织、服务、支撑和管理单位。

　　WAIC 2022现有品牌赛事包括：AIWIN世界人工智能创新大赛，BPAA全球算法最佳实践典范大赛，黑客马拉松和团市委青少年人工智能创新大赛。根据世界人工智能大会SAIL奖的推荐规则和资格要求，品牌赛事承办方将有机会推荐本赛事中的优秀项目参与SAIL奖评选。

　　2022年AIWIN世界人工智能创新大赛春季赛与太平洋保险、国泰君安、SMG技术中心(上海东方传媒技术有限公司)三家出题方联合举办了中文保险小样本多任务竞赛、发债企业的违约风险预警竞赛、文本语音驱动数字人表情口型竞赛三场AI算法技术赛事。目前中文保险小样本多任务竞赛、发债企业的违约风险预警竞赛已完成竞赛，为了让小伙伴们更好地通过赛事交流学习，在7-8月之间每周二，我们将陆续邀请优秀的赛事团队分享赛事方案，大家敬请期待。

　　今天分享的是“中文保险小样本多任务竞赛”知识工厂团队的方案，他们获得本赛题的第6名。

1.团队简介

　　陆轩韬

　　复旦大学软件工程硕士研究生二年级 @知识工场实验室

　　本科毕业于华东师范大学计算机科学与技术

　　字节跳动 AI-LAB NLP算法工程师(实习)

　　曾多次在国内外自然语言处理竞赛中获得top名次与奖项

　　过往获奖情况：

　　• 2022 Kaggle - Feedback Prize - Evaluating Student Writing 银牌

　　• 2022 山东省第三届数据应用创新创业大赛 - 网格事件智能分类亚军

　　• 2021 iFLYTEK 科大讯飞AI 开发者大赛-非标准化疾病诉求的简单分诊挑战赛冠军

　　• 2021 CCKS 华为-面向通信领域的事件共指消解任务亚军

　　• 2021 iFLYTEK 科大讯飞AI 开发者大赛-试题标签预测挑战赛季军

　　• 2021 DIGIX 华为全球校园AI 算法精英大赛-基于多模型迁移预训练文章质量判别季军

2.赛题理解与问题建模

　　赛题理解：

　　本次赛题目标为探索统一范式的多任务小样本学习。

　　多任务：

　　赛题覆盖了保险真实业务场景中常见的保险领域、医疗领域和金融领域，包括文本分类、文本相似度、自然语言推断、命名实体识别和机器阅读理解等五大基础自然语言理解任务，具体为18个保险业务场景中的常见任务。

　　小样本：

　　为了还原真实业务场景中大规模高质量标注数据积累困难的情况，训练集从18个任务中选取了14个作为训练集任务，每个任务提供20条标注样本，共计280条标注样本。测试集从18个任务中选取了14个作为测试集任务，每个任务提供400条测试样本，分A/B榜测试。

　　问题建模：

　　由于预训练语言模型在NLP领域中大放异彩，因此是本次比赛中不可或缺的一部分。

　　具体地，有以下两类方案：

　　1.使用NLU类型的预训练语言模型。由于本次赛题的任务都属于NLU范畴，因此可以使用诸如BERT之类的NLU模型进行建模。

　　2.使用NLG类型的预训练语言模型(诸如T5，BART)，将所有的任务都转换为序列生成任务，也是baseline中的做法。

　　由于部分任务只在测试集中出现而没有相应的训练样本，如果使用BERT等NLU模型无法有效处理这部分任务，因此我采用第二种方案。

3.数据探索与特征工程

　　模型结构：

　　训练集从18个自然语言处理任务中选取了14个作为训练集任务，每个任务提供20条标注样本，共计280条标注样本。

　　测试集从18个任务中选取了14个作为测试集任务，每个任务提供400条测试样本，A/B榜各200条。

　　此外，主办方还提供70个开源数据集，每个数据集从原始数据中采样约500条(共计70*500条数据)，构建了opensource_sample_500.json，用于辅助统一模型训练。

　　数据增强：

　　扰动verbalizer在instruction中的出现顺序。通过该方法可以利用一条数据生成多条数据。

　　该数据增强方法可同时应用于opensource训练数据，instruction训练数据，以及instruction测试数据。

4.模型训练

　　模型选择(方案一)

　　BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

　　模型选择(方案二)

　　CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation

　　模型选择(方案三)

　　mT5: A massively multilingual pre-trained text-to-text transformer

　　不同模型在opensource验证集上的表现

　　mt5-large > cpt-large > bart-large

　　因此模型最终选择方案三

　　即int8量化的单模单折mt5-large模型

5.Tricks

　　1.在数据增强部分有提到：该增强方法可同时应用于opensource训练数据，instruction训练数据，以及instruction测试数据。实验发现对于opensource训练数据和instruction训练数据的增强并不会带来收益，因此只对instruction测试数据进行了增强。

　　2.Constrained decoding：分析bad case的时候，发现有部分生成的结果未出现在verbalizer(即候选项中)，可以通过constrained decoding强制输出中出现verbalizer 中的token。然而这类bad case并不多，会影响万分位。

　　Ximing Lu, et al. [2021] NEUROLOGIC A*esque Decoding: Constrained Text Generation with Lookahead Heuristics.

6.实验结果

　　A榜主要实验结果

7.总结

　　1.量化过的大模型相较于同量级的小模型，通常能够取得更好的结果，并拥有更快的推理速度。

　　2.Inference Ensemble(数据增强)能够在只使用单一模型的情况下，同样达到良好的集成效果。

　　3.Constrained decoding：学术界的热点问题之一，比赛中这类bad case并不多，所以效果不明显，但是仍不失为是一个很有前景的方法。

　　4.小样本场景下，引入额外的外部数据能够有效地帮助模型达到一个更好的初始状态。

想一起交流学习的小伙伴

可扫码加入“AIWIN算法竞赛俱乐部”

扫码完成云观众预注册

（转载）

标签：世界人工智能大会

我要反馈

相关链接

IP发布 | 官宣：世界人工智能大会IP形象正式出道!

2022年，世界人工智能大会即将迎来5周年。在这5年中，大会不仅是全球AI大佬分享前沿趋势和相关企业展示最新AI应用成果的舞台，还是全球AI领域的重要风向标。为更好地普及和传播人工智... [详情]

2022年08月08日世界人工智能大会 WAIC IP

团组参观福利贴 | WAIC 2022线下专业观众团组报名开启啦!

WAIC2022线下专业观众团组招募启动!世界人工智能大会2022世界人工智能大会(WAIC2022)将于2022年9月1-3日在上海浦东世博地区举办。本届大会将通过“会展赛用”四大板块，以“元宇宙”为... [详情]

2022年08月08日世界人工智能大会团报名

大会发布｜大会五周年倒计时开启，精彩亮点一图抢先看

[详情]

2022年08月08日 WAIC 倒计时

资讯热点

聚焦机械通气及高流量氧疗应用新趋势!谊安医疗亮相第7届CCCRF&CSICT 仙工智能丨激光 SLAM 多层料箱机器人 SPK-M50J-F 系列国能日新微电网解决方案开拓北欧市场旗舰新品、西门子官宣、央视亮相!节卡机器人闪耀汉诺威工业博览会，全球智造再升级强强联合共话未来 | 浙能电力副董事长，中来股份董事长曹路一行拜访ACWA Power 华西医院与东软医疗达成战略合作新松闪耀德国汉诺威工博会，出海“常青树”再焕“新气象” 2024 德国汉诺威 | 出海“新势力”，SRT在全球合作中传递“柔性力量” 展会活动 | 中慧医学成像上海CMEF圆满收官下一站再会

专题报道

2024汉诺威工业博览会专题

2024 汉诺威工业博览会将于4月22 - 26日在德国汉诺威展览中心举行。作为全球首屈一指的工业贸易展览会，本届展览会

安全走向数字化

如果说安全是过程工业的基本盘，数字化是过程工业的新锚点，那么作为2023 NAMUR中国年会唯一的赞助商，HIMA与这次

第三届EESA储能展

EESA储能展是由储能领跑者联盟主办的品牌展会，创办至今已经连续举办了两届。为加快适应储能规模化发展的步伐，促进储能行业

视频

/resupload/guangzhi/AS00012420/1708312885679_1.jpg

越疆 X-Trainer AI 机器人操作平台盛弘股份提升能源利用率，助推绿色低碳发展纳晖新能源战略投资微慕科技签约仪式 CCMT2024“高端制造·创新致胜”联合技术研讨会成功举办这张地图是晶澳科技在全球市场中赢得信任的最佳证明新源智储：从全生命周期视角思考储能行业发展以数字孪生“化实为虚”，让旅客高效出行