在FewCLUE小样本学习榜单上,阿里云机器学习平台PAI团队与达摩院的合作取得了显著的成绩。以下是具体成果的归纳:
一、总体成绩
双赛道第一:在大模型和无参数限制模型两个赛道上,PAI团队与达摩院的联合方案均取得了总成绩第一名。
决赛答辩第一:在决赛答辩中,他们的方案也获得了第一名的优异成绩。
二、技术创新与策略
大模型+小样本联合方案:团队在大规模通用预训练的基础之上,结合了基于知识的预训练和Fuzzy-PET少样本学习技术,形成了独特的解决方案。
知识融入预训练:通过将亿级知识图谱融入预训练模型,打造了强大的底座(如KGBert),显著提升了模型的性能。
Fuzzy-PET算法:开发了Fuzzy-PET算法,减少了PET算法标签词人工选择带来的波动,并在任务上带来了效果提升。
self-training半监督方法:在下游微调阶段利用self-training的半监督学习方法,进一步提高了模型的性能。
三、具体成果与表现
精准度超过人类:在部分小样本学习任务上,他们的模型精准度甚至超过了人类的表现。
实际场景应用:这项技术已在阿里巴巴的实际场景中落地,如智能客服云小蜜,仅需少量样本即可实现快速冷启动和精准问答,准确率超过80%。
四、技术实现与支持
分布式训练框架:比赛所用的模型是通过EasyTexMiner的高性能分布式预训练完成的,该框架融合了多项核心技术,如激活检查点、梯度累积、混合精度训练等,显著提升了训练效率和模型性能。
大规模数据集与知识:通过与达摩院NLP数据团队合作,获取了大规模、高质量且具备多样性的数据与知识,为模型的训练提供了坚实的基础。
综上所述,PAI团队与达摩院在FewCLUE小样本学习榜单上取得了令人瞩目的成绩,不仅展示了他们在小样本学习领域的深厚积累和技术实力,也为未来小样本学习技术的发展和应用提供了有益的借鉴和启示。