Google公开专为大型语言模型设计的ASPIRE框架,该框架可以强化语言模型的选择性预测(Selective Prediction)能力。透过对问答任务的大型语言模型进行参数微调,以评估所生成答案的正确性,ASPIRE框架在各种问答资料集上,表现优於目前最先进的选择性预测方法。ASPIRE框架的重要性在於能够增加大型语言模型的可信程度,让人工智慧可在关键应用发挥作用。
大型语言模型在自然语言理解和生成领域发展迅速,已经被用於建立各种创新应用,但是要进入高风险决策应用,仍有障碍待解决。研究人员指出,由於模型预测具有不确定性,大型语言模型缺乏评估回应可信度的机制,就算可以透过总结序列中各个Token的可信分数加总,但是仍无法可靠地辨别正确或是错误答案。
而选择性预测是这个问题的解决方案,大型语言模型输出答案时加上选择分数,而这个分数能指出答案正确的机率,因此藉由选择性预测更可以了解在各种应用中部署大型语言模型的可靠性。过去像是语义不确定性和自我评估等研究,试图在大型语言模型中实现选择性预测,不过,传统方法采用启发式提示,试图藉由「建议的答案是对还是错?」等问题,触发大型语言模型的自我评估,但是这种方法不适用於具有挑战性的问答任务。
Google研究人员发展出ASPIRE框架来解决这个问题。该框架有三个阶段,分别为特定任务调整、答案采样和自我评估学习。特定任务调整阶段是对已经受过基础训练的大型语言模型进行进阶训练,就像是让已经具有基本知识的学生进行进阶训练,专注於强化特定科目或是任务,研究人员透过添加新的可调参数,并使用高效的参数调校技术,在特定任务的训练资料集上微调预训练大型语言模型,以提高其预测效能,这个阶段相当於训练学生,使其更好地解决特定问题。
第二阶段则是答案采样,经过特定任务调整後,ASPIRE使用学习到的可调参数,对每个训练问题生成不同的答案,并创建用於自我评估学习的资料集,生成高可能性输出序列。也就是说,让学生尝试回答一系列问题,并产生不同的答案,藉由尝试不同答题方法,找出最可能正确的答案,研究人员使用一种称为集束搜寻(Beam Search)方法,协助学生选择最有可能的答案,并使用一种称为Rouge-L的演算法来评估答案的品质。
在最後的自我评估学习阶段,ASPIRE新添加一组可调节参数,专门用於提升模型自我评估的能力。该阶段的目标是要让模型学会自己判断答案准确性的能力。透过该训练,大型语言模型不仅能生成答案,还能够自己区分答案的正确性,在回答使用者问题时达到更好的可靠性和准确性。
研究人员验证ASPIRE的成果,使用CoQA、TriviaQA和SQuAD三个问答资料集,并使用各种开放预训练的Transformer模型来评估ASPIRE。经过ASPIRE调整的小型OPT-2.7B模型,表现超过更大的OPT-30B模型(下图)。这项实验结果表示,只要经过适当的调整,即便是较小的语言模型,在部分情境下也可以超越较大的语言模型。
值得注意的是,OPT-30B模型应用传统的自我评估方法Self-eval和P(True),选择性预测的效能并没有明显提高,反而是较小的OPT-2.7B模型在使用ASPIRE进行强化後,优於其他模型,也就是说,运用传统自我评估技术的较大型语言模型,选择性预测效果不如采用ASPIRE强化方法的小模型。
研究人员实验强调了ASPIRE对於大型语言模型的重要改变,语言模型的能力并非其表现的最终效能,透过调整策略就可以大幅提高模型有效性,即便是较小的模型,也可以进行准确且有自信的预测。