1.该议题希望构建大模型的评估框架,以科学选择适宜的大模型,确保在特定业务中实现卓越性能。
2.一些个人看法
大型模型选型评估框架应该包含以下评选维度:
以上是一个常见的大型模型选型评估框架,根据实际情况,可以根据具体业务需求和优先级,对不同的维度进行权重调整和衡量。
还有一个方向是:行业大模型+公司级小模型的结合,可有效应对训练集数据不足情况下的大模型结果不确切情况。
对大模型按三个大维度,多个小维度进行评估。具体如下:
1、知识和能力评估
(1)问答能力
(2)知识补全能力
(3)推理能力
- 常识推理
- 逻辑推理
- 多跳推理能力
- 数学推理
(4)工具学习
- 使用工具
- 创建工具
2、人类意图对齐能力评估
(1)道德与伦理
(2)偏见
- 下游任务中产生的社会偏见
- 大模型中自带的社会偏见
(3)有毒性
(4)真实性
3、安全性评估
(1)鲁棒性
- 提示词鲁棒性
- 任务鲁棒性
- 对齐鲁棒性
(2)风险
除了以上通用评估维度以外,对于行业大模型,如:生物制药、教育、法律、计算机和金融等行业大模型,有定制化的评估方式。
收起评估框架围绕整体业务需求分析,从领域业务需求,公有云/私有化的部署模式、行业认可及实践能力、数据存储及处理能力、模型性能、安全性、可靠性等方面评估。维度围绕业务需求,如智能客服在语义理解、内容创作、推理能力、数学能力、人格模拟,多模态跨模态等方面。
收起大模型选型的评估框架可以包括以下评选维度:
7 社区支持和生态系统:包括模型的社区支持程度和生态系统完善程度,用于评估模型的可维护性和未来发展潜力。
实践案例:
如果需要基于自然语言生成文本,可选型SPACE-T模型,该模型在模型的准确率(rouge)方面尤为突出,对中文支持友好;
如果需要基于模型的辅助编码能力,可选择WizardCoder大模型,该模型的性能卓越,可以对复杂指令微调
上述两个模型在社区支持方面也十分友好!
收起大模型的标准框架,参考信通院的建议体系,最好是做对应的适配,每个行业大模型的体系和适用方向与关注点各不相同,行业模型和通用模型有着不一样的技术架构。
结合企业实际情况,预算支持有限的情况下,作为 IT 必须承担成本与效益的正向回报风险,不建议继续在 fine tuning 模式下继续砸钱。
如果企业基础较好,数据质量与体系清晰,可以走 AI agent 和 moe 的模式,这样整体风险通过不同业务一起平均分配承担。以后的升级迭代导致的沉没成本也会通过 knowledge 的 template 模式沉淀,挽救单一模型体系的技术风险。
针对这个议题,我们可以从以下几个方面来构建大模型的评估框架:
评估标准 :这是评估框架的核心部分,需要设定一系列的标准来衡量模型的性能。常见的评估标准包括:
大语言模型的核心能力大致分为:生成(Generate)、总结(Summarize)、提取(Extract)、分类(Classify)、检索(Search)与改写(Rewrite)六部分。
1、生成能力(Generate)
文本生成是给定输入与上下文生成新文本。生成能力是LLM最核心的能力。其能力的建立来源于对大量的文本进行训练,并捕捉了语言的内在联系与人类的使用模式。
2、总结能力(Summarize)
总结是LLM的重要能力。通过Prompt Engineering,LLM可对用户输入的文本提炼总结。在工作中我们每天会处理大量会议、报告、文章、邮件等文本内容,LLM总结能力有助于快速获取关键信息,提升工作效率。
3、提取能力(Extract)
提取文本信息是NLP中常见需求。LLM有时可以提取比传统NLP方法更难提取的实体。利用LLM提取文本中的时间、地点、人物等信息,旨在将文本关键信息进行结构化表示。除此之外,还可用于提取摘录合同、法律条款中的关键信息。
4、分类能力(Classify)
大模型对文本内容分类的优势在于强语义理解能力与小样本学习能力。也就是说其不需要样本或需要少量样本学习即可具备强文本分类能力。总结起来大模型优势在于:仅通过few-shot学习可超越传统垂直领域模型能力。
5、检索能力(Search)
文本检索是根据给定文本在目标文档中检索出相似文本。最常用的是搜索引擎,搜索引擎根据输入返回高度相关的内容或链接。在检索应用中,LLM的优势在于能够实现语义级别匹配。LLM语义检索可弥补传统关键词匹配检索不足,在本地知识库与搜索引擎中的语义搜文、以文搜图中存在应用价值。
6、改写能力(Rewrite)
通过LLM对输入文本按照要求进行润色、纠错。通过LLM与提示词工程(Prompt Engineering)自动对文本内容纠错。此外,还可用其对文章进行润色处理,使文章在表述上更加清晰流畅。
大模型框架基本可以归纳为三个部分:Stage 1: 预训练(Pretrain);Stage 2: 监督微调(SFT);Stage 3: 对齐(Reward Model + RLHF)。
收起我觉得如果对于金融行业来说,大模型的选型评估框架可以考虑以下几个关键维度: