讯飞星火开源大模型是什么?
讯飞星火开源大模型是科大讯飞对外开源的大模型。讯飞星火开源-13B(iFlytekSpark-13B)拥有130亿参数,在经过累计超过3万亿以上tokens海量高质量数据集上进行预训练,然后在精调的多元化对齐数据上进行微调得到。iFlytekSpark-13B在多个标准评估中展现出了卓越的性能,其表现优于同参数量级的开源模型,与一些闭源模型相比不相上下。
iFlytekSpark-13B不仅具备通用任务处理能力如聊天、问答、文本提取和分类等,还具备数据分析和代码生成等生产力功能。我们特别在学习辅助、数学、推理等领域进行了深度优化,大幅提升模型的实用性和易用性。详细的评测结果见下面评测部分。
官网链接:https://xinghuo.xfyun.cn/openSource
讯飞星火认知大模型V3.5正式发布,立即免费使用:https://xinghuo.xfyun.cn/
讯飞星火开源大模型的评估效果
在八个具有挑战性的中英文测试集上对模型进行性能评估。其中chat模型采用0-shot进行测试,base模型在C-EVAL,MMLU,CMMLU,FinanceIQ测试集上采用5-shot进行测试,其余测试集采用0-shot进行测试。
- C-EVAL:C-Eval 是一个全面的中文基础模型评估套件,涵盖了52个不同的学科和四个难度级别,验证集包括1346个选择题,测试集包含12342个选择题。本项目采用C-Eval验证集进行测试。
- MMLU:MMLU 是一个庞大的多任务数据集,由各种学科的多项选择题组成。其中包括57个任务,涵盖了人文学科、社会科学、自然科学和其他对某些人学习很重要的领域。
- CMMLU:CMMLU 是一个综合性的中文评估基准,涵盖了从基础学科到高级专业水平的67个主题。涵盖了自然科学、人文科学和社会科学等领域。
- AGIEVAL:AGIEval 是一个专门为评估基础模型在以人类为中心的标准化考试(如大学入学考试、法学院入学考试、数学竞赛和律师资格考试)的语境中而设计的基准测试。
- ARC:包含了ARC-E和ARC-C,它们分别是ARC数据集中的简单集和挑战集,分别有5197 和2590 个问题。这些问题是仅文本的英语语言考试问题,跨越了多个年级水平。
- GaoKao:GaoKao收集了从 2010 年到 2022 年的高考试题,包括 1781 道客观题和 1030 道主观题。本项目报告结果为GaoKao中客观题结果。
- FinanceIQ:FinanceIQ 是一个专注于金融领域的中文评估数据集,涵盖了10个金融大类及36个金融小类,总计7173个单项选择题。
C_EVAL | MMLU | CMMLU | AGIEVAL | ARC_E | ARC_C | GaoKao | FinanceIQ | 平均 | |
---|---|---|---|---|---|---|---|---|---|
iFlytekSpark-13B-base | 70.88 | 58.76 | 70.01 | 50.44 | 84.78 | 71.16 | 56.42 | 60.21 | 65.33 |
iFlytekSpark-13B-chat | 82.54 | 63.02 | 75.69 | 56.96 | 89.47 | 77.34 | 67.49 | 65.48 | 72.25 |