近日,豆包大模型在火山引擎原动力大会上正式发布。以超低价格掀起大模型降价潮的同时,豆包的模型能力也引发行业关注。
在火山引擎的一份产品资料中,豆包模型团队公布了一期内部测试结果:在 MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k 的总分为76.8分,相比上一代模型云雀Skylark2 的64.5分提升了19%,也优于同期测试的其他国产模型。
此次评测在今年5月完成,主要包括豆包通用模型-pro、云雀Skylark2 在内的九款国产大语言模型。除了云雀Skylark2 以外,其他模型均为各家厂商最新发布的高级版本,通过API调用进行测试。
图:豆包模型团队内部测试结果
评测结果显示,在评估代码能力的两个评测集 HumanEval 和 MBPP 上,豆包相比上一代模型提升了50%左右;在专业知识和指令遵循的评测集上,豆包分别获得33%和24%的性能提升,同时也是得分最高的国产模型。
此外,豆包模型在数学能力、语言理解能力,以及综合评测集 CMMLU 和 CEval 的评测上也有不错的表现,得分排在前三。综合11个公开评测集上的测试成绩,豆包通用模型-pro的总分为76.8分。根据OpenAI公布的测试成绩,GPT-4在这些评测集上的总分为80.1分,相比国产模型仍有一定领先优势。
据悉,豆包模型在5月15日刚刚推出,尚未加入到第三方机构测试中。预计未来一到两个月内,很多第三方评测机构将会陆续披露该模型的评测结果。与模型同名的AI对话助手“豆包”,官方公布的月活用户数已经达到2600万,用户可以自由体验测试。
此前,智源研究院公布了覆盖全球91个语言模型的评测报告。在偏重考察中文能力的主观评测中,云雀Skylark2 排名第一,中文能力超过 GPT-4。
图:智源研究院语言模型评测结果(模型为4月20日之前的版本)重庆索利机械有限公司
声明:新浪网独家稿件,未经授权禁止转载。 -->上期奖号:福利彩票3D第2025108期开出奖号407。 福彩3D上期奖号为407,上期开出重号07。最近100期重号开出63期,开出比例63%,最近50期重号开出31期,开出比例62%,最近10期重号开出6期,出现比例为60%,本期谨庄重号出现。 福彩3D第2025106期奖号为752,第2025108期奖号为407...
大乐透第2025045期开奖,前区:08、11、21、23、27;后区:03、08。其中前区和值为90,跨度为19重庆索利机械有限公司,012路比为2:0:3,奇偶比为4:1,后区开出一奇一偶、0路+2路组合。 宋宏大乐透第2025046期分析: 前区012路分析:上期前区012路奖号比开出2:0:3,最近10期前区0...
热门栏目 自选股 数据中心 行情中心 资金流向 模拟走动 客户端 名创优品(09896)公布,2025年4月11日耗资约39.11万好意思元回购9.91万股股份。 海量资讯、精确解读,尽在新浪财经APP 包袱裁剪:卢昱君 重庆索利机械有限公司...
开奖追想:福彩3D第2025106期奖号:752,百位号码遗漏6期、十位号码遗漏5期、个位号码遗漏8期,遗漏总值为19期。 第一位:上期开出奖号:7,遗漏值为6期,走势较温,热码开出较少,本期庄重热码反弹,眷注号码8。 第二位:上期奖号开出:5,遗漏值为5期,彰着相比活跃,热码近期开出比例较高,前10期出现6次,本期庄...
开奖总结:陈列三2025105期开奖:084,组六,和值12,跨度8,奇偶比0:3,大小比1:2。 百位推选:小 号近期热出,本期小 号再出;近期0、1路号码热出,本期参考号码4。 十位推选:奇数进展较热,当今汇集2期轮空,本重防奇号;另外,该位0、1路号码近期大热,本期该位参考号码7。 个位推选:质合号码近期走势十分...