近几年,大模型推动人工智能技术迅猛发展,极大地拓展了机器 智能的边界,展现出通用人工智能的“曙光”。如何准确、客观、全 面衡量当前大模型能力,成为产学研用各界关注的重要问题。设计合 理的任务、数据集和指标,对大模型进行基准测试,是定量评价大模 型技术水平的主要方式。大模型基准测试不仅可以评估当前技术水平, 指引未来学术研究,牵引产品研发、支撑行业应用,还可以辅助监管 治理,也有利于增进社会公众对人工智能的正确认知,是促进人工智 能技术产业发展的重要抓手。全球主要学术机构和头部企业都十分重 视大模型基准测试,陆续发布了一系列评测数据集、框架和结果榜单, 对于推动大模型技术发展产生了积极作用。然而,随着大模型能力不 断增强和行业赋能逐渐深入,大模型基准测试体系还需要与时俱进, 不断完善。
本研究报告首先回顾了大模型基准测试的发展现状,对已发布的 主要大模型评测数据集、体系和方法进行了梳理,分析了当前基准测试存在的问题和挑战,提出了一套系统化构建大模型基准测试的框架 —— “方升”大模型基准测试体系,介绍了基于“方升”体系初步开 展的大模型评测情况,并对未来大模型基准测试的发展趋势进行展望。 面向未来,大模型基准测试仍存在诸多开放性的问题,还需要产学研 各界紧密合作,共同建设大模型基准测试标准,为大模型行业健康有 序发展提供有力支撑
人工智能技术发展迅速,大模型、RAG、AGENT、 具身智能、 AGI等新概念和新技术层出不穷。大模型基准测试作为研究较为深入 的领域,将带动其他新技术的研究。当前虽然 AGI 仍未有明确的定 义,但针对 AGI 的探索性评测研究已有初步成果。例如微软发布论 文《通用人工智能的火花:GPT-4 的早期实验》,通过数学、编程、 视觉、医学、法律、心理学等复杂度较高的任务证明GPT-4已经进入 AGI 的早期阶段。北京通用人工智能研究院发布《通智测试:通用人 工智能具身物理与社会测试评级系统》,提出一种基于能力和价值维 度的 AGI 的评测方法。中国科学院和美国俄亥俄州立大学等先后推 出AGIBench 和MMMU 评测数据集,从多模态、多学科、多粒度等 维度衡量大模型距离AGI 的差距。虽然当前AGI 的发展仍然处于初 期阶段,但通过基准测试的研究,可以为未来 AGI 的发展方向提供 思路,并对AGI 的能力进行监控以指引其正向发展。
商用机器人 Disinfection Robot 展厅机器人 智能垃圾站 轮式机器人底盘 迎宾机器人 移动机器人底盘 讲解机器人 紫外线消毒机器人 大屏机器人 雾化消毒机器人 服务机器人底盘 智能送餐机器人 雾化消毒机 机器人OEM代工厂 消毒机器人排名 智能配送机器人 图书馆机器人 导引机器人 移动消毒机器人 导诊机器人 迎宾接待机器人 前台机器人 导览机器人 酒店送物机器人 云迹科技润机器人 云迹酒店机器人 智能导诊机器人 |