- GB/T 45258-2025 电信和互联网服务 评估指南
- GB/T 22517.3-2024 体育场地使用要求及检验方法 第3部分:棒球、垒球场地
- GB/T 45417-2025 汽车再生制动功能缺陷分析指南
- GB/T 11828.4-2025 水位测量仪器 第4部分:超声波水位计
- GB/T 2910.7-2025 纺织品 定量化学分析 第7部分:聚酰胺纤维与某些其他纤维的混合物(甲酸法)
- GB/T 19212.2-2025 变压器、电抗器、电源装置及其组合的安全 第2部分:一般用途分离变压器和内装分离变压器的电源装置的特殊要求和试验
- GB/T 45440-2025 电子商务家政 家政服务人员能力信息描述
- GB/T 45297-2025 机采棉加工生产数字化技术规范
- GB/T 45250-2025 电信和互联网服务 标准化工作指南
- GB/T 31318-2025 蜜饯 山楂制品质量通则
GB/T 45288.2-2025 人工智能 大模型 第2部分:评测指标与方法
标准编号:GB/T 45288.2-2025
标准名称:人工智能 大模型 第2部分:评测指标与方法
英文名称:Artificial intelligence—Large-scale model—Part 2: Testing and evaluation for metrics and methods
发布日期:2025-02-28
实施日期:2025-02-28
提出单位:全国信息技术标准化技术委员会
归口单位:全国信息技术标准化技术委员会
批准发布部门:国家标准委
起草人
董建、徐洋、汪群博、马骋昊、刘祥龙、陶建华、孙传兴、马珊珊、龙云、刘伟东、蒋慧、彭骏涛、杨熙、郑中、刘聪、周飞、熊德意、杨明川、陈炜鹏、张宏伟、刘静、刘艾杉、马同森、张天霖、梁志宏、何刚、孟令中、朱贵波、沈芷月、聂简荻、吴玺宏、刘尚、丁鹏、刘小欧、王龙跃、刘微、孙林、赵必美、索思亮、陈立明、高鹏军、孔昊、于磊、郑哲、崔明飞、鄂磊、陈宏志、吴韶华、李睿、李晋伟、张旭、段强、宋海涛、刘益帆、李斌、张驰、孙进、芮子文、杨登峰、孙文庆、鲍薇、陈恺、孙曦、宋文林、赵天成、黄现翠、李栋、于佃海、经迪春、郑子木、胡智超、张向征、冯涛、郑佳佳、陈晰、李建欣、王峰、梅剑平、张松阳、彭晋、王嘉凯、高东辉、高铁柱、陈曦、俞文心、杨沐昀、王金桥、郑若琳、任海峰、石羡、刘卫卫、石聪聪、项超、薛德军、胡全一、孙浩源、玄日成、赵春昊、蒋屹新、武姗姗、薛云志、刘子韬、邓超、梁家恩、任烨、张志刚、王珂琛、冯月、龙震岳、高慧、单珂、陈敏刚、王思善、余雪松、张涛、生若谷、孔维生、童庆、朱林、杨兰
起草单位
中国电子技术标准化研究院、中国科学院自动化研究所、北京航空航天大学、杭州联汇科技股份有限公司、北京百度网讯科技有限公司、中国移动通信有限公司研究院、华为云计算技术有限公司、阿里云计算有限公司、北京奇虎科技有限公司、中铁第五勘察设计院集团有限公司、浪潮云信息技术股份公司、中国电力科学研究院有限公司、中国电信股份有限公司北京研究院、北京百川智能科技有限公司、北京中关村实验室、南方电网科学研究院有限责任公司、西南科技大学、中国科学院软件研究所、青岛海信电子技术服务有限公司、北京工业大学、中国电信集团有限公司、北京软件产品质量检测检验中心有限公司、北京小米移动软件有限公司、中国移动通信集团有限公司、北京中关村科金技术有限公司、杭州海康威视数字技术股份有限公司、昆仑数智科技有限责任公司、浪潮软件科技有限公司、鹏城实验室、麒麟合盛网络技术股份有限公司、山东省人工智能研究院、上海人工智能研究院有限公司、上海燧原科技股份有限公司、深圳前海微众银行股份有限公司、西北工业大学、云从科技集团股份有限公司、浙江大华技术股份有限公司、上海玄武信息科技有限公司、四川长虹电子控股集团有限公司、上海人工智能创新中心、蚂蚁科技集团股份有限公司、清华大学、中国铁建股份有限公司、中国南方电网有限责任公司、国家能源投资集团有限责任公司信息技术分公司、上海商汤智能科技有限公司、深圳市腾讯计算机系统有限公司、北京智源人工智能研究院、北京智谱华章科技有限公司、科大讯飞股份有限公司、天津大学、中央广播电视总台、同方知网数字出版技术股份有限公司、上海市人工智能行业协会、西安电子科技大学、哈尔滨工业大学、北京大学武汉人工智能研究院、北京格灵深瞳信息技术股份有限公司、南方电网人工智能科技有限公司、天翼云科技有限公司、北京世纪好未来教育科技有限公司、北京智芯微电子科技有限公司、云知声智能科技股份有限公司、青岛海尔科技有限公司、京东方科技集团股份有限公司、浪潮电子信息产业股份有限公司、马上消费金融股份有限公司、平头哥(上海)半导体技术有限公司、山东浪潮科学研究院有限公司、上海计算机软件技术开发中心、北京安声科技有限公司、上海天数智芯半导体有限公司、深圳思谋信息科技有限公司、西门子(中国)有限公司、上海文鳐信息科技有限公司、万达信息股份有限公司、中移互联网有限公司
标准范围
本文件确立了人工智能大模型的评测指标,描述了人工智能大模型的评测方法。
本文件适用于模型提供者、应用服务者和应用消费者等对大模型能力进行评估与测试,也适用于指导大模型的设计开发、应用。