登顶上海AI实验室权威大模型评测榜，云知声医疗专业能力再获认可

2024-04-24 16:29:09

　　近日，上海AI实验室和上海市数字医学创新中心联合推出的MedBench评测更新榜单，云知声山海大模型医疗行业版(UNIGPT-MED) 以综合得分54.7的优异成绩登顶榜首，充分彰显其硬核医疗实力。

　　医疗领域中文大模型不断涌现，如何对它们进行专业、科学的评测成为行业眼下亟待解决的问题。在此背景下，上海AI实验室和上海市数字医学创新中心基于OpenCompass大模型开放评测体系，联合推出中文医疗大语言模型开放评测平台MedBench，吸引了蚂蚁、商汤、百川、智谱等诸多大模型企业和研究机构参与其中，共同推进医疗大语言模型全面、专业、互认的评测体系建设。

　　基于医学语言理解、医学语言生成、医学知识问答、复杂医学推理、医疗安全和伦理5大维度，MedBench设置15项任务、20个数据集及30万道题目，为中文医疗大模型提供了客观科学的性能评测参考。

　　此次云知声参与评测的医学行业版大模型UNIGPT-MED在山海大模型升级的基础上，通过多年深耕医疗行业所积累的海量行业数据进行增量训练，并结合RLHF和RLAIF方法，生成大量符合偏好的医学数据，显著提升了模型在医学领域的专业性能和准确性，使其在MedBench的多个评测维度中展现出出色的实力，并在医学知识问答、医学语言理解两大关键维度中拔得头筹。

　　医学知识问答评测得分

　　医学语言理解评测得分

　　这一成绩的取得，是云知声在大模型赛道持续深耕、不断技术创新的成果体现。

　　作为中国AGI技术产业化的先行者，云知声于2016年开始打造Atlas人工智能基础设施，并以此为基础，构建云知大脑(UniBrain)技术中台——以山海(UniGPT)通用认知大模型为核心，结合多模态感知与生成、知识图谱、物联平台等智能组件，为云知声智慧物联、智慧医疗、智慧座舱、智慧交通等业务提供高效的产品化支撑，持续推动“U(云知大脑)+X(应用场景)”战略布局，致力推动千行百业的智慧化升级。

　　作为云知大脑的核心，山海大模型具备语言生成、语言理解、知识问答、逻辑推理、代码能力、数学能力、安全合规能力七项通用能力及插件扩展、领域增强、企业定制三项行业落地能力，且目前已由大语言模型升级至多模态大模型，拓展出文生图、文生视频、图片问答等多模态能力，能够满足更多场景的应用需求。

　　目前，最新版本的山海大模型通用大模型能力已超越GPT-3.5，并在上个月的OpenCompass大模型评测中排名国产大模型厂商第四、全球大模型厂商第六，其在中英文双语客观评测中的语言、知识、推理能力，在综合性中文主观评测中的创作能力更是超越了GPT-4，跻身通用大模型第一梯队。

　　在医疗专业能力上，山海大模型于2023年6月的MedQA任务中超越Med-PaLM 2，取得87.1%的优异成绩;在临床执业医师资格考试中提升至523(总分600分)，超过99%的考生水平。其基于山海大模型孵化的医疗大模型，也在CCKS 2023 PromptCBLUE医疗大模型评测中夺得通用赛道一等奖。

　　此次登顶MedBench评测榜，再次证实了云知声山海大模型在医疗领域的突出实力，也将鞭策云知声持续迭代大模型技术底座，实现大模型技术在多领域场景下的渗透和应用，以技术创新为各行各业带来更多智能化变革。（来源：薄荷健康网）

扫一扫在手机打开当前页

上一篇：海峡两岸医药卫生交流协会心脏重症专委会第三届换届选举大会顺利召开 下一篇：陕西汉中市第二人民医院正式成为道路交通事故社会救助基金绿色通道定点医院

登顶上海AI实验室权威大模型评测榜，云知声医疗专业能力再获认可

栏目推荐

热门文章

登顶上海AI实验室权威大模型评测榜，云知声医疗专业能力再获认可

相关阅读

栏目推荐

热门文章