大语言模型综合性能评估报告：百度文心一言中文理解能力超越ChatGPT

首页 > 聚焦 > > 正文

大语言模型综合性能评估报告：百度文心一言中文理解能力超越ChatGPT

2023-08-10 13:57:35 来源：中关村在线

(资料图片)

近日，由清华大学新闻与传播学院教授、博士生导师沈阳团队发布的《大语言模型综合性能评估报告》显示，GPT-4在总得分率上排名第一，而百度的文心一言在20项指标的综合评分中位居国内首位，超越了ChatGPT，尤其在中文语义理解方面排名第一，部分中文能力甚至超越了GPT-4。该报告选取了GPT-4、ChatGPT 3.5、文心一言、通义千问、讯飞星火、Claude、天工等7个大语言模型，从生成质量、使用与性能、安全与合规三大维度进行全面考察，包括上下文理解、中文语义理解、误导信息识别、逻辑推理、内容安全性、隐私保护等20项指标。综合来看，文心一言在语义理解能力上表现突出，尤其在中文理解能力上具备优势，更懂中国文化，同时具有强大的时效性和对内容安全的细致把握，这得益于其在知识增强、检索增强和对话增强等方面的技术创新。在生成质量方面，文心一言在语义理解、输出表达、适应泛化的综合评测中得分率为76.98%，仅次于GPT-4，领先于包括ChatGPT在内的其他大语言模型。在部分中文语义理解方面，文心一言以92%的得分率排名榜首。在安全合规方面，文心一言在内容安全性、偏见和公平性、隐私保护等方面的综合评测中得分率为78.18%，与GPT-4并列排名第一。

标签：