首个AI高考全卷评测结果发布

上海人工智能实验室旗下司南评测体系OpenCompass近期选取了7个大模型进行高考“语数外”全卷能力测试。

6月19日,OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAl GPT-4o排名第二,得分296分,上海人工智能实验室的书生·浦语2.0排名第三,三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾,仅拿下185分。

公开评测细节可访问:

https://github.com/open-compass/GAOKAO-Eval