
C-Eval is a comprehensive Chinese evaluation suite for foundation models. It consists of 13948 multi-choice
questions spanning 52 diverse disciplines and four difficulty levels, as shown below. You may explore our
dataset examples at Explore, or check our paper for more details.
Have any questions about C-Eval? Please contact us at ceval.benchmark@gmail.com
or create an issue on Github.
For potential collaboration, please contact junxianh@cse.ust.hk.
数据统计
数据评估
关于C-Eval特别声明
本站鸟瑞导航提供的C-Eval数据都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由鸟瑞导航实际控制,在2025年9月11日 上午4:25收录时,该网页上的内容,都属于合法合规,后期网页的内容如出现违规,请联系本站网站管理员进行举报,我们将进行删除,鸟瑞导航不承担任何责任。
相关导航

Discover Llama 4's class-leading AI models, Scout and Maverick. Experience top performance, multimodality, low costs, and unparalleled efficiency.

序列猴子
具有长序列、多模态、单模型、大数据等特点的超大规模语言模型,基于其通用的表示能力与推理能力,能够进行多轮交互,打造更便捷流畅的用户体验。

OpenCompass
评测榜单旨在为大语言模型和多模态模型提供全面、客观且中立的得分与排名,同时提供多能力维度的评分参考,以便用户能够更全面地了解大模型的能力水平。

Cohere
Cohere builds powerful models and AI solutions enabling enterprises to automate processes, empower employees, and turn fragmented data into actionable insights.

LMArena
Attention Required! | Cloudflare

Stanford CRFM
Stanford CRFM

腾讯混元大模型
腾讯混元大模型是由腾讯研发的大语言模型,具备跨领域知识和自然语言理解能力,实现基于人机自然语言对话的方式,理解用户指令并执行任务,帮助用户实现人获取信息,知识和灵感。

CopyLeaks
Verify originality with Copyleaks' AI detection, the only AI-based platform used by millions worldwide to ensure text authenticity and protect intellectual property.
暂无评论...