nav emailalert searchbtn searchbox tablepage yinyongbenwen piczone journalimg journalInfo journalinfonormal searchdiv searchzone qikanlogo popupnotification paper paperNew
2025, 11, No.466 104-113
语文整本书阅读场景下大语言模型阅读理解能力评测研究
基金项目(Foundation): 数字化学习技术集成与应用教育部工程研究中心2024年创新基金项目“面向人工智能的终身教育领域高质量数据资源治理与应用研究”(项目编号:1441001); 中央民族大学2022年铸牢中华民族共同体意识滚动支持项目“面向群体中华民族共同体意识的数据密集型评价模型构建及其应用研究”(项目编号:2022MDZL13)研究成果
邮箱(Email):
DOI:
摘要:

随着教育数字化转型以及义务教育均衡发展的需求,大语言模型作为新兴的通用认知工具,正逐步应用于“整本书阅读”等语文教学场景。大语言模型能否理解经典名著,是决定其能否有效赋能语文整本书阅读的关键因素。基于此,文章构建了一个包含14部名著、500道选择题的测评数据集,覆盖语言特色、逻辑推理等10类问题,系统评估Deep Seek-V3、Qwen2.5-7B-Instruct等10个主流大模型的阅读理解能力。结果表明:(1)大语言模型总体正确率达82.5%,可以理解中学阶段的名著,其中国内模型表现显著优于国外模型,不同参数规模的大模型的表现不存在显著差异;(2)基于10个大语言模型的得分计算每道题的难度并绘制不同难度的题目频率分布,该分布为幂律分布而非常见的正态分布;(3)大语言模型的小说类名著与文言类名著阅读理解表现较弱,在生成创造任务中优势显著而在细节提取等精准定位任务中表现欠佳等。文章针对大语言模型在整本书阅读领域的应用提出面向教学层、内容层与技术层三个方面的建议,为推动整本书阅读教学提供智能化解决方案。

Abstract:

With the advancement of educational digital transformation and the demand for balanced development in compulsory education, large language models(LLMs), as emerging general-purpose cognitive tools, are gradually being applied to Chinese teaching scenarios such as “wholebook reading.” Whether LLMs are capable of understanding classical masterpieces is a key factor in determining their effectiveness in empowering whole-book reading instruction. Based on this, the study constructs an evaluation dataset consisting of 14 masterpieces and 500 multiple-choice questions, covering 10 categories of questions including linguistic features and logical reasoning, to systematically assess the reading comprehension abilities of 10 mainstream LLMs, such as DeepSeek-V3 and Qwen2. 5-7B-Instruct. The results show that:(1) The overall accuracy rate of large language models reaches 82. 5%, demonstrating their ability to understand classic works at the secondary school level. Domestic models perform significantly better than foreign models, and there are no significant differences in performance among large models of different parameter scales;(2) By calculating the difficulty of each question based on the scores of the 10 large language models and plotting the frequency distribution of questions of different difficulties, this distribution follows a power-law distribution rather than the commonly observed normal distribution;(3) Large language models exhibit weaker performance in reading comprehension of novel-style classics and classical Chinese classics, but demonstrate significant advantages in generative creative tasks while performing poorly in precise localization tasks such as detail extraction. The article proposes recommendations targeting the teaching, content, and technological aspects for the application of large language models in the domain of whole-book reading, providing intelligent solutions to advance the instruction of whole-book reading.

参考文献

[1]新华网.中共中央国务院印发《教育强国建设规划纲要(2024-2035年)》[EB/OL].https://www.news.cn/politics/20250119/f33c2caa323249ca8fd2038515ee9620/c.html,2025-01-19.

[2]王立军.统编初中语文教材修订的几大亮点及教学建议[J].中学语文教学,2024,(9):4-12.

[3]李卫东.整本书阅读课程目标的分析框架与确定策略[J].语文建设,2021,(3):9-12+25.

[4]张雷.基于实践共同体的整本书阅读教学[J].语文建设,2024,(15):26-31.

[5]成丽宁,胡晰月等.教育强国背景下民族地区基础教育高质量发展的内涵、困境与进路[J].民族教育研究,2024,35(5):113-121.

[6]隋哲.基于国家中小学智慧教育平台的初中语文“整本书阅读”教学探索——以七年级上册“朝花夕拾”为例[J].教育与装备研究,2025,41(8):78-84.

[7]刘邦奇,聂小林等.生成式人工智能与未来教育形态重塑:技术框架、能力特征及应用趋势[J].电化教育研究,2024,45(1):13-20.

[8]海佳丽,汪润等.基于检索增强的中医药标准知识问答系统构建探索与实践[J].数据分析与知识发现,2025,9(7):165-174.

[9]王佐旭.知识图谱和大语言模型辅助新工科课程教学资源建设方法[J].高等工程教育研究,2025,(1):40-46+110.

[10]宋宇,许昌良等.生成式人工智能赋能的新型课堂教学评价与优化研究[J].现代教育技术,2024,34(12):27-36.

[11]石琬若,韩锡斌.生成式人工智能对学习分析研究的影响:现状与前瞻——2024年学习分析与知识国际会议(LAK24)述评[J].电化教育研究,2024,45(12):113-120.

[12]来雨轩,王艺丹等.基于大语言模型与检索增强的学科试题生成方法[J].中文信息学报,2024,38,(12):148-158.

[13]姜秀敏,张嘉印.Deep Seek介入人文社科学术体系催生的“智能增强学术范式”[J].北京行政学院学报,2025,(3):31-42.

[14]李海峰,王炜.生成式人工智能赋能教育新基建智慧数字底座的样态[J].远程教育杂志,2024,42(6):24-32.

[15]李芳芳,陈志平.人工智能技术赋能整本书阅读教学——以Chat GPT在《乡土中国》阅读教学中的应用为例[J].语文建设,2024,(1):15-21.

[16]谷屹欣,钱荃.生成式人工智能语文教学赋能数字化阅读素养的内在机理与实践探索[J].语文建设,2024,(12):66-71.

[17] Zhao W X,Zhou K,et al.A Survey of Large Language Models[J].ar Xiv preprint ar Xiv:2303.18223,2025-06-18.

[18] Achiam J,Adler S,et al.Gpt-4 technical report[J].ar Xiv preprint ar Xiv:2303.08774,2025-06-18.

[19] Hendrycks D,Burns C,et al.Measuring massive multitask language understanding[J].ar Xiv preprint ar Xiv:2009.03300,2025-06-18.

[20] Chalkidis I,Jana A,et al.LexGLUE:A benchmark dataset for legal language understanding in English[J].ar Xiv preprint ar Xiv:2110.00976,2025-06-18.

[21]张欢,郑晨等.在线学习场景下大语言模型辅助教学评测[J].现代教育技术,2024,34(11):15-26.

[22]刘玉屏,欧志刚等.生成式人工智能赋能国际中文教学的效果测评——以教学设计、HSK模拟试题编写及作文评分为例[J].民族教育研究,2025,36(1):156-166.

[23]申丽萍,何朝帆等.大语言模型在中学历史学科中的应用测评分析[J].现代教育技术,2024,34(2):62-71.

[24][26] Yu L,Liu Q,Xiong D.LFED:A Literary Fiction Evaluation Dataset for Large Language Models[J].https://arxiv preprint arxiv:2405.10166,2025-06-18.

[25]中华人民共和国教育部.义务教育语文课程标准(2022年版)[M].北京:人民教育出版社,2022.

[27]钟昕.湖北省某市初中语文整本书阅读教学现状及优化策略[D].黄石:湖北师范大学,2024.

[28]吴凤森.初中语文整本书阅读的困境与教学策略优化研究[J].教育界,2024,(11):29-31.

[29]王冬青,陈自力等.从“负能”到“赋能”:基于LLMs的思维链提示设计与教研AI智能体构建——以课堂教学智能分析为例[J].中国电化教育,2025,(3):111-117+125.

[30]伊丽梅.“扣子”智能体在高中生物学教学中的应用[J].生物学教学,2025,50(1):49-52.

[31]赵雪,赵志枭等.面向语言文学领域的大语言模型性能评测研究[J].外语电化教学,2024,(6):57-65+1.

[32]李玉顺,韩梦莹.教育强国背景下人工智能赋能教育教学创新:未来图景、实践路径与风险审思[J].中国电化教育,2025,(8):13-21.

基本信息:

中图分类号:G633.33;G434

引用信息:

[1]魏顺平,刘欣怡,张悦,等.语文整本书阅读场景下大语言模型阅读理解能力评测研究[J].中国电化教育,2025,No.466(11):104-113.

基金信息:

数字化学习技术集成与应用教育部工程研究中心2024年创新基金项目“面向人工智能的终身教育领域高质量数据资源治理与应用研究”(项目编号:1441001); 中央民族大学2022年铸牢中华民族共同体意识滚动支持项目“面向群体中华民族共同体意识的数据密集型评价模型构建及其应用研究”(项目编号:2022MDZL13)研究成果

发布时间:

2025-11-10

出版时间:

2025-11-10

检 索 高级检索