毕业论文---试卷自动生成系统的设计和实现内容摘要:

统的组卷方式就很难跟上时代的步伐,随着计算机科学的迅速发展和广泛应用,计算机辅助教学 CAI( Computer Aided Instruction)的产生与发展对促进教育、教学技术的变革与发展具有巨 大的推动作用。 利用计算机建立试题库,实现计算机自动选题组卷,是 CAI 工程的重要组成部分,是实现考试规范化、科学化的重要措施,更是实现教考分离的一个重要手段。 自动组卷系统,不仅能节省教师宝贵的时间,提高工作效率,还能消除人为因素的干扰,使考试更加标准化,更能客观、真实、全面地反映教学的实际效果。 有利于促使任课教师必须按照教学大纲的要求认真备课,认真组织教学内容,改进教学方法,因此对教学质量和整体教学水平的提高有着重要意义。 还可利用智能组卷系统对试卷和考试分数进行分析和评价,使考试这一教学环节更加科学化。 为了 提高考试的科学化程度,把数理统计的方法引入考试工作,对试卷的编制和考试的质量进行定量分析。 建立试题库,实现智能组卷得以实施科学化的考试,有助于是对教学工作加强宏观指导和管理,将课程教学的科学管理变成现实。 设计实现自动组卷系统,是一项自然科学与教育科学,学术研究与教学研究相结合的研制课题,它运用教育测量学、考试学、教育统计学的理论和方法,总结教师的考试经验,建立科学的组卷理论,从而借助于计算机的先进技术来实现。 2 课题研究现状 在国外,一些标准化考试系统,如美国的 TOEFL、 GRE 等考试系统早已建立并成功运行 了几十年,一直都能科学地测试出学生的实际水平。 这说明自动组卷式可能的而且有效地,但这些系统所涉及到的具体内容以及其设计思想与原理几乎都是保密的。 因此我们必需依靠自己的努力研制一套符合中国国情的试题库组卷系统。 在国内,已研制成功的计算机考试系统有高等数学试题库系统 MATBAS[1],南京大学计算机科学与技术系研制的 PASCAL 题库系统,高教司的重点项目基于知识的成卷系统使用外壳软件 [2]等系统,但是这些系统大多数没有自动组卷功能,考试所需的试题仍需要人工定制,因此在近十几年又出现了大量针对各种考试的计算机考 试系统。 计算机考试系统的发展同时推动了组卷系统的研究。 组卷问题是一个带约束的多目标优化问题,采用经典的数学方法很难解决这个难题,自动组卷的效率和质量完全取决于抽题算法的设计。 如何设计一个算法从试题库既快又好地抽出一组最符合考试要求的试题,涉及到一个全局寻优和收敛速度慢的问题。 目前的自动组卷系统根据其所使用的组卷策略大致分为五类: (1) 基于随机抽取的自动组卷算法 [3] (2) 基于深度与广度搜索算法的自动组卷 (3) 基于项目反映理论的自适应测试 (4) 基于数据挖掘和知识发现的自动组卷理论 (5) 基于遗传算法的自动组卷 基于随机抽取的自动组卷算法 由于用户在操作该系统生成试卷时会提出一系列的约束条件,如试卷专业类别、题目类型、难度分布、知识点分布、试题分值等等。 而在理论与实际应用中都无法将这些约束条件用一种单一的表达式进行综合处理,因此也不存在最优化的思想。 随机抽取的策略,通常是从试题库中随机抽取某个试题与用户提出的约束条件进行比较,取出满足某项约束指标的加入试卷,若所有试题都试探过多不能满足当前试卷约束条件,则组卷过程失败。 3 基于深度与广度搜索算法的自动组卷算法 该类型的自动组卷算法又被称为回溯试探法。 它 在组卷过程中采用随机的方法抽取试题,而在抽取过程中通过验证所选择的试题是否满足给定的约束条件来决定是否抽取,当发现目前没有任何试题满足要求而组卷过程又没有完成时,则采用回溯试探方法,通过废弃前一段时间所做的组卷来重新组卷。 由于这种方法在组卷过程中通过废弃部分工作而不是废弃本次组卷过程中的全部操作,从而有效地降低了无效组卷的次数,使得自动组卷算法性能得到提高,同时算法实现也容易。 熊文清等于 1999 年通过对试题按某个性能指标进行排序,当发生组卷失败情况时,将发生组卷失败的试题与前面的试题进行呼唤,以调整原有的 组卷次序,重新进行组卷过程 [4];叶勇等于 1998 年分析了三种基于回溯算法的组卷匹配方法,并进行了相应的比较,在其基础上给出了智能试题库管理系统的设计思想 [5]。 基于项目放映理论的自动组卷算法 项目反映理论( Item Response Theory, IRT)是一系列心理统计学模型的总称,是针对经典测量理论( Classical Test Theory, CTT)的局限性提出来的。 基于 IRT 的自动组卷算法是由最早的适应性测试发展而来的。 William W. Turn Bull 于 1951 年最早提出 了适应性测试这一概念,当时,适应性测试是指针对被试先前经验或者说被试先前测试的历史信息选取适合被试的题目进行组卷测试,作答后立即评分,并以上一题的作答情况决定下一道被使用的测试试题,直至测试结束为止。 测试的整个过程即是从题库中选取符合被试能力水平的题目进行测试的过程。 在考试开始时,系统被测者的潜在特质一般一无所知,所以通常的方法是选取中等难度的试题,即假定所有考生的能力值为中等,在题库中随机抽取难度为中等的题目,作为测试的开始点。 随后,每当考生回答一道题后,系统将对学生的能力值重新评估并修正原先的能力值, 然后从试题库中选取下一道试题,该过程直到对考生能力的测量精度达到指定的水平。 Win Linden等在 2020 年试图利用学生的实际参与考试的情况对试题库中的各个单元实体的性能指标进行评估,以便得到较为真实反映单元试题难度、时间等性能指标的标准值,提出了利用基于项目发音理论的方法,通过建立一个反映考生做大反应 4 与题目质量及水平间的线性模型,对考生的能力水平进行估算,从而得出该考生能力的测量 [6, 7]。 基于数据挖掘和知识发现的自动组卷算法 数据挖掘和知识发现作为一门新的研究领域,涉 及到机器学习、模式识别、统计学、数据库和人工智能等学科。 特别是它被看作是数据库理论和机器学习的交叉学科 [8]。 作为一种独立于应用的技术,受到了广泛的关注,有着广泛的前景,可以应用于商业管理、科学研究、智能决策、故障诊断等方面,当然也被应用于组卷系统中。 目前国内数据挖掘的研究重点是找出频繁项目集 (frequent itemsets)。 典型的关联规则挖掘算法有 等人提出的 Apriori 算法 DHP 算法等。 它们都属于数据库遍历类算法。 提出的 AprioriHybrid 算法, Park[9]等人提出的 DHP 算法 (Direct Hashing and Pruning)使用哈希 (Hashing) 技术有效地改进了候选集 Ck 的产生过程。 SavaSers 等人在 1995 年提出了一种把数据库分割处理的算法,降低采掘过程中的 I/O 次数,减轻了 CPU 的负担。 使用抽样 (sampling)的方法可以用较小的代价从大型数据库中找出关联规则 [10]。 基于遗传算法的自动组卷算法 遗传算法( Geic Algorithm, GA)是模拟达尔文的遗传选择和自然淘汰的生 物进化过程的计算模型 [11],它的产生归功于美国的 Michigan 大学的 Holland 在 20 世纪 60 年代末、 70 年代初的开创性工作,其本意是在人工适应系统中设计的一种基于自然演化原理搜索机制。 它通过模拟达尔文“优胜劣汰、适者生存”的原理激励好的结构:通过模拟孟德尔遗传变异理论的迭代过程中保持已有的结构,同时寻找更好的结构。 从某种程度上说遗传算法是对生物进化过程进行的数学方式仿真。 遗传算法作为一种新的全局优化搜索算法,以其简单通用、适用于并行处理以及应用范围广等显著特点,奠定了它作为 21 世纪关键智能计算方法之 一的地位。 遗传算法是具有“生成 +检测”迭代过程的搜索算法,其基本出流程如图 所示。 5 图 遗传算法基本流程图 遗传算法是一种群体型操作,该操作以群体中的所有个体为对象,选择( Selection)、交叉( Crossover)和变异( Mutation)是遗传算法的三个主要操作算子( Geic Operation),它们构成了所谓的遗传操作,使遗传算法具有了其他方法所没有的特性。 基于遗传算法的自动组卷将每道试 题作为一个独立的编码位,利用遗传算法的三个基本操作:遗传、交叉与变异并最终完成试题的选取,从而得到满足各种条件的试题集合,完成组卷工作。 在目前的计算机自动组卷算法研究中,许多研究者利用遗传算法在计算机自动组卷方法的应用展开了大量的研究。 魏平、毛秉毅等 [12, 13]采用传统的遗传算法 (SGA)来实现试题库的自动组卷,取得了较好的效果。 但传统遗传算法容易产生“早熟收敛”现象。 目前已经有很多研究人员把改进的遗传算法应用到组卷中,以提高组卷运行效率。 刘彬等 [14]对题型确定过程中的知识进行改进,相对于简单遗传算取 得了较好的结果。 N Y 开 始 编码,生成初试群体 满足停止 准则。 选 择 交 叉 变 异 结 束 6 课题研究目的及成果 本课题的研究目的:对组卷算法进行深入研究,在高校题库管理系统的基础上,将遗传算法实现并运用到智能组卷系统中,实现自动组卷系统的基本功能。 本课题的 成果 : (1) 在传统遗传算法的基础上对编码方式、适应度函数、遗传算子进行了一些研究和改进; (2) 根据遗传算法自动组卷的需要设计了相应的试题库结构; (3) 建立了一个以难度系数、知识点、题型等为核心属性的智能组卷数学模型; (4) 设计并实现了一个基于改进遗传算法实现自动组卷的方法。 论文内容概述 论文主要分为 6 个章节: 第 1 章绪论,主要是本课题研究背景、研究现状的介绍,对几种组卷算法作了介绍 ,然后给出了毕业课题的研究目的和成果。 第 2 章 介绍了自动组卷系统的组卷基本原则,分析了试题的属性指标、试卷的评价指标、各项指标的作用及几个重要指标间的关系。 第 3 章 介绍了遗传算法的基本概念和基础知识、遗传算法的设计与实现等。 第 4 章 基于遗传算法建立了自动组卷的数学模型,并将遗传算法具体应用于试题抽取。 第 5 章 基于遗传算法自动组卷系统的研究对试卷生成系统进行了分析设计,并基于 Java 技术实现了算法原型。 第 6 章对文章进行了总结,提出了自动组卷过程中 还存在的其他问题,并对论文下一步的工作进行了展望。 浙江工业大学本科毕业设计说明书 (论文 ) 7 第二章 组卷的评价体系与建模 组卷的基本原则 对于一般的测试来说,一方面主要是用于学生自测,检验自己对学科知识的掌握程度;另一方面用于教师对学生进行考试,考察教学效果,进而改进教学方法。 这两个方面的用处均在于考察学生知道什么、能做什么,因此属于目标参照性测验。 对于大规模的人才选拔,考虑到公平性和保密性,一般不会采用自动组卷系统;而对于小规模的人才考核,一般也不会采用这种复杂的考察方式,而是采用最新的项目反应理论进行测试。 因此本文研究的自动组卷系统主要 侧重于目标参照性测验。 对于目标参照性测验,组卷的基本原则 [15]主要体现在: (1) 组卷的主要依据是考试大纲,组卷必须全面反映大纲的广度和深度; (2) 组卷要利于考核考生能力和促进考生智力发展; (3) 组卷要讲究层次,要有难度台阶,才能在分数上拉开距离; (4) 命题要注重发挥考题对考生学习方法的引导; (5) 考试不能出现偏题、怪题,但要有一定得深度,要能测量出考生的不同知识水平和智能差异; (6) 命题的表达语或指导语要清楚无误,以提高考试的信度。 组卷工作是一项复杂的智力劳动,组卷者首先要研究考试大纲和命题计划,明确考试的目的、对象、性质, 试题的形式、数目,试题数量和分数在各部分中的分配比例,考查的重点和其它要求。 其次,根据命题计划编制试题,给出答案,并对编出的试题进行审查、修改和筛选,同时注明各试题的预计难度、所属知识点和认知层次,分数及预计答题时间。 试题的几个重要属性指标 试题都是存放在试题库中,而试题本身含有固有的属性,试题各项属性指标的浙江工业大学本科毕业设计说明书 (论文 ) 8 确定直接影响到组卷系统的准确性和工作效率。 试题库中的内容将直接用于试卷之中,所以试题库结构的设计师组卷问题的重要内容。 试题的属性指标定量地描述了每一道试题的内在属性、外部特征以及它在考试测验中的功能, 是计算机进行抽题组卷的基础。 试题的难度、区分度都是试题的重要质量指标,然而考虑到区分度需由试题被使用后统计计算所得,一般难以在试题入库之时确定,而试题难度可在试题入库时由输题教师预测下故本文未采用,本文定义的试题指标体系为 B={题型,知识点,难度,认知层次,答题时间,曝光度 },以下对试题指标体系的构成进行详细的阐述。 题型 试题的类型有多种形式,一般是指从试题形式上区分,具体的试题类型可分为:选择题(包括单选、多选和不定项选择)、填空题、判断题、计算题、编程题、解答题等。 知识点 知 识点一般是以课程的章节进行划分的,考虑到同一科目可能前后会使用不同的教科书,所以本文采用对应课程的单个知识要点作为试题指标体系的知识点。 知识点是考察能力的载体,因此以知识点的分值分布来组织试题是合理的。 难度 在组卷过程中,针对不同的考试目的、不同阶段的考试,考试的命题难度应该相应地不同,这对试题来说是非常重要的一个属性。 本文设计的试题难度分为五个等。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。