基于机器学习技术分析课堂提问的认知水平.docx

上传人:b****7 文档编号:25691381 上传时间:2023-06-11 格式:DOCX 页数:12 大小:305.62KB
下载 相关 举报
基于机器学习技术分析课堂提问的认知水平.docx_第1页
第1页 / 共12页
基于机器学习技术分析课堂提问的认知水平.docx_第2页
第2页 / 共12页
基于机器学习技术分析课堂提问的认知水平.docx_第3页
第3页 / 共12页
基于机器学习技术分析课堂提问的认知水平.docx_第4页
第4页 / 共12页
基于机器学习技术分析课堂提问的认知水平.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

基于机器学习技术分析课堂提问的认知水平.docx

《基于机器学习技术分析课堂提问的认知水平.docx》由会员分享,可在线阅读,更多相关《基于机器学习技术分析课堂提问的认知水平.docx(12页珍藏版)》请在冰豆网上搜索。

基于机器学习技术分析课堂提问的认知水平.docx

基于机器学习技术分析课堂提问的认知水平

基于机器学习技术分析课堂提问的认知水平

摘要

提问被广泛认为是一种有效的教学策略,在教师与学生的相互交流之间存在着各种用途。

在教育实践中,教师对课堂提问的分析具有特殊的效益。

本文通过分析将老师的问题按照布鲁姆的分类自动分类到不同的认知水平的有效性,从而探讨了机器学习技术有效性。

更具体地说,本文利用三种最有效的机器学习的分类技术:

K-最近邻,贝叶斯和支持向量机的三种方法。

这样,一个数据集的问题经过收集和分类,并且按照布鲁斯分类。

经过预处理步骤应用到一个适合于机器学习技术问题。

使用这个数据集,三种机器学习技术的性能就被评估。

结果表明,K最近邻和贝叶斯性能相媲美,向量机在F1和精度性能优越。

此外,结果还表明,机器学习技术对于代表问题的特征的数量显示出不同程度的敏感性问题。

1.引言

在教育领域,提问被广泛认为是一种有效的教学策略。

它是师生互动的主导模式,占总互动的近80%。

自苏格拉底时代,提问被用来鼓励学生使用更高层次的思维过程。

目前,教师每天问多达300到400个问题,所以提问仍然是最经常使用的教师教学干预手段。

鉴于教师课堂提问对教学的重要性,对这些问题的分析已被广泛研究。

一些研究人员发现开发出一套可以分类问题的分类集会对教学很有帮助。

现在已经有了许多分类系统,其中大部分是完全由认知过程所需的回答问题的类别的基础上进行分类的。

这些系统包括在不论语境分类问题的背景下数量有限的一般类别,而其他分类系统开发了一个特定的课程,如一个对由美术教师提出的问题进行分类的系统。

布鲁斯分类是最突出的问题分类系统的代表,它是由本杰明.布鲁斯提出,在他的努力,把思想行为分类成三个领域:

认知(精神技能),情感(情感或情感领域的增长)和运动(手动或物理技能)。

认知领域因其在中学和中学后教育的适用性受到重视。

在认知领域,布鲁斯确定了六个不同的学习层次,并且根据层次结构进行了组织。

认知方面的六大类如下:

~知识:

注重记忆,识别信息;

~理解:

专注于组织思想、信息的解释和翻译;

~应用:

重点利用细节和原则解决问题;

~分析:

专注于寻找潜在的组织和一个整体的划分;

~合成:

专注于一个想法组合,以形成新的东西,创造一些独特的无论是口头上或身体上;

~评价:

专注于对问题作出判断,解决差距或分歧。

在教学实践中,问题的有效使用依赖于教师的能力,由老师决定他提问问题的布鲁斯认知水平(BCL)。

不幸的是,对教师提问的研究已经表明,这种技能通常是不太有效的。

在这些研究中,它已经表明,教师在各级教育往往问需要记忆的问题,很少问需要反思的问题。

这可以归因于缺乏提问的分类。

因此,为了提高教师的提问能力,基于BCL来分析他们提出的问题是至关重要的。

这样的分析结果,可以用于教师专业发展和评估教师的水平,也可以帮助师生互动。

为了更好的教学和学习,分析教师的提问至关重要,本文提出了一种尝试,利用多种机器学习技术,将这个过程自动化。

考虑到教育机构的电子学习系统的迅速普及,这个过程的自动化是很有吸引力的。

从这些系统中产生的大量的数据,使得手动管理它非常困难,因此,机器学习的技术是来操纵它们是非常有前途的手段。

本文的其余部分组织如下。

第2节评论有关的作品。

3节是利用ML自动分类问题概述。

第4节介绍了所获得的结果,第5节进行讨论。

第6节是为结论。

2.相关作品

在教育的文献中,教师课堂提问的研究受到了很大的关注,因为它们提供了一个信息来源,可以用来研究教学的各个方面。

因此,文学作品的研究主要集中于对教师提出的问题的用途分析。

例如,分析教师的问题已被用来研究教师的提问方式,是用来培养学生的技能和批判性思维,而不是在学习和回忆。

也已被用来研究教师的问题对学生行为的影响。

从计算的角度来看,将问题自动按照BCL分类可以定义为按照问题的内容自动匹配到某一个确定的布鲁斯认知水平。

显然,这项任务可以被看作是文本分类的一种特殊形式。

也就是说,与典型的文本分类问题相比,它具有特定领域的特点。

更具体地说,在一个典型的文本分类问题中,每一个文档都包含几百个单词,然而,在问题分类中,每一个问题通常包含不到50个单词,从而引起了一个不足。

问题的缺乏,预计将影响机器学习技术性能。

在文献中,很少有作品被报道。

在人工神经网络,即反向传播神经网络,分类问题转化为三个难度级别,简单,中等,和困难。

此外,查询文本的相关性的五维特征向量,平均词频,问题和答案的长度,词频分布,文本中的问题和答案的分布作为输入到BP神经网络。

结果计算得到F1值是近78%。

在决策树中,根据决策树的困难,构建了一个自动分类的电子学习考试库。

因此,电子学习系统可以是根据个人背景适合于每个学习者选择问题。

设计了一种针对特定关键词问题的自动分类器设计。

问题分类是一个有趣的工作。

在这项工作中,一个适应性强的学习辅助工具,用于管理问题银行的问题,到预定义的类进行分类,并正确检索的问题,通过指定的类和/或难度级别。

这些作品的一个共同的方面是,他们根据难度分级的问题。

3.方法论

一般而言,目前的文本分类的趋势主要是密集的使用机器学习技术。

理想的用机器学习技术设计文本分类系统需要四个主要步骤:

文本表示,特征选择,分类建设和分类测试。

在文本表示步骤中,使用文本表示方法将文本映射到适于后续步骤的紧凑表示中。

在特征选择步骤中,原始集的特征子集由特征的选择方法选择。

在分类器的构造步骤中,机器学习分类器通过对人工分类下的一组文本的特征观察自动创建。

在分类器的测试步骤,通过搜集到一个新的未知的文字来测试分类器的性能。

因为问题分类是文本分类的一个实例,这些步骤也适用。

下面的小节描述使用ML解决问题分类问题转化为线性的四个步骤。

3.1.问题描述

基本上,问题文本不能直接用机器学习技术解释,因此,利用转换程序映射一个问题Qi文本到紧凑的表示,其内容需要统一适用。

代表一个问题Qi的常见的方法是作一个特征权重矢量,这不是一组特征(有时称为特征)出现在至少一个问题至少发生一次,0

权重可以是二进制权重(1表示存在0表示特征不存在);或基于非二进制的分类器构造算法。

非二进制重量最常见的形式,使用标准的TFIDF函数,其定义为

在|Tr|表示在训练集的数量问题,#(TK,QJ)表示发生在QJ的Tk次数,#TR(TK)是指特征Tk的频率,也就是TK在问题中的发生次数。

为了应用上述表示,一个预处理的问题,应适用于包括:

~减少问题文本来减少字符。

~标点符号的去除:

所有类型的标点符号从问题中删除。

~标记:

令牌是一个极大的非空白字符序列。

在这个过程中,纯粹的数字令牌被丢弃。

~分析:

令牌被波特词干分析器分析。

一个问题的文本预处理后,特征加权按方程1计算,长度归一化应用如下

带新特征的权重的向量被输入到随后的步骤。

3.2.特征选择

给定一个特征集包含一组训练集的问题的所有特征,特征的选择是从原始特征集选,这样的一个只有最具代表性的特征子集。

一个计算更简单的选择方法根据一个函数接收的最高得分选择一个子集的特征,例如,检索词频率(TF),这衡量一个特征对分类任务的重要性。

3.3.分类器构造

在分类器构造步骤中,一般的归纳过程会通过观察一组文本的特征自动生成一个分类的一个给定的组Ci,称为训练集,手动分类为Ci或专家进行分类Ci。

从这些看出,归纳的过程,一个新的未知的文本应收集的特点有分类Ci。

对于大多数机器学习的技术,这一步可以通过使用一个目前可用的工具。

3.4.分类评价

机器学习分类器对一类线性分类的有效性可以通过一些措施进行评价。

这些措施的计算基本上取决于所获得的应急表。

应急表主要包括以下值

A:

系统按照布鲁斯分类正确分类的问题数目。

B:

系统按照布鲁斯分类错误分类的问题数目。

C:

属类但系统没有正确布鲁斯分类的数目。

D:

系统正确的没有分配到BCLS的问题数量。

以下是用于评估机器学习分类性能的常用的措施。

精度(P):

如果一个随机问题被分类在Ci下,这个决定是正确的。

它可以被看作是分类器的“稳健程度”的相对于类。

公式是

召回(R):

如果一个随机的问题应该被分类到Ci下,这项定是采取。

它可以被看作是相对于该类的分类的程度的完整性。

公式是

Fβ测量:

这是一次召回和精度的谐波平均值,对于β=1,如下

准确性(ACC):

一个分类的准确性+的定义如下

除了这些对分类器的措施,分类的有效性可以通过宏观平均值(所有类未加权平均效率)和微观平均值(从每类列联表的总和计算的有效性)进行评估。

4.实验结果

本节介绍了从一系列的实验中获得的结果。

以此进行评估不同的机器学习技术的性能。

此外,从被认为是作为一个基线的以规则为基础的方法。

在所有的机器学习技术实验中,基于TF的特征选择方法已经使用。

更确切地说,每种机器学习技术基于TF的选择已经尝试了不同数量。

在每一个实验中,所选择的特征被用来在第3.1节所描述的问题表示。

结果已在随后的部分中,但在对这些结果的描述之前,问题数据集的简要说明已经给出。

4.1.问题集

在Najran大学在一些课程讲座收集了一系列的问题。

问题已通过手动与教育专家来对每一个问题分配一个合适的类。

问题的子集是随机选择的,选择的问题是均匀分布在线性约束下的(即每个bcl100例)。

所收集的数据集已被处理为在第4.1节中所述,并分为训练集(70%的数据集)和测试集(30%的数据集)。

训练集和测试集的大小分别为420和180。

表1显示了其问题样本。

表1:

问题数据集实例

BCL问题实例

知识(Kn)确定计算机的标准组件

理解(Co)详细描述图形

应用(Ap)计算圆面积

分析(An)将瀑布模型与原型模型进行比较。

合成(Sy)开发基于活动的网络

评价(Ev)对给定数据的不同图形表示的有效性进行评估

4.2.基于规则的方法

基于规则的方法是上世界八十年代最为流行的自动分类方法,以规则为基础的方法的问题分类通常由一组手动定义的逻辑规则。

每个规则是一个分离的条款,对于一个给定的BCL包含一组预定义特征的条件。

一个给定的问题是,当且仅当它满足一定的BCL分类下的规则,即,当且仅当它满足至少一个在其条款。

使用规则为基础的问题分类方法的结果显示在表2。

 

表2:

基于规则的方法的性能

4.3.k-近邻

从这一系列的实验中得到的结果示于表3。

宏观平均值和微观平均值F1结果表明KNN获得最佳的性能时,用于问题表示特征的TF>5。

KNN的结果与基于规则的方法的结果比较,证实了ML技术对问题分类的有效性。

 

表3:

K近邻性能

表4:

NB的性能

4.4.朴素贝叶斯

朴素贝叶斯是一种有效的概率分类方法,已应用于文本分类中。

它的基本思想是词和类的联合概率的来估计给定问题的类的概率。

朴素贝叶斯方法是最早用于文本分类的分类器算法,是一种统计学分类方法,它基于贝叶斯决策论并且基于此项独立的假设,不同属性对分类结果的影响是独立的。

从这一系列的实验中得到的结果示于表4。

结果表明,在贝叶斯方法中F1的表现最好时,用于问题表示特征的TF>3是。

他们还表明,对于ACC,NB获得最佳的性能时,用于问题表示特征的TF>2。

此外,NB的结果与KNN的结果比较,无论所选择的特征的数目如何,这两种方法显示了相差不多的性能。

4.5.支持向量机

支持向量机是Vapnik等提出的一种新的学习方法,它是建立在统计学习理论的VC维理论和结构风险原理基础上的,根据有限的样本信息在模型的复杂性(即特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力。

支持向量机的最大特点是根据结构风险最小化准则,以最大化分类间隔构造最优分类超平面来提高学习机的泛化能力,较好地解决了高维数、非线性、局部极小点等问题,在训练样本数目相对较少的情况下也能取得很好的分类效果对于分类问题,支持向量机算法根据区域中的样本计算该区域的决策曲面,由此确定该区域中未知样本的类别。

所得到的结果示于表5。

表5:

支持向量机的性能

结果表明,对于ACC和F1特征,当TF>2时,SVM的性能最好。

另一个结论是,支持向量机对于NB和KNN的F1的平均性能最好。

5.讨论

对于三种机器学习技术之间的比较,在前一节介绍的所有得到的宏观平均F1值,是在以下标准的基础上使用的:

~机器学习技术的整体性能

~获得最佳性能,不论选择的条款的数量

~机器学习技术对于特征的数量的灵敏度

关于第一个标准,它可以从图1观察,10例中有5例SVM的性能优于KNN和Nb,10例中有3例KNN优于NB和SVM,而10例中有2例Nb优于KNN和SVM。

图1机器学习技术Fi宏平均

作为第二准则,可以看到从表3,4,和5,SVM的性能最好的当特征的TF>2时是0.711,KNN算法的性能最好的是当特征的TF>5时0.684,而NB的最佳性能TF>3时0.671,。

从上面的讨论,我们可以得出一个明确的结论,SVM优于KNN和NB,然而,KNN、NB性能相当。

相对于ML技术用于问题表示数的敏感性,它可以从实验中特征的数量变化,通过宏观平均值和微观平均值得到。

换句话说,灵敏度可以被定义和测量,如表6所示。

表6:

机器学习技术对数量的敏感度

从表6中知,支持向量机相比于NB和KNN是比较敏感的,这一变化是用在问题的数量上的表示,而KNN敏感性低值。

6.结论

本文研究了三种机器学习技术的自动分析教师问题的方法的性能

通过区分不同的各自特点。

收集一个数据集的预分类问题,处理和分为训练集和测试集。

对于F1和Acc,对使用这个数据集的KNN,NB和SVM进行了性能评价。

结果显示KNN和NB性能相媲美,SVM性能优越,另外结果显示了三种方法对于特征数量的不同的敏感性。

未来的研究工作将集中在调查更多的机器学习技术和应用更多的特征选择方法。

致谢

这项工作是由沙特王国阿拉伯Najran大学科学研究院长的支持。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 商务科技

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1