本发明涉及人工智能领域,尤其涉及一种标签化的试题知识点分类方法及系统。
背景技术:
随着互联网在线教育的普及,越来越多人的选择在线学习。但随着人们对学习资源的需求以及要求的不断增多,网络中的资源极度膨胀,这为学习者寻找合适的学习资源带来了不小的挑战。如何更好地依据学习者的需求从海量学习资源中寻找到合适的资源,从而有效地提高学习资源的利用率以及学习者的学习效率,一直是大家关注的热点问题。学习中,无论是课件还是试题,都有一定的针对性,一定的知识点和相适应的群体。采取合理的分类,简单的标记,即标签。标签与资源紧密连接,并在此基础上逐步形成标签的推荐机制,标签和学习内容相结。
小学教学领域,尤其是课件与试题标签化,标签可以更好地帮助挖掘数据库中实际内容,用户不再需要盲目的选择就可以捕获到实质内容;标签可以帮助海量内容的选择和过滤,也是自适应教学核心内容之一。
技术实现要素:
现有技术无法做到对语言类试题的知识分类及标注,为了解决现有技术的问题,本发明提供了一种标签化的试题知识点分类方法及系统,从自研的多维度立体知识模型出发,通过对试题的类别、知识、属性、表达方式等进行多角度分析、标签化,从而使试题匹配到现有模型的知识节点中,达到试题知识点分类、标签化的最终结果。所述技术方案如下:
一方面,提供了一种标签化的试题知识点分类方法,包括以下步骤:
s1、将待分类的目标试题的信息转换成预设的标准格式的文本;
s2、从转换得到的文本中提取关键词;
s3、根据所述关键词,确定所述目标试题在预构建的知识点的多维度立体模型中对应的知识节点,所述知识点的多维度立体模型的构建方法为:根据教材目录和/或领域知识将知识点分解成最小颗粒,将最小颗粒本身或者多个颗粒联结作为知识节点,及/或将知识节点与最小颗粒、或者多个知识节点联结构成新的知识节点,每个知识节点包含一个用于存储对应试题的数据库,所述知识节点的总和构成所述知识点的多维度立体模型;
s4、建立所述目标试题的标签,所述标签包括一个或多个关键词标签、一个或多个知识节点标签;
s5、对比所述目标试题的关键词标签与对应知识节点的数据库中的试题,计算所述目标试题与对应的知识节点的关联度;
s6、若所述目标试题仅与一个知识节点的关联度超过预设的关联度阈值,则将该目标试题归属至该知识节点对应试题的数据库中。
进一步地,步骤s5中所述目标试题与对应的知识节点的关联度通过以下步骤进行计算:
根据公式kia1*qia1计算第i个关键词标签与其中一个知识节点的关联度,其中,kia1为第i个关键词与在该知识节点出现的频率,qia1为包含第i个关键词的试题在该知识节点出现的频率;
对所述目标试题的每一个关键词标签与该知识节点的关联度求平均值,得到该目标试题与该知识节点的关联度。
进一步地,所述第i个关键词与在该知识节点出现的频率的计算公式为:该知识节点内包含该关键词的试题数量/该知识节点内所有试题数量;
所述包含第i个关键词的试题在该知识节点出现的频率的计算公式为:该知识节点内包含该关键词的试题数量/包含该关键词的所有试题数量。
进一步地,步骤s3中对应的知识节点通过以下方式确定:
在所述知识点的多维度立体模型中按序搜索目标试题的第一个关键词,确定一个或多个知识节点作为第一个关键词的可能位置;
依次对剩余关键词确定各自的可能位置;
对所有关键词的可能位置进行比较,选择重复度最高的知识节点作为目标试题对应的知识节点。
进一步地,若所述目标试题与多个或零个知识节点的关联度超过预设的关联度阈值,则将所述目标试题放入待定知识节点数据库。
进一步地,定期更新知识节点每一个标签的出现频率、比重、相关度和关联度。
进一步地,步骤s6之后还包括:为后续的个性化推荐、筛选或过滤教学资源提供参考依据。
进一步地,步骤s1中将待分类的目标试题的题目、答案、解题步骤和辅助方法转换成预设的标准格式的文本。
另一方面,本发明提供了一种标签化的试题知识点分类系统,包括以下模块:
格式转换模块,用于将待分类的目标试题的信息转换成预设的标准格式的文本;
关键词提取模块,用于从转换得到的文本中提取关键词;
知识节点确定模块,用于根据所述关键词,确定所述目标试题在预构建的知识点的多维度立体模型中对应的知识节点,所述知识点的多维度立体模型的构建方法为:根据教材目录和/或领域知识将知识点分解成最小颗粒,将最小颗粒本身或者多个颗粒联结作为知识节点,及/或将知识节点与最小颗粒、或者多个知识节点联结构成新的知识节点,每个知识节点包含一个用于存储对应试题的数据库,所述知识节点的总和构成所述知识点的多维度立体模型;
标签建立模块,用于建立所述目标试题的标签,所述标签包括一个或多个关键词标签、一个或多个知识节点标签;
对比模块,用于对比所述目标试题的关键词标签与对应知识节点的数据库中的试题,计算所述目标试题与对应的知识节点的关联度;
分类模块,用于在所述目标试题仅与一个知识节点的关联度超过预设的关联度阈值的前提下,将该目标试题归属至该知识节点对应试题的数据库中。
进一步地,所述对比模块包括关联度计算单元,用于:
根据公式kia1*qia1计算第i个关键词标签与其中一个知识节点的关联度,其中,kia1为第i个关键词与在该知识节点出现的频率,qia1为包含第i个关键词的试题在该知识节点出现的频率;
对所述目标试题的每一个关键词标签与该知识节点的关联度求平均值,得到该目标试题与该知识节点的关联度。
本发明提供的技术方案带来的有益效果如下:
a)基于多维度立体知识模型,能够匹配与目标试题对应的知识节点;
b)在可能的多个知识节点中,通过对比模型来比对目标试题与所有可能知识节点的关联度,从而得到分类结果;
c)数据库定期更新知识节点的标签出现频率等信息,紧跟大数据试题变化,确保标签的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的标签化的试题知识点分类方法的数据流图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
本发明收集不同学科知识点以及学科词汇,形成不同学科的知识点的多维度立体模型;将待获取标签(待分类)的目标试题写成标准格式的文本;提取文本中的关键词,并根据所述关键词与所述多维度立体模型的关联关系,确定所述试题所属的学科词汇及知识点;建立对应所述题库的标签,人工检查待验证的标签,修改标签的信息,此外,系统会定期校验标签,确保标签的准确性(重新计算每一道试题和该试题所处知识节点的关联度,随着知识节点内试题数量的增加,关联度也会改变,定期校验会将关联度低于标准值的试题分入该知识节点数据库的“待验证”,等待人工校验);该方法生成的标签为后续的个性化推荐提供依据,筛选或过滤教学资源提供参考依据。
在本发明的一个实施例中,提供了一种标签化的试题知识点分类方法,参见图1,分类方法包括以下步骤:
s1、将待分类的目标试题的信息转换成预设的标准格式的文本,具体地,所述目标试题的信息包括目标试题的题目、答案、解题步骤和辅助方法。
例如“相交”问题中的关键句,可以转换成标准格式的文本有多种,“___、___相交于x”,“___分别交___、___于x、y”、“___、___相交于x”、“___、___的延长线相交于x”、“___、___、___相交于x”、“过点a作直线交___于x、交___于y”、“过点a、带你b作直线交___于x、交___于y”,根据目标试题选择相似度最高的一种文本。
s2、从转换得到的文本中提取关键词;
s3、根据所述关键词,确定所述目标试题在预构建的知识点的多维度立体模型中对应的知识节点,所述知识点的多维度立体模型的构建方法为:根据教材目录和/或领域知识将知识点分解成最小颗粒,将最小颗粒本身或者多个颗粒联结作为知识节点,及/或将知识节点与最小颗粒、或者多个知识节点联结构成新的知识节点,每个知识节点包含一个用于存储对应试题的数据库,所述知识节点的总和构成所述知识点的多维度立体模型。
具体地,所述多维度立体知识模型是将小学知识点分解成最小颗粒,其中有概念维度上的,例如,小学数学可分为数与计算、量与计量、空间与几何、比与比例、统计、代数,其中,空间与几何可分为空间、几何图形,几何图形可分为立体图形与平面图形,平面图形可分为线段、直线、圆形、三角形、四边形、多边形等,三角形可分解为普通三角形,等腰三角形,等腰三角形可分为普通等腰三角形,等边三角形;而所有立体图形和平面图形共有的属性则是另一个维度上的分类和分解,如体积、面积、周长、角度等,角度可分为锐角,直角,钝角,平角,周角。最小颗粒本身可作为一个知识节点,而颗粒与颗粒的联结,可构成新的知识节点,知识节点与颗粒,知识节点与知识节点的联结,再次构成新的知识节点,如三角形中的普通等腰三角形和角度中的直角联结,构成等腰直角三角形,可以再次和面积联结,构成等腰三角形的面积这一知识节点,选取贴近小学初中教学大纲的知识节点作为重要节点,从而实现节点分级。第三个维度则是应用程序与应用方法,这个维度依托于前两个维度,当前两个维度完全建立后,针对每一个知识节点,构建第三个维度,如等腰三角形的面积这一知识节点,其应用程序与方法可分为顺序条件,逆序条件,顺序条件就是通过题目条件推算出该等腰三角形的基本量,从而运用面积公式计算出面积,逆序条件就是通过等量替换或倒推法计算出面积。
具体地,对应的知识节点通过以下方式确定:
首先在多维度立体知识模型中自上而下的搜索目标试题的第一个关键词,然后在进行自下而上的搜索,重复的一个或多个知识节点就是第一个关键词的可能位置,然后依次将剩余关键词确定可能位置,最后,将所有关键词的可能位置进行比较,所有重复的知识节点就是目标试题的可能知识节点。
s4、建立所述目标试题的标签,所述标签包括一个或多个关键词标签、一个或多个知识节点标签;
s5、对比所述目标试题的关键词标签与对应知识节点的数据库中的试题,计算所述目标试题与对应的知识节点的关联度;
具体地,所述目标试题与对应的知识节点的关联度通过以下步骤进行计算:
根据公式kia1*qia1计算第i个关键词标签与其中一个知识节点的关联度,其中,kia1为第i个关键词与在该知识节点出现的频率(该知识节点内包含第i个关键词的试题数量/该知识节点内所有试题数量),qia1为包含第i个关键词的试题在该知识节点出现的频率(该知识节点内包含第i个关键词的试题数量/包含第i个关键词的所有试题数量);对所述目标试题的每一个关键词标签与该知识节点的关联度求平均值,得到该目标试题与该知识节点的关联度。
具体地,每一个知识节点包含一个数据库,数据库中存储大量试题,首先比较目标试题的第一个关键词在第一个可能知识节点出现的频率k1a1(知识节点内包含该关键词的试题/知识节点内所有试题)以及包含该关键词的试题在第一个可能知识节点出现的频率(知识节点内包含该关键词的试题/所有包含该关键词的试题)q1a1,那么第一个关键词和第一个可能知识节点的的关联度就是k1a1*q1a1,同理,第二个关键词和第一个可能知识节点的关联度就是k2a1*q2a1,第三个关键词和第一个可能知识节点的关联度就是k3a1*q3a1。当所有关键词和第一个可能知识节点比对完之后,可以得到目标试题和第一个可能知识节点的关联度kq1(各关键词和该知识节点关联度的平均值)。
接下来比较目标试题和第二个可能知识节点的关联度,相同的逻辑,先比较目标试题的第一个关键词在第二个可能知识节点出现的频率k1a2(知识节点内包含该关键词的试题/知识节点内所有试题)以及包含该关键词的试题在第二个可能知识节点出现的频率(知识节点内包含该关键词的试题/所有包含该关键词的试题)q1a2,那么第二个关键词和第二个可能知识节点的的关联度就是k1a2*q1a2,同理,第二个关键词和第二个可能知识节点的关联度就是k2a2*q2a2,第三个关键词和第二个可能知识节点的关联度就是k3a2*q3a2。当所有关键词和第二个可能知识节点比对完之后,可以得到目标试题和第二个可能知识节点的关联度kq2。
重复上述计算,就可以得到目标试题和所有对应的知识节点的关联度。
s6、若所述目标试题仅与一个知识节点的关联度超过预设的关联度阈值,则将该目标试题归属至该知识节点对应试题的数据库中。
若所述目标试题与多个或零个知识节点的关联度超过预设的关联度阈值,则将所述目标试题放入待定知识节点数据库,可以等待专家人工分析校验和分类。
在本发明的一个优选实施例中,定期更新知识节点每一个标签的出现频率、比重、相关度和关联度;为后续的个性化推荐、筛选或过滤教学资源提供参考依据。
在本发明的一个实施例中,本发明提供了一种标签化的试题知识点分类系统,包括以下模块:
格式转换模块,用于将待分类的目标试题的信息转换成预设的标准格式的文本;
关键词提取模块,用于从转换得到的文本中提取关键词;
知识节点确定模块,用于根据所述关键词,确定所述目标试题在预构建的知识点的多维度立体模型中对应的知识节点,所述知识点的多维度立体模型的构建方法为:根据教材目录和/或领域知识将知识点分解成最小颗粒,将最小颗粒本身或者多个颗粒联结作为知识节点,及/或将知识节点与最小颗粒、或者多个知识节点联结构成新的知识节点,每个知识节点包含一个用于存储对应试题的数据库,所述知识节点的总和构成所述知识点的多维度立体模型;
标签建立模块,用于建立所述目标试题的标签,所述标签包括一个或多个关键词标签、一个或多个知识节点标签;
对比模块,用于对比所述目标试题的关键词标签与对应知识节点的数据库中的试题,计算所述目标试题与对应的知识节点的关联度;
分类模块,用于在所述目标试题仅与一个知识节点的关联度超过预设的关联度阈值的前提下,将该目标试题归属至该知识节点对应试题的数据库中。
进一步地,所述对比模块包括关联度计算单元,用于:
根据公式kia1*qia1计算第i个关键词标签与其中一个知识节点的关联度,其中,kia1为第i个关键词与在该知识节点出现的频率,qia1为包含第i个关键词的试题在该知识节点出现的频率;
对所述目标试题的每一个关键词标签与该知识节点的关联度求平均值,得到该目标试题与该知识节点的关联度。
本发明对试题进行标签化,帮助海量学习内容的筛选过滤,为自适应教学提供依据。
需要说明的是:本实施例提供的标签化的试题知识点分类系统在进行标签化的试题知识点分类时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将标签化的试题知识点分类系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,本实施例提供的标签化的试题知识点分类系统实施例与上述实施例提供的标签化的试题知识点分类方法实施例属于同一构思,其具体实现过程详见方法实施例,在此通过全部引用的方式将标签化的试题知识点分类方法实施例的全部内容并入本标签化的试题知识点分类系统实施例,而不再赘述。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
1.一种标签化的试题知识点分类方法,其特征在于,包括以下步骤:
s1、将待分类的目标试题的信息转换成预设的标准格式的文本;
s2、从转换得到的文本中提取关键词;
s3、根据所述关键词,确定所述目标试题在预构建的知识点的多维度立体模型中对应的知识节点,所述知识点的多维度立体模型的构建方法为:根据教材目录和/或领域知识将知识点分解成最小颗粒,将最小颗粒本身或者多个颗粒联结作为知识节点,及/或将知识节点与最小颗粒、或者多个知识节点联结构成新的知识节点,每个知识节点包含一个用于存储对应试题的数据库,所述知识节点的总和构成所述知识点的多维度立体模型;
s4、建立所述目标试题的标签,所述标签包括一个或多个关键词标签、一个或多个知识节点标签;
s5、对比所述目标试题的关键词标签与对应知识节点的数据库中的试题,计算所述目标试题与对应的知识节点的关联度;
s6、若所述目标试题仅与一个知识节点的关联度超过预设的关联度阈值,则将该目标试题归属至该知识节点对应试题的数据库中。
2.根据权利要求1所述的标签化的试题知识点分类方法,其特征在于,步骤s5中所述目标试题与对应的知识节点的关联度通过以下步骤进行计算:
根据公式kia1*qia1计算第i个关键词标签与其中一个知识节点的关联度,其中,kia1为第i个关键词与在该知识节点出现的频率,qia1为包含第i个关键词的试题在该知识节点出现的频率;
对所述目标试题的每一个关键词标签与该知识节点的关联度求平均值,得到该目标试题与该知识节点的关联度。
3.根据权利要求2所述的标签化的试题知识点分类方法,其特征在于,所述第i个关键词与在该知识节点出现的频率的计算公式为:该知识节点内包含该关键词的试题数量/该知识节点内所有试题数量;
所述包含第i个关键词的试题在该知识节点出现的频率的计算公式为:该知识节点内包含该关键词的试题数量/包含该关键词的所有试题数量。
4.根据权利要求1所述的标签化的试题知识点分类方法,其特征在于,步骤s3中对应的知识节点通过以下方式确定:
在所述知识点的多维度立体模型中按序搜索目标试题的第一个关键词,确定一个或多个知识节点作为第一个关键词的可能位置;
依次对剩余关键词确定各自的可能位置;
对所有关键词的可能位置进行比较,选择重复度最高的知识节点作为目标试题对应的知识节点。
5.根据权利要求1所述的标签化的试题知识点分类方法,其特征在于,若所述目标试题与多个或零个知识节点的关联度超过预设的关联度阈值,则将所述目标试题放入待定知识节点数据库。
6.根据权利要求1所述的标签化的试题知识点分类方法,其特征在于,定期更新知识节点每一个标签的出现频率、比重、相关度和关联度。
7.根据权利要求1所述的标签化的试题知识点分类方法,其特征在于,步骤s6之后还包括:为后续的个性化推荐、筛选或过滤教学资源提供参考依据。
8.根据权利要求1所述的标签化的试题知识点分类方法,其特征在于,步骤s1中将待分类的目标试题的题目、答案、解题步骤和辅助方法转换成预设的标准格式的文本。
9.一种标签化的试题知识点分类系统,其特征在于,包括以下模块:
格式转换模块,用于将待分类的目标试题的信息转换成预设的标准格式的文本;
关键词提取模块,用于从转换得到的文本中提取关键词;
知识节点确定模块,用于根据所述关键词,确定所述目标试题在预构建的知识点的多维度立体模型中对应的知识节点,所述知识点的多维度立体模型的构建方法为:根据教材目录和/或领域知识将知识点分解成最小颗粒,将最小颗粒本身或者多个颗粒联结作为知识节点,及/或将知识节点与最小颗粒、或者多个知识节点联结构成新的知识节点,每个知识节点包含一个用于存储对应试题的数据库,所述知识节点的总和构成所述知识点的多维度立体模型;
标签建立模块,用于建立所述目标试题的标签,所述标签包括一个或多个关键词标签、一个或多个知识节点标签;
对比模块,用于对比所述目标试题的关键词标签与对应知识节点的数据库中的试题,计算所述目标试题与对应的知识节点的关联度;
分类模块,用于在所述目标试题仅与一个知识节点的关联度超过预设的关联度阈值的前提下,将该目标试题归属至该知识节点对应试题的数据库中。
10.根据权利要求9所述的标签化的试题知识点分类系统,其特征在于,所述对比模块包括关联度计算单元,用于:
根据公式kia1*qia1计算第i个关键词标签与其中一个知识节点的关联度,其中,kia1为第i个关键词与在该知识节点出现的频率,qia1为包含第i个关键词的试题在该知识节点出现的频率;
对所述目标试题的每一个关键词标签与该知识节点的关联度求平均值,得到该目标试题与该知识节点的关联度。
技术总结