一种基于自然语言理解的藏语情感句自动分类系统的制作方法

    专利2022-07-08  122


    本发明涉及藏文情感分析领域,具体涉及一种基于自然语言理解的藏语情感句自动分类系统。



    背景技术:

    自然语言处理是人工智能的基础性工作,包含很多分支,如语音识别、机器翻译、舆情分析等,随着互联网信息技术的飞速发展,尤其是大数据分析技术的不断成熟,近来年,舆情分析地位凸显,成为商业领域把握市场规律和社会领域了解社情民意的重要手段。在这种商业和社会因素的影响下,越来越多的研究者开始关注和研究这一领域。在全球信息技术飞速发展的大背景下,藏文信息处理技术取得了长足的发展,藏语逐渐迈入了互联网时代。由于藏文情感分析起步较晚、基础薄弱,语料不完善等因素客观存在,各方面工作亟需提升,具有很大的研究空间。



    技术实现要素:

    为解决上述问题,本发明提供了一种基于自然语言理解的藏语情感句自动分类系统,实现了藏语情感句的自动分类。

    为实现上述目的,本发明采取的技术方案为:

    一种基于自然语言理解的藏语情感句自动分类系统,包括:

    情感词典构建模块,用于构建包括基础情感词典,程度副词词典,否定和双否定词词典,转折词字典的藏文情感词典;

    藏文断句模块,用于利用藏文句子的句末规则以及藏文复句的特点实现藏文的自动断句,得藏文单句;

    分类模型构建模块,用于基于录入的藏语情感句分类标准和藏文情感词典实现藏语情感句分类模型的构建;

    藏语情感句分类模块,用于基于所述藏语情感句分类模型实现藏文单句情感类型的分类。

    进一步地,所述情感词典构建模块利用爬虫模块在预设的网络基站上定向采集大规模藏文文本信息,然后利用词向量扩充情感词词典的方法对定向采集到的大规模藏文文本进行处理,然后从中自动抽取情感词,用人工和机器学习相结合的方式构建藏文情感词词典。

    进一步把地,所述分类模型构建模块首先基于藏文情感词典对大规模藏文文本信息进行自动标注,生成标注语料,然后利用标注语料和录入的藏语情感句分类标准构建bi-lstm attention模型,即得藏语情感句分类模型。

    进一步地,还包括藏文句型识别模块,用于实现藏文单句句型的识别,不同的藏文单句句型对应不同的大规模藏文文本信息语料。

    进一步地,还包括藏语情感特征提取模块,用于实现藏文单句情感特征的提取,基于卷积神经网络模型实现。

    进一步地,所述卷积神经网络模型基于藏文情感词典训练所得。

    进一步地,所述bi-lstm attention模型在完成藏语情感句分类的同时为每一个藏文单句标记上对应的句型标记。

    进一步地,还包括特殊句型挖掘模块,用于基于句型标记的识别实现藏文特殊句型的挖掘,即实现不存在句型标记(未能成功分类)的藏文单句的挖掘。

    进一步地,还包括人工分类模块,用于通过人工标记分类的方式实现未能成功分类的藏文单句的情感句型分类,并将人工标记生成的新的藏文情感词填充到藏文情感词典内,实现藏文情感词典的更新。

    本发明具有以下有益效果:

    基于网络爬虫技术和机器学习技术构建了包括基础情感词典,程度副词词典,否定和双否定词词典,转折词字典的藏文情感词典,为后续藏语情感句的分类提供基础;

    基于录入的藏语情感句分类标准和藏文情感词典构建bi-lstm attention模型,并基于bi-lstm attention模型实现了藏文单句情感类型的自动精准分类,分类准确率达93.6%左右。

    充分考虑不存在藏文情感词典内的特殊句型,采用人工分类的方式在实现特殊句型藏文情感分类的同时,实现了藏文情感词典的自动更新扩充,从而进一步提高系统分类的准确率和覆盖面。

    附图说明

    图1为本发明实施例1一种基于自然语言理解的藏语情感句自动分类系统的系统框图。

    图2为本发明实施例2一种基于自然语言理解的藏语情感句自动分类系统的系统框图。

    图3为本发明实施例3一种基于自然语言理解的藏语情感句自动分类系统的系统框图。

    具体实施方式

    下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。

    实施例1

    如图1所示,一种基于自然语言理解的藏语情感句自动分类系统,包括:

    情感词典构建模块,用于构建包括基础情感词典,程度副词词典,否定和双否定词词典,转折词字典的藏文情感词典;

    藏文断句模块,用于利用藏文句子的句末规则以及藏文复句的特点实现藏文的自动断句,得藏文单句;

    分类模型构建模块,用于基于录入的藏语情感句分类标准和藏文情感词典实现藏语情感句分类模型的构建;

    藏语情感句分类模块,用于基于所述藏语情感句分类模型实现藏文单句情感类型的分类。

    本实施例中,所述情感词典构建模块利用爬虫模块在预设的网络基站上定向采集大规模藏文文本信息,然后利用词向量扩充情感词词典的方法对定向采集到的大规模藏文文本进行处理,然后从中自动抽取情感词,用人工和机器学习相结合的方式构建藏文情感词词典。

    本实施例中,所述分类模型构建模块首先基于藏文情感词典对大规模藏文文本信息进行自动标注,生成标注语料,然后利用标注语料和录入的藏语情感句分类标准构建bi-lstm attention模型,即得藏语情感句分类模型。所述bi-lstm attention模型在完成藏语情感句分类的同时为每一个藏文单句标记上对应的句型标记。

    实施例2

    如图2所示,一种基于自然语言理解的藏语情感句自动分类系统,包括:

    情感词典构建模块,用于构建包括基础情感词典,程度副词词典,否定和双否定词词典,转折词字典的藏文情感词典;

    藏文断句模块,用于利用藏文句子的句末规则以及藏文复句的特点实现藏文的自动断句,得藏文单句;

    藏文句型识别模块,用于实现藏文单句句型的识别,不同的藏文单句句型对应不同的大规模藏文文本信息语料;

    分类模型构建模块,用于基于录入的藏语情感句分类标准和藏文情感词典实现藏语情感句分类模型的构建;

    藏语情感特征提取模块,用于实现藏文单句情感特征的提取,基于卷积神经网络模型实现;

    藏语情感句分类模块,用于基于所述藏语情感句分类模型和藏文单句情感特征实现藏文单句情感类型的分类。

    本实施例中,所述情感词典构建模块利用爬虫模块在预设的网络基站上定向采集大规模藏文文本信息,然后利用词向量扩充情感词词典的方法对定向采集到的大规模藏文文本进行处理,然后从中自动抽取情感词,用人工和机器学习相结合的方式构建藏文情感词词典。

    本实施例中,所述分类模型构建模块首先基于藏文情感词典对大规模藏文文本信息进行自动标注,生成标注语料,然后利用标注语料和录入的藏语情感句分类标准构建bi-lstm attention模型,即得藏语情感句分类模型。所述bi-lstm attention模型在完成藏语情感句分类的同时为每一个藏文单句标记上对应的句型标记。

    本实施例中,所述卷积神经网络模型基于藏文情感词典训练所得。

    实施例3

    如图3所示,一种基于自然语言理解的藏语情感句自动分类系统,包括:

    情感词典构建模块,用于构建包括基础情感词典,程度副词词典,否定和双否定词词典,转折词字典的藏文情感词典;

    藏文断句模块,用于利用藏文句子的句末规则以及藏文复句的特点实现藏文的自动断句,得藏文单句;

    藏文句型识别模块,用于实现藏文单句句型的识别,不同的藏文单句句型对应不同的大规模藏文文本信息语料;

    分类模型构建模块,用于基于录入的藏语情感句分类标准和藏文情感词典实现藏语情感句分类模型的构建;

    藏语情感特征提取模块,用于实现藏文单句情感特征的提取,基于卷积神经网络模型实现;

    藏语情感句分类模块,用于基于所述藏语情感句分类模型和藏文单句情感特征实现藏文单句情感类型的分类;

    特殊句型挖掘模块,用于基于句型标记的识别实现藏文特殊句型的挖掘,即实现不存在句型标记(未能成功分类)的藏文单句的挖掘。

    人工分类模块,用于通过人工标记分类的方式实现未能成功分类的藏文单句的情感句型分类,并将人工标记生成的新的藏文情感词填充到藏文情感词典内,实现藏文情感词典的更新;

    中央处理模块,用于协调上述模块工作。

    本实施例中,所述情感词典构建模块利用爬虫模块在预设的网络基站上定向采集大规模藏文文本信息,然后利用词向量扩充情感词词典的方法对定向采集到的大规模藏文文本进行处理,然后从中自动抽取情感词,用人工和机器学习相结合的方式构建藏文情感词词典。

    本实施例中,所述分类模型构建模块首先基于藏文情感词典对大规模藏文文本信息进行自动标注,生成标注语料,然后利用标注语料和录入的藏语情感句分类标准构建bi-lstm attention模型,即得藏语情感句分类模型。所述bi-lstm attention模型在完成藏语情感句分类的同时为每一个藏文单句标记上对应的句型标记。

    本实施例中,所述卷积神经网络模型基于藏文情感词典训练所得。

    以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。


    技术特征:

    1.一种基于自然语言理解的藏语情感句自动分类系统,其特征在于:包括:

    情感词典构建模块,用于构建包括基础情感词典,程度副词词典,否定和双否定词词典,转折词字典的藏文情感词典;

    藏文断句模块,用于利用藏文句子的句末规则以及藏文复句的特点实现藏文的自动断句,得藏文单句;

    分类模型构建模块,用于基于录入的藏语情感句分类标准和藏文情感词典实现藏语情感句分类模型的构建;

    藏语情感句分类模块,用于基于所述藏语情感句分类模型实现藏文单句情感类型的分类。

    2.如权利要求1所述的一种基于自然语言理解的藏语情感句自动分类系统,其特征在于:所述情感词典构建模块利用爬虫模块在预设的网络基站上定向采集大规模藏文文本信息,然后利用词向量扩充情感词词典的方法对定向采集到的大规模藏文文本进行处理,然后从中自动抽取情感词,用人工和机器学习相结合的方式构建藏文情感词词典。

    3.如权利要求1所述的一种基于自然语言理解的藏语情感句自动分类系统,其特征在于:所述分类模型构建模块首先基于藏文情感词典对大规模藏文文本信息进行自动标注,生成标注语料,然后利用标注语料和录入的藏语情感句分类标准构建bi-lstm attention模型,即得藏语情感句分类模型。

    4.如权利要求1所述的一种基于自然语言理解的藏语情感句自动分类系统,其特征在于:还包括藏文句型识别模块,用于实现藏文单句句型的识别,不同的藏文单句句型对应不同的大规模藏文文本信息语料。

    5.如权利要求1所述的一种基于自然语言理解的藏语情感句自动分类系统,其特征在于:还包括藏语情感特征提取模块,用于实现藏文单句情感特征的提取,基于卷积神经网络模型实现。

    6.如权利要求1所述的一种基于自然语言理解的藏语情感句自动分类系统,其特征在于:所述卷积神经网络模型基于藏文情感词典训练所得。

    7.如权利要求1所述的一种基于自然语言理解的藏语情感句自动分类系统,其特征在于:所述bi-lstm attention模型在完成藏语情感句分类的同时为每一个藏文单句标记上对应的句型标记。

    8.如权利要求1所述的一种基于自然语言理解的藏语情感句自动分类系统,其特征在于:还包括特殊句型挖掘模块,用于基于句型标记的识别实现藏文特殊句型的挖掘,即实现不存在句型标记(未能成功分类)的藏文单句的挖掘。

    9.如权利要求1所述的一种基于自然语言理解的藏语情感句自动分类系统,其特征在于:还包括人工分类模块,用于通过人工标记分类的方式实现未能成功分类的藏文单句的情感句型分类,并将人工标记生成的新的藏文情感词填充到藏文情感词典内,实现藏文情感词典的更新。

    技术总结
    本发明公开了一种基于自然语言理解的藏语情感句自动分类系统,包括:情感词典构建模块,用于构建包括基础情感词典,程度副词词典,否定和双否定词词典,转折词字典的藏文情感词典;藏文断句模块,用于利用藏文句子的句末规则以及藏文复句的特点实现藏文的自动断句,得藏文单句;分类模型构建模块,用于基于录入的藏语情感句分类标准和藏文情感词典实现藏语情感句分类模型的构建;藏语情感句分类模块,用于基于所述藏语情感句分类模型实现藏文单句情感类型的分类。本发明基于录入的藏语情感句分类标准和藏文情感词典构建Bi‑LSTM Attention模型,并基于模型实现了藏文单句情感类型的自动精准分类,分类准确率达93.6%左右。

    技术研发人员:华却才让
    受保护的技术使用者:青海师范大学
    技术研发日:2021.01.25
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-20080.html

    最新回复(0)