一种面向企业需求的专家推荐方法、装置、介质及设备与流程

    专利2022-07-08  85


    本公开涉及计算机网络信息技术领域,更为具体来说,本公开涉及一种面向企业需求的专家推荐方法、装置、介质及设备。



    背景技术:

    随着大数据、云计算、物联网等技术的快速突破,全球新一轮科技革命和产业变革蓄势待发,我国提出要实施创新驱动发展战略,加快传统产业转型,建立以企业为主体、以市场为导向、产学研结合的创新体系,让企业成为技术创新主体。

    领域顶尖人才是企业创新的保证,但目前很多企业在遇到领域技术难题时会面临内部人才储备不足,亟需求助外部专家。高校作为我国科研的主阵地,拥有大量极具科技创新力的人才,能够为企业解决技术难题提供充足的专家资源。目前部分企业会利用关系网,通过权威推荐获取领域人才;或者根据领域关键词检索科研成果,再根据其作者信息获取相关专家。前者过度依赖社会资源,仅适用于某些知名企业,对于中小企业来说局限性较大。而后者存在机械匹配字词、缺乏特征的缺点,导致查重率与查全率均偏低。这也造成了企业无法及时、准确发掘本领域专家,导致知识与产业之间难以精准对接。



    技术实现要素:

    为解决现有技术不能满足用户对于专家推荐需求的技术问题。

    为实现上述技术目的,本公开提供了一种面向企业需求的专家推荐方法,包括:

    收集专家论文数据和企业需求数据;

    对收集到的所述专家论文数据和所述企业需求数据进行预处理,得到专家信息和需求信息;

    对预处理后的所述专家信息和所述需求信息进行关键词提取得到专家特征信息和需求特征信息;

    根据关键词提取后的所述专家特征信息和所述需求特征信息构建特征向量模型;

    根据所述特征向量模型中的特征向量进行相似度计算分析得到专家推荐结果。

    进一步,所述收集专家论文数据和企业需求数据具体包括:

    根据论文数据库收集专家论文的题目、摘要和/或关键词数据以及选择在线互联网网站收集企业需求的标题、关键词和/或需求详情数据。

    进一步,所述对收集到的所述专家论文数据和所述企业需求数据进行预处理具体包括:

    采用ltp模型对所述专家论文数据和所述企业需求数据分别进行分词得到专家分词数据和企业分词数据;

    在分词后的所述专家分词数据和所述企业分词数据中去除停用词;

    对去除停用词后的数据中的重复信息进行合并处理分别得到专家信息和需求信息。

    进一步,所述对预处理后的所述专家信息和所述需求信息进行关键词提取具体包括:

    采用lda模型分别对所述专家信息和所述需求信息进行关键词抽取,获取每条专家信息和每条需求信息的关键词列表以作为所述专家特征信息和所述需求特征信息。

    进一步,所述根据关键词提取后的所述专家特征信息和所述需求特征信息构建特征向量模型具体包括:

    对所述专家特征信息和所述需求特征信息利用tf-idf算法进行特征提取得到信息主题词;

    对所述信息主题词进行特征选择并基于选择后的特征主题词构建特征向量以及特征向量模型。

    进一步,所述根据所述特征向量模型中的特征向量进行相似度计算分析得到专家推荐结果具体包括:

    根据所述特征向量模型中的特征向量在余弦相似度分析的基础上结合文本相同特征词数量占文本特征向量总长度的比例这一计算因子计算分析得到专家推荐结果;

    其中,所述相似度分析采用如下公式计算得到:

    其中,c为比例调节系数,n(d,e)表示需求信息d与专家信息e中相同特征词的数量,min(d,e)表示需求信息d特征总数和专家信息e特征总数中较少者,sim(d,e)表示需求信息d和专家信息e的余弦相似度。

    为实现上述技术目的,本公开还能够提供一种面向企业需求的专家推荐装置,包括:

    数据收集模块,用于收集专家论文数据和企业需求数据;

    预处理模块,用于对收集到的所述专家论文数据和所述企业需求数据进行预处理,得到专家信息和需求信息;

    关键词提取模块,用于对预处理后的所述专家信息和所述需求信息进行关键词提取得到专家特征信息和需求特征信息;

    向量模型构建模块,用于根据关键词提取后的所述专家特征信息和所述需求特征信息构建特征向量模型;

    相似度分析模块,用于根据所述特征向量模型中的特征向量进行相似度计算分析得到专家推荐结果。

    进一步,所述收集专家论文数据和企业需求数据具体包括:

    根据论文数据库收集专家论文的题目、摘要和/或关键词数据以及选择在线互联网网站收集企业需求的标题、关键词和/或需求详情数据。

    为实现上述技术目的,本公开还能够提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时用于实现上述的面向企业需求的专家推荐方法的步骤。

    为实现上述技术目的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的面向企业需求的专家推荐方法的步骤。

    本公开的有益效果为:

    本公开提供了一种基于lda主题模型的企业专家推荐方法,该方法采用主题模型对专家信息和企业需求进行特征提取,基于特征关键词分别构建专家领域特征向量和企业需求特征向量,基于两者的相似度为企业推荐相关领域专家,从而有效避免了机械检索的语义漂移问题。

    附图说明

    图1示出了本公开的实施例1的流程示意图;

    图2示出了本公开的实施例3的结构示意图;

    图3示出了本公开的实施例4的结构示意图。

    具体实施方式

    以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。

    在附图中示出了根据本公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

    本公开涉及的术语解释:

    tf-idf:termfrequency–inversedocumentfrequency,是一种用于信息检索与数据挖掘的常用加权技术。tf是词频(termfrequency),idf是逆文本频率指数(inversedocumentfrequency)。

    lda:latentdirichletallocation。

    ltp:语言技术平台(languagetechnologyplatform,ltp)。

    实施例一:

    如图1所示:

    本公开提供了一种面向企业需求的专家推荐方法,包括:

    s1:收集专家论文数据和企业需求数据;

    具体地,所述收集专家论文数据和企业需求数据具体包括:

    根据论文数据库收集专家论文的题目、摘要和/或关键词数据以及选择在线互联网网站收集企业需求的标题、关键词和/或需求详情数据。

    优选地,本公开的技术方案选取cnki、万方、aminer等平台作为获取专家文档信息的信息源,收集专家发表的论文的题目、摘要、论文关键词等信息。选用科学家在线网站作为企业需求信息获取数据源,收集需求的标题、需求的关键词和需求详情等信息。

    s2:对收集到的所述专家论文数据和所述企业需求数据进行预处理,得到专家信息和需求信息;

    具体地,所述对收集到的所述专家论文数据和所述企业需求数据进行预处理具体包括:

    采用ltp模型对所述专家论文数据和所述企业需求数据分别进行分词得到专家分词数据和企业分词数据;

    在分词后的所述专家分词数据和所述企业分词数据中去除停用词;

    对去除停用词后的数据中的重复信息进行合并处理分别得到专家信息和需求信息。

    本公开的预处理中的分词和去除停用词均为自然语言处理领域常用的处理方法,除了上述的实现方式外还可以采用如条件随机场crf对所述专家论文数据和所述企业需求数据分别进行分词得到专家分词数据和企业分词数据。

    s3:对预处理后的所述专家信息和所述需求信息进行关键词提取得到专家特征信息和需求特征信息;

    具体地,所述对关键词提取后的所述专家特征信息和所述需求特征信息进行关键词提取具体包括:

    采用lda模型分别对所述专家特征信息和所述需求特征信息进行关键词抽取,获取每条专家信息和每条需求信息的关键词列表以作为所述专家特征信息和所述需求特征信息。

    lda(latentdirichletallocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。

    lda是一种非监督机器学习技术,可以用来识别大规模文档集(documentcollection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bagofwords)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。

    对于语料库中的每篇文档,lda定义了如下生成过程:

    1.对每一篇文档,从主题分布中抽取一个主题;

    2.从上述被抽到的主题所对应的单词分布中抽取一个单词;

    3.重复上述过程直至遍历文档中的每一个单词。

    语料库中的每一篇文档与t(通过反复试验等方法事先给定)个主题的一个多项分布相对应,将该多项分布记为θ。每个主题又与词汇表中的v个单词的一个多项分布相对应,将这个多项分布记为

    先定义一些字母的含义:文档集合d,主题(topic)集合t

    d中每个文档d看作一个单词序列<w1,w2,...,wn>,wi表示第i个单词,设d有n个单词。(lda里面称之为wordbag,实际上每个单词的出现位置对lda算法无影响)

    d中涉及的所有不同单词组成一个大集合vocabulary(简称voc),lda以文档集合d作为输入,希望训练出的两个结果向量(设聚成k个topic,voc中共包含m个词):

    对每个d中的文档d,对应到不同topic的概率θd<pt1,...,ptk>,其中,pti表示d对应t中第i个topic的概率。计算方法是直观的,pti=nti/n,其中nti表示d中对应第i个topic的词的数目,n是d中所有词的总数。

    对每个t中的topict,生成不同单词的概率其中,pwi表示t生成voc中第i个单词的概率。计算方法同样很直观,pwi=nwi/n,其中nwi表示对应到topict的voc中第i个单词的数目,n表示所有对应到topict的单词总数。

    lda的核心公式如下:

    p(w|d)=p(w|t)*p(t|d)

    直观的看这个公式,就是以topic作为中间层,可以通过当前的θd和给出了文档d中出现单词w的概率。其中p(t|d)利用θd计算得到,p(w|t)利用计算得到。

    实际上,利用当前的θd和我们可以为一个文档中的一个单词计算它对应任意一个topic时的p(w|d),然后根据这些结果来更新这个词应该对应的topic。然后,如果这个更新改变了这个单词所对应的topic,就会反过来影响θd和

    lda算法开始时,先随机地给θd和赋值(对所有的d和t)。然后上述过程不断重复,最终收敛到的结果就是lda的输出。再详细说一下这个迭代的学习过程:

    1.针对一个特定的文档ds中的第i单词wi,如果令该单词对应的topic为tj,可以把上述公式改写为:

    pj(wi|ds)=p(wi|tj)*p(tj|ds)

    2.现在我们可以枚举t中的topic,得到所有的pj(wi|ds),其中j取值1~k。然后可以根据这些概率值结果为ds中的第i个单词wi选择一个topic。最简单的想法是取令pj(wi|ds)最大的tj(注意,这个式子里只有j是变量),即argmax[j]pj(wi|ds)

    3.然后,如果ds中的第i个单词wi在这里选择了一个与原先不同的topic,就会对θd和有影响了(根据前面提到过的这两个向量的计算公式可以很容易知道)。它们的影响又会反过来影响对上面提到的p(w|d)的计算。对d中所有的d中的所有w进行一次p(w|d)的计算并重新选择topic看作一次迭代。这样进行n次循环迭代之后,就会收敛到lda所需要的结果了。

    s4:根据预处理后的所述专家信息和所述需求信息构建特征向量模型;

    具体地,所述根据预处理后的所述专家信息和所述需求信息构建特征向量模型具体包括:

    对所述专家信息和所述需求信息利用tf-idf算法进行特征提取得到信息主题词;

    对所述信息主题词进行特征选择并基于选择后的特征主题词构建特征向量以及特征向量模型。

    tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。tf-idf加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了tf-idf以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。

    tfidf的主要思想是:如果某个词或短语在一篇文章中出现的频率tf高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。tfidf实际上是:tf*idf,tf词频(termfrequency),idf逆向文件频率(inversedocumentfrequency)。tf表示词条在文档d中出现的频率。idf的主要思想是:如果包含词条t的文档越少,也就是n越小,idf越大,则说明词条t具有很好的类别区分能力。如果某一类文档c中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m k,当m大的时候,n也大,按照idf公式得到的idf的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是idf的不足之处.在一份给定的文件里,词频(termfrequency,tf)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(termcount)的归一化,以防止它偏向长的文件。

    s5:根据所述特征向量模型中的特征向量进行相似度计算分析得到专家推荐结果。

    具体地,所述根据所述特征向量模型中的特征向量进行相似度计算分析得到专家推荐结果具体包括:

    根据所述特征向量模型中的特征向量在余弦相似度分析的基础上结合文本相同特征词数量占文本特征向量总长度的比例这一计算因子计算分析得到专家推荐结果;

    其中,所述相似度分析采用如下公式计算得到:

    其中,c为比例调节系数,n(d,e)表示需求信息d与专家信息e中相同特征词的数量,min(d,e)表示需求信息d特征总数和专家信息e特征总数中较少者,sim(d,e)表示需求信息d和专家信息e的余弦相似度。

    所述余弦相似度的计算过程如下所示:

    其中vt,a和vt,b分别为向量a和b的第t个特征词的权值。

    实施例二:

    如图2所示:

    本公开还提供了一种面向企业需求的专家推荐装置,包括:

    数据收集模块201,用于收集专家论文数据和企业需求数据;

    预处理模块202,用于对收集到的所述专家论文数据和所述企业需求数据进行预处理,得到专家信息和需求信息;

    关键词提取模块203,用于对预处理后的所述专家信息和所述需求信息进行关键词提取得到专家特征信息和需求特征信息;

    向量模型构建模块204,用于根据关键词提取后的所述专家特征信息和所述需求特征信息构建特征向量模型;

    相似度分析模块205,用于根据所述特征向量模型中的特征向量进行相似度计算分析得到专家推荐结果。

    本公开所述的数据收集模块201依次与预处理模块202、关键词提取模块203、向量模型构建模块204以及相似度分析模块205相连接。

    进一步,所述收集专家论文数据和企业需求数据具体包括:

    根据论文数据库收集专家论文的题目、摘要和/或关键词数据以及选择在线互联网网站收集企业需求的标题、关键词和/或需求详情数据。

    实施例三:

    本公开还能够提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时用于实现上述的面向企业需求的专家推荐方法的步骤。

    本公开的计算机存储介质可以采用半导体存储器、磁芯存储器、磁鼓存储器或磁盘存储器实现。

    半导体存储器,主要用于计算机的半导体存储元件主要有mos和双极型两种。mos元件集成度高、工艺简单但速度较慢。双极型元件工艺复杂、功耗大、集成度低但速度快。nmos和cmos问世后,使mos存储器在半导体存储器中开始占主要地位。nmos速度快,如英特尔公司的1k位静态随机存储器的存取时间为45ns。而cmos耗电省,4k位的cmos静态存储器存取时间为300ns。上述半导体存储器都是随机存取存储器(ram),即在工作过程中可随机进行读出和写入新内容。而半导体只读存储器(rom)在工作过程中可随机读出但不能写入,它用来存放已固化好的程序和数据。rom又分为不可改写的熔断丝式只读存储器──prom和可改写的只读存储器eprom两种。

    磁芯存储器,具有成本低,可靠性高的特点,且有20多年的实际使用经验。70年代中期以前广泛使用磁芯存储器作为主存储器。其存储容量可达10位以上,存取时间最快为300ns。国际上典型的磁芯存储器容量为4ms~8mb,存取周期为1.0~1.5μs。在半导体存储快速发展取代磁芯存储器作为主存储器的位置之后,磁芯存储器仍然可以作为大容量扩充存储器而得到应用。

    磁鼓存储器,一种磁记录的外存储器。由于其信息存取速度快,工作稳定可靠,虽然其容量较小,正逐渐被磁盘存储器所取代,但仍被用作实时过程控制计算机和中、大型计算机的外存储器。为了适应小型和微型计算机的需要,出现了超小型磁鼓,其体积小、重量轻、可靠性高、使用方便。

    磁盘存储器,一种磁记录的外存储器。它兼有磁鼓和磁带存储器的优点,即其存储容量较磁鼓容量大,而存取速度则较磁带存储器快,又可脱机贮存,因此在各种计算机系统中磁盘被广泛用作大容量的外存储器。磁盘一般分为硬磁盘和软磁盘存储器两大类。

    硬磁盘存储器的品种很多。从结构上,分可换式和固定式两种。可换式磁盘盘片可调换,固定式磁盘盘片是固定的。可换式和固定式磁盘都有多片组合和单片结构两种,又都可分为固定磁头型和活动磁头型。固定磁头型磁盘的容量较小,记录密度低存取速度高,但造价高。活动磁头型磁盘记录密度高(可达1000~6250位/英寸),因而容量大,但存取速度相对固定磁头磁盘低。磁盘产品的存储容量可达几百兆字节,位密度为每英寸6250位,道密度为每英寸475道。其中多片可换磁盘存储器由于盘组可以更换,具有很大的脱体容量,而且容量大,速度高,可存储大容量情报资料,在联机情报检索系统、数据库管理系统中得到广泛应用。

    实施例四:

    本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的面向企业需求的专家推荐方法的步骤。

    图3为一个实施例中电子设备的内部结构示意图。如图3所示,该电子设备包括通过系统总线连接的处理器、存储介质、存储器和网络接口。其中,该计算机设备的存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种面向企业需求的专家推荐方法。该电设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种线程超时故障检测方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

    该电子设备包括但不限于智能电话、计算机、平板电脑、可穿戴智能设备、人工智能设备、移动电源等。

    所述处理器在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(centralprocessingunit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器是所述电子设备的控制核心(controlunit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器内的程序或者模块(例如执行远端数据读写程序等),以及调用存储在所述存储器内的数据,以执行电子设备的各种功能和处理数据。

    所述总线可以是外设部件互连标准(peripheralcomponentinterconnect,简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器以及至少一个处理器等之间的连接通信。

    图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。

    例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。

    进一步地,所述电子设备还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。

    可选地,该电子设备还可以包括用户接口,用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。

    进一步地,所述计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

    在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

    所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

    另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

    以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。本公开的范围由所附权利要求及其等价物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。


    技术特征:

    1.一种面向企业需求的专家推荐方法,其特征在于,包括:

    收集专家论文数据和企业需求数据;

    对收集到的所述专家论文数据和所述企业需求数据进行预处理,得到专家信息和需求信息;

    对预处理后的所述专家信息和所述需求信息进行关键词提取得到专家特征信息和需求特征信息;

    根据关键词提取后的所述专家特征信息和所述需求特征信息构建特征向量模型;

    根据所述特征向量模型中的特征向量进行相似度计算分析得到专家推荐结果。

    2.根据权利要求1所述的方法,其特征在于,所述收集专家论文数据和企业需求数据具体包括:

    根据论文数据库收集专家论文的题目、摘要和/或关键词数据以及选择在线互联网网站收集企业需求的标题、关键词和/或需求详情数据。

    3.根据权利要求1所述的方法,其特征在于,所述对收集到的所述专家论文数据和所述企业需求数据进行预处理具体包括:

    采用ltp模型对所述专家论文数据和所述企业需求数据分别进行分词得到专家分词数据和企业分词数据;

    在分词后的所述专家分词数据和所述企业分词数据中去除停用词;

    对去除停用词后的数据中的重复信息进行合并处理分别得到专家信息和需求信息。

    4.根据权利要求1所述的方法,其特征在于,所述对预处理后的所述专家信息和所述需求信息进行关键词提取具体包括:

    采用lda模型分别对所述专家信息和所述需求信息进行关键词抽取,获取每条专家信息和每条需求信息的关键词列表以作为所述专家特征信息和所述需求特征信息。

    5.根据权利要求1所述的方法,其特征在于,所述根据关键词提取后的所述专家特征信息和所述需求特征信息构建特征向量模型具体包括:

    对所述专家特征信息和所述需求特征信息利用tf-idf算法进行特征提取得到信息主题词;

    对所述信息主题词进行特征选择并基于选择后的特征主题词构建特征向量以及特征向量模型。

    6.根据权利要求1所述的方法,其特征在于,所述根据所述特征向量模型中的特征向量进行相似度计算分析得到专家推荐结果具体包括:

    根据所述特征向量模型中的特征向量在余弦相似度分析的基础上结合文本相同特征词数量占文本特征向量总长度的比例这一计算因子计算分析得到专家推荐结果;

    其中,所述相似度分析采用如下公式计算得到:

    其中,c为比例调节系数,n(d,e)表示需求信息d与专家信息e中相同特征词的数量,min(d,e)表示需求信息d特征总数和专家信息e特征总数中较少者,sim(d,e)表示需求信息d和专家信息e的余弦相似度。

    7.一种面向企业需求的专家推荐装置,其特征在于,包括:

    数据收集模块,用于收集专家论文数据和企业需求数据;

    预处理模块,用于对收集到的所述专家论文数据和所述企业需求数据进行预处理,得到专家信息和需求信息;

    关键词提取模块,用于对预处理后的所述专家信息和所述需求信息进行关键词提取得到专家特征信息和需求特征信息;

    向量模型构建模块,用于根据关键词提取后的所述专家特征信息和所述需求特征信息构建特征向量模型;

    相似度分析模块,用于根据所述特征向量模型中的特征向量进行相似度计算分析得到专家推荐结果。

    8.根据权利要求7所述的装置,其特征在于,所述收集专家论文数据和企业需求数据具体包括:

    根据论文数据库收集专家论文的题目、摘要和/或关键词数据以及选择在线互联网网站收集企业需求的标题、关键词和/或需求详情数据。

    9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~6任一项中所述的面向企业需求的专家推荐方法的步骤。

    10.一种计算机存储介质,其上存储有计算机程序指令,其特征在于,所述程序指令被处理器执行时用于实现权利要求1~6任一项中所述的面向企业需求的专家推荐方法对应的步骤。

    技术总结
    本公开涉及计算机网络信息技术领域,本公开提供了一种面向企业需求的专家推荐方法、装置、介质及设备,所述方法包括:收集专家论文数据和企业需求数据;对收集到的所述专家论文数据和所述企业需求数据进行预处理,得到专家信息和需求信息;对预处理后的所述专家信息和所述需求信息进行关键词提取;根据关键词提取后的所述专家信息和所述需求信息构建特征向量模型;根据所述特征向量模型中的特征向量进行相似度计算分析得到专家推荐结果。本公开采用主题模型对专家信息和企业需求进行特征提取,基于特征关键词分别构建专家领域特征向量和企业需求特征向量,基于两者的相似度为企业推荐相关领域专家,从而有效避免了机械检索的语义漂移问题。

    技术研发人员:胡笛;唐杰;刘德兵;张鹏;仇瑜;王笑尘
    受保护的技术使用者:北京智源人工智能研究院
    技术研发日:2020.11.26
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-21700.html

    最新回复(0)