一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型的制作方法

2021-11-10 03:37:00 来源:中国专利 TAG:


1.本发明属于语言处理技术领域,具体涉及一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型。


背景技术:

2.随着大数据技术的兴起,不同语言、不同领域的知识共享与联系日益紧密,有效地提取和分析不同语言表示的领域知识主题信息已成为文本挖掘的研究热点。文本主题模型通常以无监督学习的方式,对某领域文档集合的潜在语义结构进行自动化分析,得到包含主题信息的文档表示,在自然语言处理及情报分析、舆情监测等相关应用领域中发挥着重要作用,成为文本挖掘基础技术之一。
3.现有的主题模型及其扩展模型在大数据环境下,会面临知识表示的语言跨度和领域跨度问题。语言跨度问题是指由语言之间形态、语法、句法以及表述结构的多样性造成的同一主题下的词汇在不同语言体系中具有不同的表达方式,如同类商品可以有不同的语言词汇表示或不存在某种语言的对应词汇;领域跨度问题是由于训练数据与测试数据采集的领域特征或领域总体分布不一致,造成挖掘出来的不同领域知识主题可解释性差,这是由同一词汇语义存在领域差异引起的,如“bank”一词在金融领域中代表“银行”,而在地理领域中代表“河堤”语义。
4.为解决上述问题,本发明针对语言跨度大的汉语、蒙古语领域文档,尝试公开一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型,改善汉蒙大数据领域知识挖掘的主题对齐效果,可为跨语言热点主题发现、文档主题分类等文本挖掘任务以及基于知识主题对齐的跨语言信息检索与推荐、跨语言文本相似度检测、情感分析、自动问答中跨语言知识表示、机器翻译中双语词典、对齐语料构建等广泛nlp领域任务提供支持。


技术实现要素:

5.本发明的目的在于提供一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型,以解决上述背景技术中提出的问题。
6.为实现上述目的,本发明提供如下技术方案:一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型,包括以下步骤:
7.s1.建立汉蒙跨语言bert词嵌入的多策略联合学习模型 m

bert bi

gru crf;
8.s2.建立融合bert词嵌入的汉蒙跨语言主题嵌入表示及对齐模型,简称跨语言bert

etm;
9.s3.建立基于drnn的跨语言层次主题嵌入及对齐模型,简称跨语言 drnn

hetm;
10.s4.建立跨语言bert词向量训练和评测的蒙汉对齐句对语料数据集及蒙汉双语对齐词典;
11.s5.建立主题表示及跨语言主题对齐质量评价的量化指标。
12.优选的,所述s1中的汉蒙共享语义空间的跨语言bert领域词向量表示模型及双语词汇语义对齐词典,利用预训练的高资源汉语bert词向量优化低资源蒙古语bert词向量表示,并引导汉蒙单语bert词嵌入向同一语义空间有效融合,获得汉蒙双语单词共享语义空间的跨语言领域词嵌入及语义对齐词典,并建立汉蒙对齐句对语料数据集,解决汉、蒙语言资源数据不平衡的跨语言词嵌入学习问题。
13.优选的,所述s2中的基于bert的汉蒙跨语言主题嵌入表示及细粒度对齐神经网络模型,用于表示汉蒙文档隐含的单一层次主题比例分布、主题对应的单词分布;在获得汉蒙跨语言bert词向量基础上,将主题表示为跨语言bert词向量空间上的跨语言主题向量,表示双语主题单词分布间跨语言混合映射关系;表示存在跨语言多词一义、一词跨领域多义的领域主题语义,支持语义一致性、可解释性好的汉蒙跨语言主题表示及主题细粒度对齐。
14.优选的,所述s3中基于bert的汉蒙跨语言层次化主题嵌入及对齐神经网络模型用于将一般性语义的主题分配给根节点,将更具体语义的主题分配给叶节点,从而将汉蒙文档表示为细粒度的层次化主题结构,实现语义一致性好、细粒度的汉蒙跨语言主题层次关系和对齐关系表示。
15.优选的,所述s4中的基于bert的汉蒙跨语言主题嵌入表示及主题对齐联合深度学习算法用于针对汉蒙语的可比或非可比文档,学习跨语言主题嵌入表示及主题间细粒度对齐关系,解决跨语言主题存在的跨语言多词一义、同一词跨领域多义的表示及对齐问题;还用于鲁棒地处理文档停用词和稀有词,从而使主题表示在一致性、可解释性方面比传统主题模型更好,使主题实现细粒度语义对齐。
16.与现有技术相比,本发明的有益效果是:
17.1、本发明融合bert动态词嵌入的汉蒙跨语言主题嵌入表示及语义对齐联合模型和相关学习算法,能高质量地挖掘汉蒙多语言大数据中隐含的知识主题、主题之间细粒度对齐关系,解决汉蒙文本大数据主题分析面临的语言跨度和领域跨度问题,以及蒙古文训练语料缺乏问题。
18.2、本发明针对民族地区汉蒙多语言大数据情境下主题分析面临的语言跨度和领域跨度、蒙古文训练语料数据缺乏等问题,提出的融合bert动态词嵌入的汉蒙跨语言主题嵌入表示及语义对齐模型,能比传统主题模型在表达跨语言多词一义、一词跨领域多义等方面性能更优,在主题推断算法方面比现有算法更适合处理大数据,从而能应用在汉蒙文本大数据分析任务上,获得高质量、细粒度的汉蒙跨语言主题信息。
附图说明
19.图1为本发明的流程框图;
20.图2为本发明的跨语言bert词嵌入多策略联合学习网络结构示意图;
21.图3为本发明的汉蒙跨语言单层次主题嵌入表示及主题对齐网络结构示意图;
22.图4为本发明的汉蒙跨语言多层次主题嵌入及对齐网络结构示意图。
具体实施方式
23.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
24.实施例1
25.请参阅图1

图4,本发明提供一种技术方案:一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型,包括以下步骤:
26.s1.建立汉蒙跨语言bert词嵌入的多策略联合学习模型 m

bert bi

gru crf;
27.s2.建立融合bert词嵌入的汉蒙跨语言主题嵌入表示及对齐模型,简称跨语言bert

etm;
28.s3.建立基于drnn(doubly

recurrent networks)的跨语言层次主题嵌入(hierarchical embedding topic model)及对齐模型,简称跨语言 drnn

hetm;
29.s4.建立跨语言bert词向量训练和评测的蒙汉对齐句对语料数据集及蒙汉双语对齐词典;
30.s5.建立主题表示及跨语言主题对齐质量评价的量化指标。
31.本实施例中,优选的,所述s1中的汉蒙共享语义空间的跨语言bert 领域词向量表示模型及双语词汇语义对齐词典,利用预训练的高资源汉语 bert词向量优化低资源蒙古语bert词向量表示,并引导汉蒙单语bert词嵌入向同一语义空间有效融合,获得汉蒙双语单词共享语义空间的跨语言领域词嵌入及语义对齐词典,并建立汉蒙对齐句对语料数据集,解决汉、蒙语言资源数据不平衡的跨语言词嵌入学习问题。
32.本实施例中,优选的,所述s2中的基于bert的汉蒙跨语言主题嵌入表示及细粒度对齐神经网络模型,用于表示汉蒙文档隐含的单一层次主题比例分布、主题对应的单词分布;在获得汉蒙跨语言bert词向量基础上,将主题表示为跨语言bert词向量空间上的跨语言主题向量,表示双语主题单词分布间跨语言混合映射关系;表示存在跨语言多词一义、一词跨领域多义的领域主题语义,支持语义一致性、可解释性好的汉蒙跨语言主题表示及主题细粒度对齐。
33.本实施例中,优选的,所述s3中基于bert的汉蒙跨语言层次化主题嵌入及对齐神经网络模型用于将一般性语义的主题分配给根节点,将更具体语义的主题分配给叶节点,从而将汉蒙文档表示为细粒度的层次化主题结构,实现语义一致性好、细粒度的汉蒙跨语言主题层次关系和对齐关系表示。
34.本实施例中,优选的,所述s4中的基于bert的汉蒙跨语言主题嵌入表示及主题对齐联合深度学习算法用于针对汉蒙语的可比或非可比文档,学习跨语言主题嵌入表示及主题间细粒度对齐关系,解决跨语言主题存在的跨语言多词一义、同一词跨领域多义的表示及对齐问题;还用于鲁棒地处理文档停用词和稀有词,从而使主题表示在一致性、可解释性方面比传统主题模型更好,使主题实现细粒度语义对齐。
35.实施例2
36.请参阅图1

图4,本发明提供一种技术方案:一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型,包括以下步骤:
37.s1.建立汉蒙跨语言bert词嵌入的多策略联合学习模型 m

bert bi

gru crf;
38.s2.建立融合bert词嵌入的汉蒙跨语言主题嵌入表示及对齐模型,简称跨语言bert

etm;
39.s3.建立基于drnn(doubly

recurrent networks)的跨语言层次主题嵌入(hierarchical embedding topic model)及对齐模型,简称跨语言 drnn

hetm;
40.s4.建立跨语言bert词向量训练和评测的蒙汉对齐句对语料数据集及蒙汉双语对齐词典;
41.s5.建立主题表示及跨语言主题对齐质量评价的量化指标。
42.本实施例中,优选的,所述s1中的建立汉蒙跨语言bert词嵌入的多策略联合学习模型m

bert bi

gru crf,采用跨语言联合编码的迁移学习策略,使用小规模蒙汉双语平行句对语料,对预训练的多语言m

bert子词(字) 向量进行二次细调(fine

turning)训练,优化蒙汉跨语言bert子词(字) 向量表示,构建蒙汉词向量共享语义空间;对蒙汉双语平行句对进行领域分词,按分词结果给每个蒙古文bert子词单元或中文bert字单元加上领域词位置标签,此外,还为蒙汉双语句对加平行句对的二分类标签。
43.本实施例中,优选的,所述s1中的所述s1中的汉蒙跨语言bert词嵌入的多策略联合学习模型m

bert bi

gru crf,在bert后面附加一个单层的双向门循环单元bi

gru层,利用平行句对相似性联合优化蒙汉语义空间对齐映射,以捕获长距离依赖关系,并基于crf领域分词结果计算bert领域词向量,构建双语对齐词典。
44.本实施例中,优选的,所述s2中的融合bert词嵌入的汉蒙跨语言主题嵌入表示及对齐模型(简称跨语言bert

etm),采用单语文档主题比例分布推断网络和主题对应的单语词分布推断网络,以及信息最大化变分推断 (infovae)深度学习算法,获得汉蒙单语文档的主题比例分布、主题对应跨语言词分布;将主题表示为跨语言bert词向量空间上的跨语言主题向量,可在共享语义空间中,计算主题之间、主题与单词间的语义关联度,能有效表示存在跨语言多词一义、一词跨领域多义的主题语义,从而能支持语义一致性、可解释性好的蒙汉跨语言主题表示及主题细粒度对齐。。
45.本实施例中,优选的,所述s3中的基于drnn(doubly

recurrentnetworks)的跨语言层次主题嵌入(hierarchical embedding topic model) 及对齐模型(跨语言drnn

hetm),采用编码器生成文档主题的路径分布和层次分布,其中,drnn可生成主题路径分布,rnn可生成主题层次分布,将路径分布和层次分布相结合后,可得到文档的主题分布。解码器用于生成主题对应词分布,同样采用drnn结构获得主题向量,再结合bert预训练词向量,获得主题对应词分布。
46.本实施例中,优选的,所述s3中的基于drnn(doubly

recurrentnetworks)的跨语言层次主题嵌入(hierarchical embedding topic model) 及对齐模型(跨语言drnn

hetm),采用三个指标作为目标函数:文档主题对应词分布的负对数似然函数值,文档主题分布的kl散度,用于降低主题冗余度的主题树中父节点和子节点的正则化项。最终,模型利用叶节点表示更具体的主题,用于归纳出潜在层次关系的主题分布,完成层次关系主题的细粒度分析。
47.本实施例中,优选的,所述s4中的建立一个跨语言bert词向量训练和评测的蒙汉对齐句对语料数据集及蒙汉双语对齐词典,蒙汉语句对规模达到16万对以上,领域双语对齐词汇达到5万词以上。
48.本实施例中,优选的,所述s5中的建立主题表示及跨语言主题对齐质量评价的量化指标,使用主题一致性和主题多样性两个方面的综合度量指标衡量单语主题表示质量;
使用交叉集困惑度(ccp)来衡量双语共享主题的质量;使用双语对齐相似度(bas)评价跨语言主题对齐效果。
49.本发明的原理及优点:
50.本发明融合bert动态词嵌入的汉蒙跨语言主题嵌入表示及语义对齐联合模型和相关学习算法,能高质量地挖掘汉蒙多语言大数据中隐含的知识主题、主题之间细粒度对齐关系,解决汉蒙文本大数据主题分析面临的语言跨度和领域跨度问题,以及蒙古文训练语料缺乏问题;
51.针对民族地区汉蒙多语言大数据情境下主题分析面临的语言跨度和领域跨度、蒙古文训练语料数据缺乏等问题,提出的融合bert动态词嵌入的汉蒙跨语言主题嵌入表示及语义对齐模型,能比传统主题模型在表达跨语言多词一义、一词跨领域多义等方面性能更优,在主题推断算法方面比现有算法更适合处理大数据,从而能应用在汉蒙文本大数据分析任务上,获得高质量、细粒度的汉蒙跨语言主题信息。
52.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献