一种利用单词间点状互信息进行单词向量化的编码方法与流程

2022-04-02 05:21:34 来源：中国专利 TAG：

1.本发明涉及人工智能领域，尤其涉及一种将单词(包括英语单词或者中文单词)进行向量化编码的方法。

背景技术：

2.单词量化是自然语言处理中一个非常关键的步骤。单词量化的目标在于，把自然语言这种符号信息转化为向量形式的数字信息，利用一个连续向量来表示每个单词，以方便后续信息处理。该过程也称为单词编码或词嵌入。目前常见的单词量化方法分为两类：独热型表示模型和分布型表示模型。前者利用一个稀疏向量来表示单词，向量长度为词典的大小n，每个向量只有一个维度为1，表示该词语在词典的位置，其余维度全部为0。后者利用一个低维稠密向量来表示单词，向量编码了单词的上下文信息，相同语境出现的单词其编码也相似。独热型编码方法经常会遇到维数灾难问题，语义信息也无法表示，难以揭示不同单词之间的潜在联系。
3.word2vec是目前最为常用的一种单词编码方法，已经被证实可以很好捕捉单词的语义信息，广泛应用于文档分类、情感分析、词性标注等一系列领域。为了获得单词的词嵌入，以word2vec为代表的传统方法主要利用可以描述单词间共同出现频率的共生矩阵来估计词语向量，但是存在编码模型可解释性差的问题，性能上也还有一定的提升空间。

技术实现要素：

4.基于现有技术所存在的问题，本发明的目的是提供一种利用单词间点状互信息进行单词向量化的编码方法。本发明提出的单词向量化编码方法就属于分布型表示模型的一种，本发明所提出的方法则通过估计单词之间的点状互信息矩阵来估计词语向量。模型上具有更好可解释性，可以更好描述词语的语义相似性。
5.本发明实施方式提供一种利用单词间点状互信息进行单词向量化的编码方法，其输入是原始预料(文本)集合，该方法的主要步骤包括：
6.步骤s0，对每个预料进行分割，划分为单词集合；
7.步骤s1，初始化词嵌入参数并统计每个单词的词频；
8.步骤s2，遍历语料，从中抽取用于训练词嵌入参数的正负样本对；
9.步骤s3，计算正负样本对的损失函数，求相应词嵌入参数的梯度并更新。
10.步骤s4，遍历若干遍语料后，保存每个单词的上下文词向量，并作为所求词嵌入。
11.其中，所属步骤s0包括：
12.子步骤s001：遍历预料，对所有文本进行分词。对于中文，文本分词可以采用隐马尔科夫模型法进行中文分词，得到中文词语集合。对于英文，直接表示为英语单词的集合就可以。
13.其中，所述步骤s1包括：
14.子步骤s101：遍历语料，统计每个单词在语料中出现的频率，并将该频率作为噪声
分布，用于后续随机抽取单词；
15.子步骤s102：为每个单词分别随机初始化一个中心词向量以及一个上下文词向量。其中中心词向量为单位向量，上下文词向量为最终的词嵌入；
16.其中，所述步骤s2包括：
17.子步骤s201：按照在语料中出现的顺序，将每个单词作为中心词，同时在中心词有限范围内的上下文中抽取单词作为上下文词。前述中心词和上下文词构成一对正样本；
18.子步骤s202：从噪声分布中，随机抽取若干单词，并取它们的上下文词向量，同当前中心词一起构成若干对负样本；
19.子步骤s203：在当前中心词向量的有限范围内，再次从语料中抽样两个单词，并称为额外上下文词。将额外上下文词向量相加得到加和词向量，前述加和词向量同中心词向量构成一对正样本。按子步骤s202中描述的方式抽取相应的负样本。
20.其中，所述步骤s3包括：
21.子步骤s301：求中心词向量同正样本上下文词向量的内积，该内积作为一个二分类模型的输入，并求标签为正时的正样本损失函数；求中心词向量同负样本上下文词向量的内积，该内积作为一个二分类模型的输入，并求标签为负时的负样本损失函数；
22.子步骤s302：针对上下文词的正负样本损失函数求中心词向量以及上下文词向量的梯度。中心词向量的梯度需要保存，而上下文词向量的梯度即刻更新；
23.子步骤s303：仿照子步骤s302中描述的方式分别求加和上下文词向量的梯度并更新相应额外上下文词嵌入的参数，以及中心词向量的梯度并保存。
24.子步骤s304：求中心词向量累积梯度的平均梯度以及相应的黎曼梯度。最后利用黎曼梯度更新中心词向量。
25.由上述本发明提供的技术方案可以看出，本发明实施例提供的词嵌入估计的方法，其有益效果为能更有效地拟合单词间的点状互信息，通过估计单词之间的点状互信息矩阵来估计词语向量，模型上具有更好可解释性，可以更好描述词语的语义相似性。
附图说明
26.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例值，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。
27.图1为本发明实施例提供的利用噪声对比估计求解词嵌入的方法的优化步骤流程图。
具体实施方式
28.下面结合本发明的具体内容，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
29.如图1所示，本发明实施例提供一种利用单词间点状互信息进行单词向量化的编码方法，能实现更加准确地对单词间的点状互信息进行拟合，包括：
30.步骤s0，遍历预料，对所有文本进行分词得到单词集合；
31.步骤s1，初始化词嵌入参数并统计每个单词的词频；
32.步骤s2，遍历语料，从中抽取用于训练词嵌入参数的正负样本对；
33.步骤s3，计算正负样本对的损失函数，求相应词嵌入参数的梯度并更新。
34.步骤s4，遍历若干遍语料后，保存每个单词的上下文词向量，并作为所求词嵌入。
35.其中，所述步骤s0包括：
36.子步骤s001：遍历语料，对语料中的所有文本进行分词得到单词集合。对于中文，可以利用隐马尔科夫模型分词法得到文本的中文分词。对于英文，可以直接将单词作为分词结果；
37.其中，所述步骤s1包括：
38.子步骤s101:遍历语料，统计每个单词在语料中出现的频率，并将该频率作为噪声分布，用于后续随机抽取单词；
39.子步骤s102:为每个单词分别随机初始化一个中心词向量以及一个上下文词向量。其中中心词向量为单位向量，上下文词向量为最终的词嵌入；
40.所述方法的子步骤s101中，统计每个单词在语料中出现的频率的结果为：
41.每个单词用序号1≤i≤v标记，其中v为词表的大小。单词i的频率用0≤p(i)≤1标记，并且满足∑ip(i)＝1。
42.所述方法的子步骤s102中，为每个单词分别随机初始化一个中心词向量以及一个上下文词向量的结果为：
43.用d表示词向量的维度。当单词i作为中心词时，用向量作为该单词的中心词向量，并且始终约束该向量为单位向量，即||ii||2＝1；当单词i作为上下文词时，用向量作为该单词的上下文词向量，并且上下文词向量将作为最终的词嵌入。
44.其中，所述步骤s2包括：
45.子步骤s201：按照在语料中出现的顺序，将每个单词作为中心词，同时在中心词有限范围内的上下文中抽取单词作为上下文词。前述中心词和上下文词构成一对正样本；
46.子步骤s202：从噪声分布中，随机抽取若干单词，并取它们的上下文词向量，同当前中心词一起构成若干对负样本；
47.子步骤s203：在当前中心词向量的有限范围内，再次从语料中抽样两个单词，并称为额外上下文词。将额外上下文词向量相加得到加和词向量，前述加和词向量同中心词向量构成一对正样本。按子步骤s202中描述的方式抽取相应的负样本。
48.所述方法的子步骤s201中，在中心词有限范围内的上下文中，抽取单词作为上下文词作为正样本的结果为：
49.用1≤t≤t表示单词在语料中出现的序号，其中t为语料的长度。用标记语料中第t个单词，并且表示它在词表中的序号为i。用l表示一个固定的整数，那么在语料中，位置上离单词不超过l长度的单词都称为的上下文单词。此时，用表示这些上下文单词，同时下标l满足-l≤l≤l且l≠0；而被称为中心词。被称为一个正样本，且认
为单词和单词共同出现在语料中一次。
50.所述方法的子步骤s202中，从噪声分布中，随机抽取负样本的结果为：
51.用表示词表中序号为k的单词，下标n表示从噪声分布中抽样得到。这里选取噪声分布为每个单词的词频，即k～p(k)。对于每个中心词都抽样n个噪声单词都抽样n个噪声单词被称为一个负样本。
52.所述方法的子步骤s203中，再次从语料中抽样额外上下文词构成正样本与负样本并计算加和上下文词向量的结果为：
53.在的左右l范围内再次从预料中随机选取两个单词wa与wb作为上下文单词。为两个上下文单词各自查表得到对应的上下文词向量oa和ob。将(wa，wb)作为一个新的正样本，并认为单词wa与wb以为条件共同出现在语料中一次。用oa ob同ii求内积作为(wa，wb)与的得分，并记为〈oa ob，ii〉。
54.同理，再次从噪声分布中独立地抽取2n个噪声样本，并用表示一个负样本。查询参数矩阵得到相应的上下文词向量o
p
与oq后，用o
p
oq同ii求内积作为与的得分，并记为〈o
p
oq，ii〉。
55.其中，所述步骤s3包括：
56.子步骤s301:求中心词向量同正样本上下文词向量的内积，该内积作为一个二分类模型的输入，并求标签为正时的正样本损失函数；求中心词向量同负样本上下文词向量的内积，该内积作为一个二分类模型的输入，并求标签为负时的负样本损失函数；
57.子步骤s302：针对上下文词的正负样本损失函数求中心词向量以及上下文词向量的梯度。中心词向量的梯度需要保存，而上下文词向量的梯度即刻更新；
58.子步骤s303：仿照子步骤s302中描述的方式分别求加和上下文词向量的梯度并更新相应额外上下文词嵌入的参数，以及中心词向量的梯度并保存。
59.子步骤s304：求中心词向量累积梯度的平均梯度以及相应的黎曼梯度。最后利用黎曼梯度更新中心词向量。
60.所述方法的子步骤s301中，求中心词向量同正负样本上下文词向量的内积，该内积作为一个二分类模型的能量函数，并求正负样本损失函数的结果为：
61.为中心词从参数矩阵中查表得到它的中心词向量ii；为正样本中的每个上下文词从参数矩阵中查表得到对应的上下文词向量oj。计算ii与oj的内积作为与的得分，并记为〈oj，ii〉。最后将〈oj，ii〉代入下述逻辑斯蒂函数：
[0062][0063]
上述逻辑斯蒂函数的输出σ(《oj，ii》)即为词嵌入模型对为正样本的概率预测。最后，对该概率取对数得到如下的正样本二分类损失：
[0064]
log(σ(《oj，ii》))。
[0065]
为负样本中的每个上下文词从参数矩阵中查询得到对应的上下文词向量ok。计算ii与ok的内积作为与的得分，并记为《ok，ii》。最后将《ok，ii》代入前述逻辑斯蒂函
数。因为为一个负样本，因此它的负样本二分类损失为：
[0066]
log(1-σ(《ok，ii》))。
[0067]
所述方法的子步骤s302中,针对正负样本损失函数求中心词向量以及上下文词向量的梯度的结果为：
[0068]
用表示每个正样本损失log(σ(《oj，ii》))针对中心词向量ii的欧式梯度(1-σ(j，i))oj。将所有正样本产生的欧式梯度存储起来并不更新，并记为用表示每个正样本损失针对上下文词向量oj的梯度(1-σ(j，i))ii，并且立刻更新每个
[0069][0070]
其中η
t
为当前中心词的步长。η
t
随着语料的遍历不断从初始值缩减至0。假设算法仅遍历一遍语料，则η
t
的更新公式为：
[0071][0072]
用表示每个负样本损失log(1-σ(《ok，ii》))针对中心词向量ii的欧式梯度-σ(k，i)oi。将所有负样本产生的欧式梯度存储起来并不更新，并记为用表示每个负样本损失针对上下文词向量ok的梯度-σ(k，i)ii，并且立刻更新。
[0073]
所述方法的子步骤s303中，用额外上下文词向量更新词嵌入参数的结果为：
[0074]
将《oa ob，ii》代入前述逻辑斯蒂函数后再取对数值得到新的正样本损失函数：
[0075]
log(σ(《oa ob，ii》))。
[0076]
将《o
p
oq，ii》代入前述逻辑斯蒂函数后再取对数值得到新的负样本损失函数：
[0077]
log(1-σ(《o
p
oq，ii》))。
[0078]
用表示log(σ(《oa ob，ii》))针对中心词向量ii的欧式梯度(1-σ(a，b))(oa ob)。将正样本(wa，wb)产生的欧式梯度存储起来并不更新。用与表示log(σ(《oa ob，ii》))针对上下文词向量oa与ob的梯度(1-σ(a b，i))ii，并且立刻更新与用表示每个负样本损失log(1-σ(《o
p
oq，ii》))针对中心词向量ii的欧式梯度-σ(p q，i)(o
p
oq)。将所有负样本产生的欧式梯度存储起来并不更新，并记为用与表示每个负样本损失针对上下文词向量o
p
与oq的梯度，并且立刻更新。
[0079]
所述方法的子步骤s304中，求中心词向量累积梯度的平均梯度以及相应的黎曼梯度。最后利用黎曼梯度更新中心词向量的结果为：
[0080]
用表示中心词嵌入ii的平均欧式梯度，并且按照如下公式计算：
[0081][0082]
其中表示前述累积梯度的集合，具体元素包括
[0083]
得到平均欧式梯度后，需要进一步按照如下公式将投影到单位球面在ii处的切平面上得到相应的黎曼梯度grad(ii)：
[0084]
[0085]
其中identity是只有对角元素为1，其他元素为0的单位矩阵。
[0086]
最后按照如下公式更新中心词向量ii：
[0087][0088]
其中的计算方式如下：
[0089][0090]
本发明的优点在于构建了结合概率分布模型和传统的稀疏编码求解方式的网络模型，相较于已有的求解方法。
[0091]
至此，已经结合附图对本发明进行了详细描述。依据以上描述，本领域技术人员应当对本发明有了清楚的认识。
[0092]
需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换，例如：
[0093]
(1)实施例中提到的方向用语，例如“上”、“下”、“前”、“后”、“左”、“右”等，仅是参考附图的方向，并非用来限制本发明的保护范围；
[0094]
(2)上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。
[0095]
以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于高分辨率网络与轻量注意力机制的交通标志检测方法与流程

一种利用单词间点状互信息进行单词向量化的编码方法与流程

相关文献

最热文献