数据存储、查询方法、装置及电子设备与流程

2021-10-30 03:05:00 来源：中国专利 TAG：分布式电子设备数据存储装置实施

1.本发明实施例涉及分布式存储技术领域，具体涉及一种数据存储、查询方法、装置及电子设备。

背景技术：

2.目前，智能客服系统已经得到越来越广泛的应用。在智能客服系统的应用过程中，需要对问答数据进行存储，并且问答数据的存储质量直接影响智能客服系统进行数据查询的效率。
3.相关技术中，一般通过检索引擎构建问答数据的存储位置，通过检索引擎提供的关键词查询接口匹配对应的问答数据，或者通过内存数据库构建问答数据对应的键值来对问答数据进行存储，或者通过神经网络模型构建语义索引树来存储问答数据。发明人在实现本发明实施例的过程中发现：基于相关技术中问答数据的存储方式，数据查询的准确度较低。

技术实现要素：

4.鉴于上述问题，本发明实施例提供了一种数据存储、查询方法、装置及电子设备，用于解决现有技术中存在的数据查询准确度较低的问题。
5.根据本发明实施例的一个方面，提供了一种数据存储方法，所述方法包括：
6.获取问答数据，所述问答数据包括问题数据和应答数据；
7.使用融合业务特征信息的语义模型将所述问答数据转换为语义向量，其中，所述语义向量包括问题语义向量和应答语义向量；
8.根据所述问题语义向量和所述应答语义向量，分别将所述问题数据和所述应答数据存储至不同存储位置。
9.在一种可选的方式中，所述方法还包括：
10.获取训练数据，所述训练数据包括问答语句对和业务语句；
11.生成所述问答语句对所对应的初始问题语义向量和初始应答语义向量，生成所述业务语句所对应的初始业务语义向量；
12.根据所述初始问题语义向量、所述初始应答语义向量和所述初始业务语义向量计算所述问答语句对和所述业务语句的相关性值；
13.若所述相关性值大于预设相关性阈值，则将所述问答语句对与所述业务语句的组合确定为正训练样例，若所述相关性值不大于预设相关性阈值，则将所述问答语句对与所述业务语句的组合确定为负训练样例；
14.根据所述正训练样例和所述负训练样例，对初始语义模型进行训练，以生成所述融合业务特征信息的语义模型。
15.在一种可选的方式中，所述方法还包括：
16.随机生成参考向量，根据存储集群的节点数量对所述参考向量进行归一化以生成
预设参考向量；
17.计算所述问题语义向量与所述预设参考向量之间的余弦距离和注意力值；
18.根据所述余弦距离和所述注意力值确定所述问题数据的存储位置。
19.在一种可选的方式中，所述方法包括：
20.确定目标问题数据所对应的目标应答数据，其中，所述目标问题数据为任一问题数据，所述目标应答数据为与所述目标问题数据关联的应答数据；
21.确定所述目标问题数据的存储位置所对应的节点编号、节点槽总数以及存储槽编号；
22.根据所述节点编号、所述节点槽总数以及所述存储槽编号确定所述目标应答数据的存储位置。
23.在一种可选的方式中，所述确定目标问题数据所对应的目标应答数据包括：
24.计算目标问题数据的语义向量与每一应答数据的语义向量的余弦距离；
25.按照所述余弦距离从小到大确定预设数量的应答数据的语义向量；
26.将所述预设数量的应答数据的语义向量所对应的应答数据确定目标应答数据。
27.在一种可选的方式中，所述根据所述问题语义向量和所述应答语义向量，分别将所述问题数据和所述应答数据存储至不同存储位置包括：
28.将所述目标问题数据的语义向量确定为所述目标问题数据的存储键，将所述目标问题数据以及所述目标应答数据的存储位置确定为所述目标问题数据的存储值；
29.将所述目标应答数据的语义向量确定为所述目标应答数据的存储键，将所述目标应答数据确定为所述目标应答数据的存储值。
30.根据本发明实施例的另一方面，提供了一种数据查询方法，所述方法包括：
31.获取问题数据；
32.使用融合业务特征信息的语义模型将所述问题数据转换为问题语义向量；
33.确定所述问题语义向量所对应的目标存储位置以及所述目标存储位置存储的多个相似问题数据；
34.查询所述相似问题数据所对应的相似应答数据；
35.计算所述问题数据与所述相似应答数据的语义相似度，根据所述语义相似度从大到小对所述相似应答数据进行排序并展示。
36.根据本发明实施例的另一方面，提供了一种数据存储装置，所述装置包括：
37.获取模块，用于获取问答数据，所述问答数据包括问题数据和应答数据；
38.转换模块，用于使用融合业务特征信息的语义模型将所述问答数据转换为语义向量，其中，所述语义向量包括问题语义向量和应答语义向量；
39.存储模块，用于根据所述问题语义向量和所述应答语义向量，分别将所述问题数据和所述应答数据存储至不同存储位置。
40.根据本发明实施例的另一方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；
41.所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述的数据存储方法的操作。
42.根据本发明实施例的又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令在电子设备上运行时，使得电子设备执行上述的数据存储方法的操作。
43.本发明实施例中，在进行数据存储时，通过使用融合业务特征信息的语义模型，可以将问答数据转换为语义向量，语义向量包括问题语义向量和应答语义向量；根据问题语义向量和应答语义向量，可以分别将问题数据和应答数据存储至不同存储位置。通过上述方式，融合业务特征信息的语义模型可以将问答数据转换为包含业务特征信息的语义向量，使得在进行数据查询时，根据问题数据可以查询到更加匹配的应答数据，提高了数据查询的准确度。
44.上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。
附图说明
45.附图仅用于示出实施方式，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
46.图1示出了本发明实施例提供的数据存储方法的流程示意图；
47.图2示出了本发明实施例提供的语义模型的结构示意图；
48.图3示出了本发明实施例提供的存储结构示意图；
49.图4示出了本发明实施例提供的数据查询方法的流程示意图；
50.图5示出了本发明实施例提供的数据存储装置的结构示意图；
51.图6示出了本发明实施例提供的电子设备的结构示意图。
具体实施方式
52.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。
53.图1示出了本发明实施例数据存储方法的流程图，该方法由电子设备执行。电子设备的存储器用于存放至少一可执行指令，该可执行指令使电子设备的处理器执行数据存储方法的操作。
54.如图1所示，该方法包括以下步骤：
55.步骤110：获取问答数据，所述问答数据包括问题数据和应答数据。
56.其中，问答数据可以是智能客服系统需要保存的数据，包括问题数据以及对应于问题数据的应答数据。问答数据例如为“问：怎样退订黄金会员？答：点击咪咕视频退订按钮即可退订”，问题数据为“问：怎样退订黄金会员？”，应答数据为“答：点击咪咕视频退订按钮即可退订”。
57.步骤120：使用融合业务特征信息的语义模型将所述问答数据转换为语义向量，所述语义向量包括问题语义向量和应答语义向量。
58.其中，问答数据中一般包含与业务特征相关的信息。例如，在“问：怎样退订黄金会
员？答：点击咪咕视频退订按钮即可退订”中，与业务特征相关的信息为“黄金会员”。使用融合业务特征信息的语义模型可以将问题数据转换为问题语义向量，并将应答数据转换为应答语义向量，使得问题语义向量和应答语义向量可以表示业务信息。不同于现有的人工智能模型根据语言本身生成语义向量，融合业务特征信息的语义模型可以结合语言本身和业务特征信息生成语义向量。例如，对于用户提问“我想退订黄金会员”和“不想要黄金会员”，现有的人工智能模型很可能会判定为语义不相似，而对于用户提问“我想退订黄金会员”和“我想退订听书会员”，现有的人工智能模型很可能会判定为语义相似。通过融合业务特征信息的语义模型则可以避免现有的人工智能模型的缺陷。
59.在一种可选的方式中，可以对初始语义模型进行训练，以生成融合业务特征信息的语义模型。进一步的，可以预先获取训练数据，训练数据包括问答语句对和业务语句，问答数据对例如可以为“问：黄金会员怎么退订？答：直接点击咪咕视频中的退订按钮即可退订”，业务语句例如可以包括“咪咕视频黄金会员”、“咪咕听书会员”等。然后，生成问答语句对所对应的初始问题语义向量和初始应答语义向量，生成业务语句所对应的初始业务语义向量。进而，根据初始问题语义向量、初始应答语义向量和初始业务语义向量计算问答语句对和业务语句的相关性值，若相关性值大于预设相关性阈值，则将问答语句对与业务语句的组合确定为正训练样例，若相关性值不大于预设相关性阈值，则将问答语句对与业务语句的组合确定为负训练样例，根据正训练样例和负训练样例，对初始语义模型进行训练，以生成融合业务特征信息的语义模型。
60.图2示出了本发明实施例提供的语义模型的结构示意图。如图2所示，该语义模型包括数据预处理模块和gan生成模块。数据预处理模块用于进行语料数据处理以确定训练数据，将训练数据中的问题数据转换为初始问题语义向量，将训练数据中的应答数据转换为初始应答语义向量，将业务语句转换为初始业务语义向量；gan生成模块用于根据初始问题语义向量、初始应答语义向量和初始业务语义向量对初始的语义模型进行训练，以生成出融合业务特征信息的语义模型。下面对融合业务特征信息的语义模型的训练方法进行说明。
61.其中，获取训练数据后，首先对训练数据进行预处理，即分别对问答语句对和业务语句进行分词处理。进一步的，可以使用jieba分词工具进行分词处理，对问题数据“黄金会员怎么退订”进行分词处理例如可以得到词集“黄金会员、怎么、退订”。然后，将问答语句对对应的词集和业务语句对应的词集输入bert模型，通过bert模型生成每个句子对应的多个语义向量，根据多个语义向量构建语义向量组。例如，将词集“黄金会员、怎么、退订”输入bert模型可以生成3个语义向量v1、v2和v3，进一步的，可以构建语义向量组v＝{v1，v2，v3}。然后，将构建的语义向量组输入lstm模型以生成初始语义向量，即将问题语句对应的语义向量组输入lstm模型可以生成初始问题语义向量，将应答语句对应的语义向量组输入lstm模型可以生成初始应答语义向量，将业务语句对应的语义向量组输入lstm模型可以生成初始业务语义向量。例如，将语义向量组v＝{v1，v2，v3}输入lstm模型可以得到v’。需要说明的是，由于每个句子所包含的分词个数不同，因此每个句子所对应的语义向量组所包含的语义向量数量也不同，通过lstm模型可以将语义向量数量不同的语义向量组处理成每个句子对应的初始语义向量，同时还能有效保存每个语义向量组所包含的信息，每个句子对应的初始语义向量具有相同的维度。
62.其中，通过lstm模型得到每个句子对应的初始语义向量之后，可以构建正训练样例和负训练样例对gan生成模块的业务判别模型进行训练。正训练样例和负训练样例均为问答语句对与业务语句的组合，正训练样例对应的问答语句对与业务语句的组合中问答语句对与业务语句不相关，负训练样例对应的问答语句对与业务语句的组合中问答语句对与业务语句相关。例如，由于问答语句对“问：黄金会员怎么退订？答：直接点击咪咕视频中的退订按钮即可退订”与业务语句“黄金会员”相关，因此问答语句对“问：黄金会员怎么退订？答：直接点击咪咕视频中的退订按钮即可退订”与业务语句“黄金会员”的组合为正训练样例；由于问答语句对“问：黄金会员怎么退订？答：直接点击咪咕视频中的退订按钮即可退订”与业务语句“听书会员”不相关，因此问答语句对“问：黄金会员怎么退订？答：直接点击咪咕视频中的退订按钮即可退订”与业务语句“听书会员”的组合为负训练样例。
63.进一步的，通过如下公式计算问答语句对于业务语句的相关性。
[0064][0065]
其中，b为业务语句的语义向量，q为问题语句的语义向量，a为应答语句的语义向量，s为向量点积运算函数，n为业务语句的序号，n为业务语句的总数量，sim为对应问答语句对与业务语句的相关性值。通过上述公式，可以计算出问答语句对与任一业务语句的相关性值。若sim大于预设相关性阈值，则将问答语句对与业务语句的组合确定为正训练样例，若sim不大于预设相关性阈值，则将问答语句对与业务语句的组合确定为负训练样例。
[0066]
进一步的，可以将构建的正训练样例和负训练样例输入业务判别模型，以使得业务判别模型可以判别问答语句对与业务语句是否相关。业务判别模型训练完成后，可以将通过lstm模型得到的问答语句对所对应的初始语义向量输入问答生成模型中，将业务语句所对应的初始语义向量输入业务生成模型中，问答生成模型和业务生成模型均包括组合lstm层和一维卷积层；组合lstm层可以提取初始语义向量的特征，一维卷积层可以进行卷积变换，以得到变换后的语义向量。业务注意力模型可以将问答语句对所对应的变换后的语义向量以及业务语句对所对应的变换后的语义向量进行融合。在业务注意力模型进行向量融合时，可以将问答语句对与业务语句进行随机组合，生成问答语句对与业务语句的随机组合所对应的组合语义向量，使用transformer的编码器部分读取组合语义向量并进行编码，将编码结果输出给训练好的业务判别模型，使得业务判别模型可以判别组合语义向量是否包含正确的业务信息，进一步根据业务判别模型的判别结果调整问答生成模型、业务生成模型以及业务注意力模型的模型参数。训练完成的问答生成模型、业务生成模型以及业务注意力模型即为融合业务特征信息的语义模型。在上述方案中，通过gan生成网络将问答语句对与业务语句进行融合，生成包含业务信息的语义向量，使得可以精准识别问答语句对中的业务信息。
[0067]
步骤130：根据所述问题语义向量和所述应答语义向量，分别将所述问题数据和所述应答数据存储至不同存储位置。
[0068]
其中，可以根据问题语义向量以及预设参考向量确定问题数据的存储位置，预设参考向量为向量空间中的随机向量。进一步的，可以随机生成参考向量，根据存储集群的节点数量对参考向量进行归一化以生成所述预设参考向量，计算问题语义向量与预设参考向
量之间的余弦距离和注意力值，根据余弦距离和注意力值确定问题数据的存储位置。问题数据的存储位置与应答数据的存储位置并不相同。
[0069]
图3示出了本发明实施例提供的存储结构示意图。如图3所示，本发明实施例提供的存储结构为redis集群存储结构。redis集群存储结构包括多个节点，每个节点中包括多个存储槽，每个节点中的存储槽可以包括问题槽和应答槽。对于redis分布式存储方式，本实施例不再采用redis原有的存储结构，而是将redis的存储槽划分为两类，即问题槽和应答槽，问题槽用于存放问题数据，应答槽用于存放应答数据，每个存储槽均以key
‑
value的形式存储数据。进一步的，问题槽和应答槽分别具有不同的数据存储形式。
[0070]
其中，问题槽的数据存储形式可以为{问题数据语义向量：问题数据内容，应答数据存储位置}，即问题数据语义向量为问题槽的存储key，可以便于根据问题数据语义向量进行查询，以获取应答数据存储位置。问题数据内容和应答数据存储位置为问题槽的存储value，应答数据存储位置包括应答数据的存储槽号以及存储节点。应答数据存储位置可以包括多个，应答数据存储位置对应多个相似应答数据的存储位置，将应答数据存储位置设置为多个可以弥补语义匹配的不足。例如，当问题数据为“我要退订黄金会员”时，除了可以查询到对应于该问题数据的应答数据，还可以查询到相似应答数据，如“黄金会员可以有一下权益”，这样可以防止融合业务特征信息的语义模型匹配出现误差时，查询的单一应答数据不准确，提升语义匹配的精确度。进一步的，应答数据存储位置的数量可以根据训练数据进行确定，例如可以设置为20。
[0071]
其中，应答槽的数据存储形式可以为{应答数据语义向量：应答数据内容}，即应答数据语义向量为应答槽的存储key，可应答数据内容为应答槽的存储value。进一步的，可以通过在向量空间中生成随机向量，根据预设参考向量来确定问题数据的存储位置。确定问题数据的存储位置例如可以通过下式进行计算。
[0072]
c
id
＝[cos(v
t
,v
i
) attn(v
t
,v
i
)]％m
[0073]
其中，vt为预设参考向量，vi为问题数据语义向量，m为问题槽总数量，cos()为余弦距离计算函数，attn为注意力值计算函数，cid为计算出的问题槽编号。m可以根据存储槽总数进行确定，例如redis一共包括16384个存储槽，问题槽总数量和应答槽总数量各占一半，均为8192个。
[0074]
在一种可选的方式中，可以根据问题数据的存储位置确定应答数据的存储位置。进一步的，可以确定目标问题数据所对应的目标应答数据，目标问题数据为任一问题数据，目标应答数据为与目标问题数据关联的应答数据；确定目标问题数据的存储位置所对应的节点编号、节点槽总数以及存储槽编号；根据节点编号、节点槽总数以及存储槽编号确定目标应答数据的存储位置。在确定目标问题数据所对应的目标应答数据时，可以计算目标问题数据的语义向量与每一应答数据的语义向量的余弦距离，按照余弦距离从小到大确定预设数量的应答数据的语义向量，将该预设数量的应答数据的语义向量所对应的应答数据确定目标应答数据。
[0075]
进一步的，在根据目标问题数据的存储位置计算目标应答数据的存储位置时，可以采用如下公式进行计算。
[0076]
d
id
＝[c
id
i*c
num
]％m
[0077]
其中，cid为问题数据的存储槽号，i为问题数据的节点编号，cnum为每个节点的存
储槽数量，m为问题槽总数量。通过上述公式，将应答数据的查询请求分散到不同节点，解决了数据查询热点的问题，保持了redis集群的高效率和高响应速度。
[0078]
在分别将问题数据和应答数据存储至对应存储位置时，可以将目标问题数据的语义向量确定为目标问题数据的存储键，将目标问题数据以及目标应答数据的存储位置确定为目标问题数据的存储值，将目标应答数据的语义向量确定为目标应答数据的存储键，将目标应答数据确定为目标应答数据的存储值。
[0079]
进一步的，在将问题数据和应答数据存储至对应存储位置之前，可以预先对redis存储系统进行初始化，包括读取redis集群的节点个数，槽数和槽的分布等信息。使用问题数据和相似应答数据的存储位置，构建问题数据的key
‑
value存储结构，进行存储；构建应答数据的key
‑
value存储结构，根据计算出的存储位置进行存储，从而实现了问题数据和应答数据的分离存储。
[0080]
本发明实施例中，在进行数据存储时，通过使用融合业务特征信息的语义模型，可以将问答数据转换为语义向量，语义向量包括问题语义向量和应答语义向量；根据问题语义向量和应答语义向量，可以分别将问题数据和应答数据存储至不同存储位置。通过上述方式，融合业务特征信息的语义模型可以将问答数据转换为包含业务特征信息的语义向量，使得在进行数据查询时，根据问题数据可以查询到更加匹配的应答数据，提高了数据查询的准确度。
[0081]
图4示出了本发明实施例数据查询方法的流程图，该方法由电子设备执行。电子设备的存储器用于存放至少一可执行指令，该可执行指令使电子设备的处理器执行数据查询方法的操作。
[0082]
如图4所示，该方法包括以下步骤：
[0083]
步骤210：获取问题数据。
[0084]
其中，问题数据一般为用户的提问，例如“咪咕听书会员怎么退订？”、“黄金会员怎么退订？”等。
[0085]
步骤220：使用融合业务特征信息的语义模型将所述问题数据转换为问题语义向量。
[0086]
其中，可以使用上述实施例中的融合业务特征信息的语义模型将问题数据转换为问题语义向量。进一步的，可以通过bert模型进行分词处理，通过lstm模型将分词处理后的词集转换为初始语义向量，再将初始语义向量分别输入问答生成模型和业务生成模型，通过业务注意力模型进行融合以得到问题语义向量。
[0087]
步骤230：确定所述问题语义向量所对应的目标存储位置以及所述目标存储位置存储的多个相似问题数据。
[0088]
其中，可以根据上述实施例中的公式计算问题语义向量所对应的目标存储位置，即确定相似问题数据的存储槽编号。相似问题数据的存储槽中存储有与问题数据相似的多个相似问题数据，以及对应的相似应答数据的存储位置。
[0089]
步骤240：查询所述相似问题数据所对应的相似应答数据。
[0090]
其中，根据相似问题数据的存储槽编号可以查询相似应答数据的存储位置，并在相似应答数据的存储位置查询相似问题数据所对应的多个相似应答数据。对于同一时间发起的多个问题数据，每个问题数据对应的相似应答数据的应答槽可以分布在不同的节点，
解决了查询热点问题，均衡了系统负载。
[0091]
步骤250：计算所述问题数据与所述相似应答数据的语义相似度，根据所述语义相似度从大到小对所述相似应答数据进行排序并展示。
[0092]
其中，可以利用余弦函数计算问题数据与每个相似应答数据的语义相似度，按照语义相似度从大到小对相似应答数据进行排序并展示，供用户进行参考。
[0093]
本发明实施例中，通过使用融合业务特征信息的语义模型，可以将问题数据转换为问题语义向量，进一步可以确定问题语义向量所对应的目标存储位置以及目标存储位置存储的多个相似问题数据；查询相似问题数据所对应的相似应答数据，并且计算问题数据与相似应答数据的语义相似度，根据语义相似度从大到小对相似应答数据进行排序并展示。可以看出，本发明实施例中根据问题语义向量可以获取多个相似应答数据并进行排序展示，提高了生成应答数据的准确性。
[0094]
图5示出了本发明实施例数据存储装置的结构示意图。如图5所示，该装置300包括：获取模块310、转换模块320和存储模块330。
[0095]
其中，获取模块310用于获取问答数据，问答数据包括问题数据和应答数据；转换模块320用于使用融合业务特征信息的语义模型将所述问答数据转换为语义向量，语义向量包括问题语义向量和应答语义向量；存储模块330用于根据所述问题语义向量和所述应答语义向量，分别将所述问题数据和所述应答数据存储至不同存储位置。
[0096]
在一种可选的方式中，该装置300还包括生成模块，用于：
[0097]
获取训练数据，所述训练数据包括问答语句对和业务语句；
[0098]
生成所述问答语句对所对应的初始问题语义向量和初始应答语义向量，生成所述业务语句所对应的初始业务语义向量；
[0099]
根据所述初始问题语义向量、所述初始应答语义向量和所述初始业务语义向量计算所述问答语句对和所述业务语句的相关性值；
[0100]
若所述相关性值大于预设相关性阈值，则将所述问答语句对与所述业务语句的组合确定为正训练样例，若所述相关性值不大于预设相关性阈值，则将所述问答语句对与所述业务语句的组合确定为负训练样例；
[0101]
根据所述正训练样例和所述负训练样例，对初始语义模型进行训练，以生成所述融合业务特征信息的语义模型。
[0102]
在一种可选的方式中，存储模块330用于：
[0103]
随机生成参考向量，根据存储集群的节点数量对所述参考向量进行归一化以生成预设参考向量；
[0104]
计算所述问题语义向量与所述预设参考向量之间的余弦距离和注意力值；
[0105]
根据所述余弦距离和所述注意力值确定所述问题数据的存储位置。
[0106]
在一种可选的方式中，存储模块330用于：
[0107]
确定目标问题数据所对应的目标应答数据，其中，所述目标问题数据为任一问题数据，所述目标应答数据为与所述目标问题数据关联的应答数据；
[0108]
确定所述目标问题数据的存储位置所对应的节点编号、节点槽总数以及存储槽编号；
[0109]
根据所述节点编号、所述节点槽总数以及所述存储槽编号确定所述目标应答数据
的存储位置。
[0110]
在一种可选的方式中，存储模块330用于：
[0111]
计算目标问题数据的语义向量与每一应答数据的语义向量的余弦距离；
[0112]
按照所述余弦距离从小到大确定预设数量的应答数据的语义向量；
[0113]
将所述预设数量的应答数据的语义向量所对应的应答数据确定目标应答数据。
[0114]
在一种可选的方式中，存储模块330用于：
[0115]
将所述目标问题数据的语义向量确定为所述目标问题数据的存储键，将所述目标问题数据以及所述目标应答数据的存储位置确定为所述目标问题数据的存储值；
[0116]
将所述目标应答数据的语义向量确定为所述目标应答数据的存储键，将所述目标应答数据确定为所述目标应答数据的存储值。
[0117]
本发明实施例中，在进行数据存储时，通过使用融合业务特征信息的语义模型，可以将问答数据转换为语义向量，语义向量包括问题语义向量和应答语义向量；根据问题语义向量和应答语义向量，可以分别将问题数据和应答数据存储至不同存储位置。通过上述方式，融合业务特征信息的语义模型可以将问答数据转换为包含业务特征信息的语义向量，使得在进行数据查询时，根据问题数据可以查询到更加匹配的应答数据，提高了数据查询的准确度。
[0118]
图6示出了本发明实施例电子设备结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。
[0119]
如图6所示，该电子设备可以包括：处理器(processor)402、通信接口(communications interface)404、存储器(memory)406、以及通信总线408。
[0120]
其中：处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。处理器402，用于执行程序410，具体可以执行上述用于数据存储方法实施例中的相关步骤。
[0121]
具体地，程序410可以包括程序代码，该程序代码包括计算机可执行指令。
[0122]
处理器402可能是中央处理器cpu，或者是特定集成电路asic(application specific integrated circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个cpu；也可以是不同类型的处理器，如一个或多个cpu以及一个或多个asic。
[0123]
存储器406，用于存放程序410。存储器406可能包含高速ram存储器，也可能还包括非易失性存储器(non
‑
volatile memory)，例如至少一个磁盘存储器。
[0124]
程序410具体可以被处理器402调用使电子设备执行以下操作：
[0125]
获取问答数据，所述问答数据包括问题数据和应答数据；
[0126]
使用融合业务特征信息的语义模型将所述问答数据转换为语义向量，其中，所述语义向量包括问题语义向量和应答语义向量；
[0127]
根据所述问题语义向量和所述应答语义向量，分别将所述问题数据和所述应答数据存储至不同存储位置。
[0128]
在一种可选的方式中，所述程序410被处理器402调用使电子设备执行以下操作：
[0129]
获取训练数据，所述训练数据包括问答语句对和业务语句；
[0130]
生成所述问答语句对所对应的初始问题语义向量和初始应答语义向量，生成所述
业务语句所对应的初始业务语义向量；
[0131]
根据所述初始问题语义向量、所述初始应答语义向量和所述初始业务语义向量计算所述问答语句对和所述业务语句的相关性值；
[0132]
若所述相关性值大于预设相关性阈值，则将所述问答语句对与所述业务语句的组合确定为正训练样例，若所述相关性值不大于预设相关性阈值，则将所述问答语句对与所述业务语句的组合确定为负训练样例；
[0133]
根据所述正训练样例和所述负训练样例，对初始语义模型进行训练，以生成所述融合业务特征信息的语义模型。
[0134]
在一种可选的方式中，所述程序410被处理器402调用使电子设备执行以下操作：
[0135]
随机生成参考向量，根据存储集群的节点数量对所述参考向量进行归一化以生成预设参考向量；
[0136]
计算所述问题语义向量与所述预设参考向量之间的余弦距离和注意力值；
[0137]
根据所述余弦距离和所述注意力值确定所述问题数据的存储位置。
[0138]
在一种可选的方式中，所述程序410被处理器402调用使电子设备执行以下操作：
[0139]
确定目标问题数据所对应的目标应答数据，其中，所述目标问题数据为任一问题数据，所述目标应答数据为与所述目标问题数据关联的应答数据；
[0140]
确定所述目标问题数据的存储位置所对应的节点编号、节点槽总数以及存储槽编号；
[0141]
根据所述节点编号、所述节点槽总数以及所述存储槽编号确定所述目标应答数据的存储位置。
[0142]
在一种可选的方式中，所述程序410被处理器402调用使电子设备执行以下操作：
[0143]
计算目标问题数据的语义向量与每一应答数据的语义向量的余弦距离；
[0144]
按照所述余弦距离从小到大确定预设数量的应答数据的语义向量；
[0145]
将所述预设数量的应答数据的语义向量所对应的应答数据确定目标应答数据。
[0146]
在一种可选的方式中，所述程序410被处理器402调用使电子设备执行以下操作：
[0147]
将所述目标问题数据的语义向量确定为所述目标问题数据的存储键，将所述目标问题数据以及所述目标应答数据的存储位置确定为所述目标问题数据的存储值；
[0148]
将所述目标应答数据的语义向量确定为所述目标应答数据的存储键，将所述目标应答数据确定为所述目标应答数据的存储值。
[0149]
本发明实施例中，在进行数据存储时，通过使用融合业务特征信息的语义模型，可以将问答数据转换为语义向量，语义向量包括问题语义向量和应答语义向量；根据问题语义向量和应答语义向量，可以分别将问题数据和应答数据存储至不同存储位置。通过上述方式，融合业务特征信息的语义模型可以将问答数据转换为包含业务特征信息的语义向量，使得在进行数据查询时，根据问题数据可以查询到更加匹配的应答数据，提高了数据查询的准确度。
[0150]
本发明实施例提供了一种计算机可读存储介质，所述存储介质存储有至少一可执行指令，该可执行指令在电子设备上运行时，使得所述电子设备执行上述任意方法实施例中的数据存储方法。
[0151]
本发明实施例提供一种数据存储装置，用于执行上述数据存储方法。
[0152]
本发明实施例提供了一种计算机程序，所述计算机程序可被处理器调用使电子设备执行上述任意方法实施例中的数据存储方法。
[0153]
本发明实施例提供了一种计算机程序产品，计算机程序产品包括存储在计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令在计算机上运行时，使得所述计算机执行上述任意方法实施例中的数据存储方法。
[0154]
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
[0155]
在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。
[0156]
类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。
[0157]
本领域技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0158]
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种作业调度方法、装置、设备及介质与流程

数据存储、查询方法、装置及电子设备与流程

相关文献

最热文献