问题数据的处理方法、装置、计算机设备及存储介质与流程

2022-11-16 16:49:51 来源：中国专利 TAG：

1.本技术涉及人工智能技术领域，尤其涉及问题数据的处理方法、装置、计算机设备及存储介质。

背景技术：

2.当前，业务出单员在使用保险出单系统进行出单处理时，由于个人对保险出单系统的不熟悉或保险出单系统的操作较复杂，业务出单员经常会向开发层面反馈一些在出单时遇到的问题。对于业务出单员提出的问题，传统的处理方式是由接收到问题数据的开发人员依靠自身的知识储备，通过人工查询与接收到的问题相关的反馈数据，再将该反馈数据返回给业务出单员。如果业务出单员提出的问题的数量很多时，这样的问题处理方式则需要耗费较多的人力物力，处理效率较低。

技术实现要素：

3.本技术实施例的目的在于提出一种问题数据的处理方法、装置、计算机设备及存储介质，以解决现有的问题处理方式则需要耗费较多的人力物力，处理效率较低的问题。
4.为了解决上述技术问题，本技术实施例提供一种问题数据的处理方法，采用了如下所述的技术方案：
5.接收用户输入的问题语音，并将所述问题语音转换成问题文本；
6.基于预设的词向量模型对所述问题文本进行关键词提取得到第一关键词，以及基于预设关键词提取算法对所述问题文本进行关键词提取得到第二关键词；
7.基于所述第一关键词与所述第二关键词生成与所述问题文本对应的文本关键词；
8.基于互信息算法从预设的文本数据库内确定出与所述文本关键词对应的目标问题引导文本；
9.向所述用户推送所述目标问题引导文本。
10.进一步的，所述基于预设的词向量模型对所述问题文本进行关键词提取得到第一关键词的步骤，具体包括：
11.通过所述词向量模型对所述问题文本进行处理得到对应的问题向量文件；
12.对所述问题文本进行预处理得到候选关键词；其中，所述候选关键词的数量包括多个；
13.遍历所述候选关键词，从所述问题向量文件中提取出所述候选关键词的词向量表示；
14.基于所述候选关键词的词向量表示，通过预设聚类算法对所有所述候选关键词进行聚类处理，从所有所述候选关键词中确定出所述第一关键词。
15.进一步的，所述对所述问题文本进行预处理得到候选关键词的步骤，具体包括：
16.通过预设分词工具对所述问题文本进行分词处理，得到对应的第一词语集合；
17.基于预设的停用词列表对所述第一词语集合进行停用词剔除，得到对应的第二词
语集合；
18.将所述第二词语集合内的所有词语作为所述候选关键词。
19.进一步的，所述基于所述第一关键词与所述第二关键词生成与所述问题文本对应的文本关键词的步骤，具体包括：
20.对所述第一关键词与所述第二关键词进行合并处理，得到对应的第三词语集合；
21.对所述第三词语集合中的所有词语进行词语去重处理，得到处理后的第四词语集合；
22.将所述第四词语集合内包含的所有词语作为所述文本关键词。
23.进一步的，所述基于互信息算法从预设的文本数据库内确定出与所述文本关键词对应的目标问题引导文本的步骤，具体包括：
24.基于所述互信息算法计算所述文本关键词与所述文本数据库内存储的所有问题关键词之间的相关性数值；
25.从所有所述问题关键词中获取与所述文本关键词之间的相关性数值最高的目标问题关键词；
26.从所述文本数据库内获取与所述目标问题关键词对应的问题引导文本数据；
27.将所述问题引导文本数据作为所述目标问题引导文本。
28.进一步的，在所述基于互信息算法从预设的文本数据库内确定出与所述文本关键词对应的目标问题引导文本的步骤之前，还包括：
29.获取指定问题文本集合；
30.对于所述指定问题文本集合内包含的每一个指定问题文本，基于所述词向量模型确定出与所述指定问题文本对应的指定问题关键词；
31.获取与所述指定问题文本对应的指定问题引导文本；
32.对所述指定问题关键词与所述指定问题引导文本建立关联关系；
33.基于所述关联关系将所述指定问题关键词与所述指定问题引导文本对应存储于预设数据库内，得到所述文本数据库。
34.进一步的，所述向所述用户推送所述目标问题引导文本的步骤，具体包括：
35.将所述目标问题引导文本输入至预设的语音生成模型；
36.接收所述语音生成模型输出的与所述目标问题引导文本对应的引导语音；
37.播放所述引导语音。
38.为了解决上述技术问题，本技术实施例还提供一种问题数据的处理装置，采用了如下所述的技术方案：
39.转换模块，用于接收用户输入的问题语音，并将所述问题语音转换成问题文本；
40.提取模块，用于基于预设的词向量模型对所述问题文本进行关键词提取得到第一关键词，以及基于预设关键词提取算法对所述问题文本进行关键词提取得到第二关键词；
41.生成模块，用于基于所述第一关键词与所述第二关键词生成与所述问题文本对应的文本关键词；
42.第一确定模块，用于基于互信息算法从预设的文本数据库内确定出与所述文本关键词对应的目标问题引导文本；
43.推送模块，用于向所述用户推送所述目标问题引导文本。
44.为了解决上述技术问题，本技术实施例还提供一种计算机设备，采用了如下所述的技术方案：
45.接收用户输入的问题语音，并将所述问题语音转换成问题文本；
46.基于预设的词向量模型对所述问题文本进行关键词提取得到第一关键词，以及基于预设关键词提取算法对所述问题文本进行关键词提取得到第二关键词；
47.基于所述第一关键词与所述第二关键词生成与所述问题文本对应的文本关键词；
48.基于互信息算法从预设的文本数据库内确定出与所述文本关键词对应的目标问题引导文本；
49.向所述用户推送所述目标问题引导文本。
50.为了解决上述技术问题，本技术实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：
51.接收用户输入的问题语音，并将所述问题语音转换成问题文本；
52.基于预设的词向量模型对所述问题文本进行关键词提取得到第一关键词，以及基于预设关键词提取算法对所述问题文本进行关键词提取得到第二关键词；
53.基于所述第一关键词与所述第二关键词生成与所述问题文本对应的文本关键词；
54.基于互信息算法从预设的文本数据库内确定出与所述文本关键词对应的目标问题引导文本；
55.向所述用户推送所述目标问题引导文本。
56.与现有技术相比，本技术实施例主要有以下有益效果：
57.在将用户输入的问题语音转换成问题文本后，会先基于预设的词向量模型对问题文本进行关键词提取得到第一关键词，以及基于预设关键词提取算法对问题文本进行关键词提取得到第二关键词，然后会基于得到的第一关键词与第二关键词生成与问题文本对应的文本关键词，最后基于互信息算法从预设的文本数据库内确定出与文本关键词对应的目标问题引导文本，并向用户推送目标问题引导文本。本技术通过结合使用词向量模型与预设关键词提取算法来生成与问题文本对应的文本关键词，可以保证生成的文本关键词完整性与准确性。进而可以通过基于互信息算法实现快捷智能地从文本数据库内确定出与文本关键词对应的目标问题引导文本，使得不需要人工进行对于问题数据的查询处理，减少了人工查阅资料的时间，节省了数据查询处理的人力资源，有效提高了对于问题数据的处理效率。
附图说明
58.为了更清楚地说明本技术中的方案，下面将对本技术实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
59.图1是本技术可以应用于其中的示例性系统架构图；
60.图2根据本技术的问题数据的处理方法的一个实施例的流程图；
61.图3是根据本技术的问题数据的处理装置的一个实施例的结构示意图；
62.图4是根据本技术的计算机设备的一个实施例的结构示意图。
具体实施方式
63.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本技术；本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。
64.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
65.为了使本技术领域的人员更好地理解本技术方案，下面将结合附图，对本技术实施例中的技术方案进行清楚、完整地描述。
66.如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
67.用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
68.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture expertsgroup audio layeriii，动态影像专家压缩标准音频层面3)、mp4(moving pictureexperts group audio layer iv，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
69.服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
70.需要说明的是，本技术实施例所提供的问题数据的处理方法一般由服务器/终端设备执行，相应地，问题数据的处理装置一般设置于服务器/终端设备中。
71.应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。
72.继续参考图2，示出了根据本技术的问题数据的处理方法的一个实施例的流程图。所述的问题数据的处理方法，包括以下步骤：
73.步骤s201，接收用户输入的问题语音，并将所述问题语音转换成问题文本。
74.在本实施例中，问题数据的处理方法运行于其上的电子设备(例如图1所示的服务器/终端设备)。需要指出的是，上述无线连接方式可以包括但不限于3g/4g/5g连接、wifi连接、蓝牙连接、wimax连接、zigbee连接、uwb(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
75.其中，本技术可应用于业务出单员处理出单的场景，用户可为业务出单员，问题语音为业务出单员子在处理出单时遇到出单问题后提出的语音数据。另外，语音转文字可通
过通用的asr技术来将问题语音转换成对应的问题文本。
76.步骤s202，基于预设的词向量模型对所述问题文本进行关键词提取得到第一关键词，以及基于预设关键词提取算法对所述问题文本进行关键词提取得到第二关键词。
77.在本实施例中，词向量模型具体为word2vec模型。word2vec，是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。另外，基于word2vec模型对问题文本进行关键词提取的实现过程可包括：对于用词向量表示的词语，通过k-means算法对文本中的词进行聚类，选择聚类中心作为文本的一个主要关键词，计算其他词与聚类中心的距离即相似度，选择topk个距离聚类中心最近的词作为关键词，词间相似度可用word2vec模型生成的向量计算得到。
78.预设关键词提取算法可包括textrank算法、lda主题模型关键词提取算法、tf-idf关键词提取算法中的一种或多种。textrank算法是一种基于图的用于关键词抽取和文档摘要的排序算法，由谷歌的网页重要性排序算法pagerank算法改进而来，它利用一篇文档内部的词语间的共现信息(语义)便可以抽取关键词，它能够从一个给定的文本中抽取出该文本的关键词、关键词组，并使用抽取式的自动文摘方法抽取出该文本的关键句。基于textrank算法对问题文本进行关键词提取的实现过程可包括：关键词抽取是指从文本中确定一些能够描述文档含义的术语的过程。对关键词抽取而言，用于构建顶点集的文本单元可以是句子中的一个或多个字；根据这些字之间的关系(比如：在一个框中同时出现)构建边。根据任务的需要，可以使用语法过滤器(如syntactic filters)对顶点集进行优化。语法过滤器的主要作用是将某一类或者某几类词性的字过滤出来作为顶点集。基于lda主题模型关键词提取算法对问题文本进行关键词提取的实现过程可包括：对问题文本进行预处理，得到一个单词集合；采用模式匹配结合句法规则来进行名词短语分块，具体利用词性标注和“形容词名词”模式得到一系列候选关键短语；利用lda主题模型关键词提取算法计算单词集合中每个单词的wordsalience分数，根据该分数进行降序排序，取前k个作为问题文本的主题单词集合；利用候选关键短语与主题单词，构建phraseword图；根据构建phraseword的图结构，进行pagerank算法迭代得到每个候选短语的分数，降序排序之后，排名靠前的候选短语即是需要提取的关键词结果。基于tf-idf关键词提取算法对问题文本进行关键词提取的实现过程可包括：tf-idf是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。tf-idf的主要思想是：如果某个单词在一篇文章中出现的频率tf高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类，即将此词或者短语作为文章的关键词。
79.步骤s203，基于所述第一关键词与所述第二关键词生成与所述问题文本对应的文本关键词。
80.在本实施例中，可通过将得到的第一关键词与第二关键词进行合并汇总，以生成与问题文本对应的文本关键词。通过整合通过多种关键词提取方式得到的关键词来生成文本关键词，可以有效保证了得到的文本关键词的准确性与完整性。
81.步骤s204，基于互信息算法从预设的文本数据库内确定出与所述文本关键词对应的目标问题引导文本。
82.在本实施例中，互信息算法(pointwise mutual information，pmi)是用来衡量两个事件之间的相关性的算法。基于互信息算法可以先从预设的文本数据库内确定出与文本关键词对应的相关性最高的目标问题关键词，进而再从文本数据库内获取与该目标问题关键词对应的问题引导文本数据作为最终的目标问题引导文本。另外，所述文本数据库为预先根据常见的问题文本集合，以及与问题文本集合中包含的常见的问题文本对应的问题引导文本构建生成的。
83.步骤s205，向所述用户推送所述目标问题引导文本。
84.在本实施例中，可以将目标问题引导文本转换成相应的引导语音，再播放该引导语音以实现向用户推送目标问题引导文本。
85.本技术在将用户输入的问题语音转换成问题文本后，会先基于预设的词向量模型对问题文本进行关键词提取得到第一关键词，以及基于预设关键词提取算法对问题文本进行关键词提取得到第二关键词，然后会基于得到的第一关键词与第二关键词生成与问题文本对应的文本关键词，最后基于互信息算法从预设的文本数据库内确定出与文本关键词对应的目标问题引导文本，并向用户推送目标问题引导文本。本技术通过结合使用词向量模型与预设关键词提取算法来生成与问题文本对应的文本关键词，可以保证生成的文本关键词完整性与准确性。进而可以通过基于互信息算法实现快捷智能地从文本数据库内确定出与文本关键词对应的目标问题引导文本，使得不需要人工进行对于问题数据的查询处理，减少了人工查阅资料的时间，节省了数据查询处理的人力资源，有效提高了对于问题数据的处理效率。
86.在一些可选的实现方式中，步骤s202中的基于预设的词向量模型对所述问题文本进行关键词提取得到第一关键词包括以下步骤：
87.通过所述词向量模型对所述问题文本进行处理得到对应的问题向量文件；
88.在本实施例中，词向量模型为word2vec模型，word2vec模型会将问题文本中的词语嵌入到一个高维的空间中，通常在100-500维，在高维空间中词语会被表示为词向量的形式。
89.对所述问题文本进行预处理得到候选关键词；其中，所述候选关键词的数量包括多个；
90.在本实施例中，对问题文本进行预处理包括对问题文本进行分词处理与停用词剔除处理，从而得到相应的候选关键词。
91.遍历所述候选关键词，从所述问题向量文件中提取出所述候选关键词的词向量表示；
92.在本实施例中，在得到问题文本中的候选关键词后，则可以从问题向量文件查询出与该候选关键词对应的词向量表示。
93.基于所述候选关键词的词向量表示，通过预设聚类算法对所有所述候选关键词进行聚类处理，从所有所述候选关键词中确定出所述第一关键词。
94.在本实施例中，所述聚类算法为k-means算法，通过预设聚类算法对所有所述候选关键词进行聚类处理的过程可包括：通过对候选关键词进行k-means聚类，得到各个类别的
聚类中心；其中，可预先设置聚类的个数；计算各类别下，组内词语与聚类中心的距离，按聚类大小进行降序排序；其中，距离指欧几里得距离或曼哈顿距离，距离根据词向量文件中提取候选关键词的词向量表示计算得到；根据得到的距离数据从所述候选关键词中确定出预设数量的词语作为所述第一关键词。
95.本技术通过使用词向量模型可以快速地从所述候选文本关键词中确定筛选出所述第一关键词，有利于后续可以根据该第一关键词来准确地确定出最终的与问题文本对应的文本关键词，有利于确保生成的文本关键词的完整性、准确性和真实性。
96.在本实施例的一些可选的实现方式中，前述对所述问题文本进行预处理得到候选关键词的步骤包括以下步骤：
97.通过预设分词工具对所述问题文本进行分词处理，得到对应的第一词语集合；
98.在本实施例中，对预设分词工具的选用不作限定，例如可为jieba分词工具，或者还可为隐马尔科夫模型。
99.基于预设的停用词列表对所述第一词语集合进行停用词剔除，得到对应的第二词语集合；
100.在本实施例中，停用词列表为预先构建的存储有常见的停用词的表格，可以将第一词语集合内的所有词语与该停用词列表包括的所有停用词进行匹配，查找出第一词语集合内包含的指定停用词，并将该指定停用词进行删除处理，进而可以得到第二词语集合。
101.将所述第二词语集合内的所有词语作为所述候选关键词。
102.本技术通过提前对问题文本进行预处理以得到候选关键词，使得后续只需对该候选关键词进行处理以生成与问题文本对应的文本关键词，从而可以减少数据处理量，也提高了后续生成的文本关键词的准确性。
103.在一些可选的实现方式中，上述基于所述第一关键词与所述第二关键词生成与所述问题文本对应的文本关键词的包括以下步骤：
104.对所述第一关键词与所述第二关键词进行合并处理，得到对应的第三词语集合；
105.在本实施例中，合并处理是指将所有第一关键词与所有第二关键词进行合并汇总，从而得到包含有第一关键词与第二关键词的第三词语集合。
106.对所述第三词语集合中的所有词语进行词语去重处理，得到处理后的第四词语集合；
107.在本实施例中，词语去重处理是指对于第四词语集合中包括的多个相同的词语，仅保留其中一个词语的处理。
108.将所述第四词语集合内包含的所有词语作为所述文本关键词。
109.本技术在使用词向量模型对问题文本进行处理得到第一关键词，以及使用预设关键词提取算法对问题文本进行处理得到第二关键词后，通过对第一关键词与第二关键词进行进一步的合并去重处理以最终确定出与所述问题文本对应的文本关键词，有效地确保了生成的文本关键词的完整性、准确性和真实性。
110.在一些可选的实现方式中，步骤s204包括以下步骤：
111.基于所述互信息算法计算所述文本关键词与所述文本数据库内存储的所有问题关键词之间的相关性数值；
112.在本实施例中，互信息算法(pointwise mutual information，pmi)可以用来衡量
两个事件之间的相关性(mutual dependence)。互信息算法的计算公式如下：其中：x和y可以分别表示两词语，p(x)指词语x出现的概率，p(y)指词语y出现的概率，如果x跟y不相关，则p(x,y)＝p(x)p(y)；二者相关性越大，则p(x,y)就相比于p(x)p(y)越大。在y出现的情况下，x出现的条件概率p(x|y)除以x本身出现的概率p(x)，可以表示x跟y的相关程度。logp(x)表示将一个概率转换为信息量，当以2为底数时可以指变量表示的bits变量。
113.从所有所述问题关键词中获取与所述文本关键词之间的相关性数值最高的目标问题关键词；
114.在本实施例中，在计算得到文本关键词与文本数据库内存储的所有问题关键词之间的相关性数值后，通过对所有相关性数值进行数值比较，进而筛选出数值最高的目标相关性数值，而与该目标相关性数值对应的问题关键词即为目标问题关键词。
115.从所述文本数据库内获取与所述目标问题关键词对应的问题引导文本数据；
116.在本实施例中，文本数据库为预先根据常见的问题文本集合，以及与问题文本集合中包含的常见的问题文本对应的问题引导文本构建生成的。通过基于目标问题关键词对文本数据库进行查询处理，可以从文本数据库中查找出与该目标问题关键词对应的问题引导文本数据。
117.将所述问题引导文本数据作为所述目标问题引导文本。
118.本技术在生成了与问题文本对应的文本关键词后，可以通过使用互信息算法来自动快速地从文本数据库内中查找出与文本关键词对应的目标问答引导文件，使得不需要人工进行对于问题数据的查询处理，减少了人工查阅资料的时间，节省了数据查询处理的人力资源，有效提高了对于问题数据的处理效率。
119.在本实施例的一些可选的实现方式中，在步骤s204之前，上述电子设备还可以执行以下步骤：
120.获取指定问题文本集合；
121.在本实施例中，指定问题文本集合可指预先收集的文字形式的业务常见问题集合，业务常见问题集合内可包括多个业务常见问题。
122.对于所述指定问题文本集合内包含的每一个指定问题文本，基于所述词向量模型确定出与所述指定问题文本对应的指定问题关键词；
123.在本实施例中，基于词向量模型确定出与指定问题文本集合内包含的每一个指定问题文本对应的指定问题关键词的处理方式可参照基于词向量模型对问题文本进行关键词提取得到第一关键词的处理方式，在此不作过多阐述。
124.获取与所述指定问题文本对应的指定问题引导文本；
125.在本实施例中，对应于预先收集的每一个业务常见问题，可同时收集与该业务常见问题对应的问题引导文本并进行存储。
126.对所述指定问题关键词与所述指定问题引导文本建立关联关系；
127.在本实施例中，对指定问题关键词与指定问题引导文本建立关联关系，可指将指定问题关键词作为具有对应关系的指定问题引导文本的索引信息。
128.基于所述关联关系将所述指定问题关键词与所述指定问题引导文本对应存储于
预设数据库内，得到所述文本数据库。
129.在本实施例中，预设数据库可为本地的数据库，也可为云端的数据库。
130.本技术通过预先根据收集的常见的问题文本集合以及相应的问题引导文本数据，来构建生成文本数据库，使得后续在生成了与问题文本对应的文本关键词后，能够快速便捷地从该文本数据库中查找出与文本关键词对应的目标问答引导文件，有效提高了目标问答引导文件的获取速率，提高了对于用户提出的问题数据的处理效率与处理智能性。
131.在本实施例的一些可选的实现方式中，步骤s205包括以下步骤：
132.将所述目标问题引导文本输入至预设的语音生成模型；
133.在本实施例中，语音生成模型为用于将文字转换成语音的处理模型，例如可采用通用的转换软件作为该语音生成模型。
134.接收所述语音生成模型输出的与所述目标问题引导文本对应的引导语音；
135.在本实施例中，通过语音生成模型可对输入的目标问题引导文本转换成相应的语音数据并输出。另外，可以根据用户性别信息来确定引导语音的音色，以提高语音数据的生成智能性。如果用户性别信息可为男性，则将目标问题引导文本转换成女声音色的音频数据。而如果用户性别信息可为女性，则将目标问题引导文本转换成男声音色的音频数据
136.播放所述引导语音。
137.在本实施例中，通过播放该引导语音以通过语音方式向用户推送目标问题引导文本。另外，可以根据用户性别信息来确定播放该引导语音的方式。举例地，若用户性别信息可为男性，在采用女声方式进行
138.本技术通过使用语音生成模型生成与目标问题引导文本对应的引导语音，再通过播放引导语音的方式以向用户推送目标问题引导文本，使得用户可以方便快捷地接收到与提出的问题语音对应的反馈数据，提高了用户的使用体验。
139.需要强调的是，为进一步保证上述目标问题引导文本的私密和安全性，上述目标问题引导文本还可以存储于一区块链的节点中。
140.本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
141.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
142.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
143.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读
取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)等非易失性存储介质，或随机存储记忆体(random access memory，ram)等。
144.应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
145.进一步参考图3，作为对上述图2所示方法的实现，本技术提供了一种问题数据的处理装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。
146.如图3所示，本实施例所述的问题数据的处理装置300包括：转换模块301、提取模块302、生成模块303、第一确定模块304以及推送模块305。其中：
147.转换模块301，用于接收用户输入的问题语音，并将所述问题语音转换成问题文本；
148.提取模块302，用于基于预设的词向量模型对所述问题文本进行关键词提取得到第一关键词，以及基于预设关键词提取算法对所述问题文本进行关键词提取得到第二关键词；
149.生成模块303，用于基于所述第一关键词与所述第二关键词生成与所述问题文本对应的文本关键词；
150.第一确定模块304，用于基于互信息算法从预设的文本数据库内确定出与所述文本关键词对应的目标问题引导文本；
151.推送模块305，用于向所述用户推送所述目标问题引导文本。
152.在本实施例中，上述模块或单元分别用于执行的操作与前述实施方式的问题数据的处理方法的步骤一一对应，在此不再赘述。
153.在本实施例的一些可选的实现方式中，提取模块302包括：
154.第一处理子模块，用于通过所述词向量模型对所述问题文本进行处理得到对应的问题向量文件；
155.第二处理子模块，用于对所述问题文本进行预处理得到候选关键词；其中，所述候选关键词的数量包括多个；
156.提取子模块，用于遍历所述候选关键词，从所述问题向量文件中提取出所述候选关键词的词向量表示；
157.第三处理子模块，用于基于所述候选关键词的词向量表示，通过预设聚类算法对所有所述候选关键词进行聚类处理，从所有所述候选关键词中确定出所述第一关键词。
158.在本实施例中，上述模块或单元分别用于执行的操作与前述实施方式的问题数据的处理方法的步骤一一对应，在此不再赘述。
159.在本实施例的一些可选的实现方式中,第二处理子模块包括：
160.第一处理单元，用于通过预设分词工具对所述问题文本进行分词处理，得到对应
的第一词语集合；
161.第二处理单元，用于基于预设的停用词列表对所述第一词语集合进行停用词剔除，得到对应的第二词语集合；
162.第一确定单元，用于将所述第二词语集合内的所有词语作为所述候选关键词。
163.本实施例中，上述模块或单元分别用于执行的操作与前述实施方式的问题数据的处理方法的步骤一一对应，在此不再赘述。
164.在本实施例的一些可选的实现方式中，生成模块303包括：
165.合并子模块，用于对所述第一关键词与所述第二关键词进行合并处理，得到对应的第三词语集合；
166.去重模块，用于对所述第三词语集合中的所有词语进行词语去重处理，得到处理后的第四词语集合；
167.第一确定子模块，用于将所述第四词语集合内包含的所有词语作为所述文本关键词。
168.在本实施例中，上述模块或单元分别用于执行的操作与前述实施方式的问题数据的处理方法的步骤一一对应，在此不再赘述。
169.在本实施例的一些可选的实现方式中，第一确定模块304包括：
170.计算子模块，用于基于所述互信息算法计算所述文本关键词与所述文本数据库内存储的所有问题关键词之间的相关性数值；
171.第一获取子模块，用于从所有所述问题关键词中获取与所述文本关键词之间的相关性数值最高的目标问题关键词；
172.第二获取子模块，用于从所述文本数据库内获取与所述目标问题关键词对应的问题引导文本数据；
173.第二确定子模块，用于将所述问题引导文本数据作为所述目标问题引导文本。
174.在本实施例中，上述模块或单元分别用于执行的操作与前述实施方式的问题数据的处理方法的步骤一一对应，在此不再赘述。
175.在本实施例的一些可选的实现方式中，问题数据的处理装置还包括：
176.第一获取模块，用于获取指定问题文本集合；
177.第二确定模块，用于对于所述指定问题文本集合内包含的每一个指定问题文本，基于所述词向量模型确定出与所述指定问题文本对应的指定问题关键词；
178.第二获取模块，用于获取与所述指定问题文本对应的指定问题引导文本；
179.处理模块，用于对所述指定问题关键词与所述指定问题引导文本建立关联关系；
180.存储模块，用于基于所述关联关系将所述指定问题关键词与所述指定问题引导文本对应存储于预设数据库内，得到所述文本数据库。
181.在本实施例中，上述模块或单元分别用于执行的操作与前述实施方式的问题数据的处理方法的步骤一一对应，在此不再赘述。
182.在本实施例的一些可选的实现方式中，推送模块305，包括：
183.输入子模块，用于将所述目标问题引导文本输入至预设的语音生成模型；
184.接收子模块，用于接收所述语音生成模型输出的与所述目标问题引导文本对应的引导语音；
185.播放子模块，用于播放所述引导语音。
186.在本实施例中，上述模块或单元分别用于执行的操作与前述实施方式的问题数据的处理方法的步骤一一对应，在此不再赘述。
187.为解决上述技术问题，本技术实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。
188.所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit，asic)、可编程门阵列(field－programmable gate array，fpga)、数字处理器(digital signal processor，dsp)、嵌入式设备等。
189.所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
190.所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(smart media card,smc)，安全数字(secure digital,sd)卡，闪存卡(flash card)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如问题数据的处理方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
191.所述处理器42在一些实施例中可以是中央处理器(central processing unit，cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述问题数据的处理方法的计算机可读指令。
192.所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
193.与现有技术相比，本技术实施例主要有以下有益效果：
194.本技术实施例中，在将用户输入的问题语音转换成问题文本后，会先基于预设的词向量模型对问题文本进行关键词提取得到第一关键词，以及基于预设关键词提取算法对问题文本进行关键词提取得到第二关键词，然后会基于得到的第一关键词与第二关键词生成与问题文本对应的文本关键词，最后基于互信息算法从预设的文本数据库内确定出与文本关键词对应的目标问题引导文本，并向用户推送目标问题引导文本。本技术通过结合使用词向量模型与预设关键词提取算法来生成与问题文本对应的文本关键词，可以保证生成
的文本关键词完整性与准确性。进而可以通过基于互信息算法实现快捷智能地从文本数据库内确定出与文本关键词对应的目标问题引导文本，使得不需要人工进行对于问题数据的查询处理，减少了人工查阅资料的时间，节省了数据查询处理的人力资源，有效提高了对于问题数据的处理效率。
195.本技术还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的问题数据的处理方法的步骤。
196.与现有技术相比，本技术实施例主要有以下有益效果：
197.本技术实施例中，在将用户输入的问题语音转换成问题文本后，会先基于预设的词向量模型对问题文本进行关键词提取得到第一关键词，以及基于预设关键词提取算法对问题文本进行关键词提取得到第二关键词，然后会基于得到的第一关键词与第二关键词生成与问题文本对应的文本关键词，最后基于互信息算法从预设的文本数据库内确定出与文本关键词对应的目标问题引导文本，并向用户推送目标问题引导文本。本技术通过结合使用词向量模型与预设关键词提取算法来生成与问题文本对应的文本关键词，可以保证生成的文本关键词完整性与准确性。进而可以通过基于互信息算法实现快捷智能地从文本数据库内确定出与文本关键词对应的目标问题引导文本，使得不需要人工进行对于问题数据的查询处理，减少了人工查阅资料的时间，节省了数据查询处理的人力资源，有效提高了对于问题数据的处理效率。
198.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本技术各个实施例所述的方法。
199.显然，以上所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例，附图中给出了本技术的较佳实施例，但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本技术专利保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：自动驾驶软件升级方法、装置、存储介质及计算机设备与流程

问题数据的处理方法、装置、计算机设备及存储介质与流程

相关文献

最热文献