新闻语料的文本分类处理方法、装置、设备及存储介质与流程

2023-03-19 12:48:48 来源：中国专利 TAG：

1.本公开涉及计算机自然语言处理技术，尤其涉及一种新闻语料的文本分类处理方法、装置、设备及存储介质。
背景技术：
：：2.现有技术中，量化策略中所涉及到的因子众多，其中，除了技术指标外，新闻语料对策略也会产生非常重要的影响，处理好新闻语料这个因子可以有效提升量化决策的准确性。当前主流处理新闻语料的主流方案是基于长短期记忆网络(lstm)或者bert网络进行情感分类监督训练。3.这两种做法有以下缺陷:首先，很多新闻语料中既有对市场的乐观观点也有对市场的悲观观点，常用表达手法如转折，“但是”两字后面的内容才是重点，长短期记忆网络因为其特性在特征提取时也会提取“但是”两字前的内容，会引入无效信息。其次，大部分新闻语料的文字描述内容是很多的，其中很大一部分描述并不是陈述观点而是陈述一些客观事实，传统训练方式会把文段全部信息作为输入，这样训练的效率并不高。再次，量化策略需要随市场及时改变，长短期记忆网络训练因为串行化的特点导致时间过长，可能会影响做出策略的及时性。最后，新闻可能有误导性，其观点和市场实际表现相反，缺少正相关性。技术实现要素：4.本公开提供一种新闻语料的文本分类处理方法、装置、设备及存储介质，用以解决新闻语料的文本类别分类准确性低，导致涉及新闻语料的量化策略的准确性低的问题。5.一方面，本公开提供一种新闻语料的文本分类处理方法，上述方法包括：6.对获取到的新闻语料进行分词处理，以得到分词词组；7.对上述分词数组进行词嵌入编码处理，以得到多维张量表示的分词词组；8.采用预训练得到的基于bert-cnn的文本类别分类模型，确定目标指标张量与上述多维张量表示的分词词组之间的相关性，以基于上述相关性确定上述新闻语料对应的文本类别，其中，上述目标指标张量用于表征预先标注得到的至少一个技术指标对应的张量。9.进一步地，上述方法还包括：10.获取新闻语料库中的上述新闻语料，以及上述新闻语料的发表时段和语言种类；11.对上述新闻语料进行过滤处理，得到过滤后语料；12.依据上述新闻语料的发表时段和语言种类，对上述过滤后语料进行归类处理，得到归类后语料；13.上述对获取到的新闻语料进行分词处理，以得到分词词组，包括：采用分词器对上述归类后语料中的文字进行分词处理，得到上述分词词组。14.进一步地，上述分词词组为分词器输出的采用二维张量表示的上述分词数组，上述对上述分词数组进行词嵌入编码处理，以得到多维张量表示的分词词组，包括：15.对上述二维张量表示的分词数组，进行词嵌入编码处理，以得到上述多维张量表示的分词词组，其中，上述二维张量包括：发表时段和分词，上述多维张量包括：发表时段、分词和词张量。16.进一步地，上述采用预训练得到的基于bert-cnn的文本类别分类模型，确定目标指标张量与上述多维张量表示的分词词组之间的相关性，包括：17.基于目标函数对上述目标指标张量和上述多维张量表示的分词词组进行协方差计算，得到协方差值，其中，上述目标函数用于提升上述多维张量表示的分词词组和上述目标指标张量的正相关性；18.采用上述基于bert-cnn的文本类别分类模型，根据上述协方差值确定上述目标指标张量与上述多维张量表示的分词词组之间的相关性。19.进一步地，上述方法还包括：20.采用多组样本数据通过机器学习训练初始bert模型，得到训练后bert模型，其中，多组样本数据中的每组数据包括：通用语料及其对应的文本类别，新闻语料及其对应的文本类别，与至少一个技术指标相关的新闻语料及其对应的文本类别；21.在上述训练后bert模型的输出层之前，拼接卷积神经网络cnn层，以得到上述文本类别分类模型。22.进一步地，上述方法还包括：23.获取不同的服务器节点各自运行的上述文本类别分类模型，以及上述文本类别分类模型的bert模型参数；24.采用网络磁盘存储上述不同的服务器节点对应的上述bert模型参数，以根据上述不同的服务器节点对应的上述bert模型参数，得到均值归一化后的模型参数；25.采用消息队列将上述均值归一化后的模型参数发送到上述不同的服务器节点，以使得上述不同的服务器节点采用上述均值归一化后的模型参数，对本地运行的上述文本类别分类模型进行同步处理。26.进一步地，上述技术指标包括如下至少之一：市场技术随机指标，日成交量净额指标，市场变化趋势指标。27.另一方面，本公开提供一种新闻语料的文本分类处理装置，上述装置包括：28.分词处理模块，用于对获取到的新闻语料进行分词处理，以得到分词词组；29.编码处理模块，用于对上述分词数组进行词嵌入编码处理，以得到多维张量表示的分词词组；30.文本分类模块，用于采用预训练得到的基于bert-cnn的文本类别分类模型，确定目标指标张量与上述多维张量表示的分词词组之间的相关性，以基于上述相关性确定上述新闻语料对应的文本类别，其中，上述目标指标张量用于表征预先标注得到的至少一个技术指标对应的张量。31.进一步地，上述装置还包括：第一获取模块，用于获取新闻语料库中的上述新闻语料，以及上述新闻语料的发表时段和语言种类；过滤模块，用于对上述新闻语料进行过滤处理，得到过滤后语料；归类模块，用于依据上述新闻语料的发表时段和语言种类，对上述过滤后语料进行归类处理，得到归类后语料；32.上述分词处理模块，还用于采用分词器对上述归类后语料中的文字进行分词处理，得到上述分词词组。33.进一步地，上述分词词组为分词器输出的采用二维张量表示的上述分词数组，上述编码处理模块，还用于对上述二维张量表示的分词数组，进行词嵌入编码处理，以得到上述多维张量表示的分词词组，其中，上述二维张量包括：发表时段和分词，上述多维张量包括：发表时段、分词和词张量。34.进一步地，上述文本分类模块，包括：35.协方差计算模块，基于目标函数对上述目标指标张量和上述多维张量表示的分词词组进行协方差计算，得到协方差值，其中，上述目标函数用于提升上述多维张量表示的分词词组和上述目标指标张量的正相关性；36.相关性确定模块，用于采用上述基于bert-cnn的文本类别分类模型，根据上述协方差值确定上述目标指标张量与上述多维张量表示的分词词组之间的相关性。37.进一步地，上述装置还包括：38.训练模块，用于采用多组样本数据通过机器学习训练初始bert模型，得到训练后bert模型，其中，多组样本数据中的每组数据包括：通用语料及其对应的文本类别，新闻语料及其对应的文本类别，与至少一个技术指标相关的新闻语料及其对应的文本类别；39.拼接模块，用于在上述训练后bert模型的输出层之前，拼接卷积神经网络cnn层，以得到上述文本类别分类模型。40.进一步地，上述装置还包括：41.第二获取模块，用于获取不同的服务器节点各自运行的上述文本类别分类模型，以及上述文本类别分类模型的bert模型参数；42.存储模块，用于采用网络磁盘存储上述不同的服务器节点对应的上述bert模型参数，以根据上述不同的服务器节点对应的上述bert模型参数，得到均值归一化后的模型参数；43.后续训练模块，采用消息队列将上述均值归一化后的模型参数发送到上述不同的服务器节点，以使得上述不同的服务器节点采用上述均值归一化后的模型参数，对本地运行的上述文本类别分类模型进行同步处理。44.另一方面，本公开提供一种电子设备，包括：处理器，以及与上述处理器连接的存储器；上述存储器存储计算机执行指令；上述处理器执行上述存储器存储的计算机执行指令，以实现如任一项上述的方法。45.另一方面，本公开提供一种计算机可读存储介质，上述计算机可读存储介质中存储有计算机执行指令，上述计算机执行指令被处理器执行时用于实现如任一项上述的方法。46.另一方面，本公开提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现任一项上述的方法。47.本公开提供的新闻语料的文本分类处理方法，通过对获取到的新闻语料进行分词处理，以得到分词词组；对分词数组进行词嵌入编码处理，以得到多维张量表示的分词词组；采用预训练得到的基于bert-cnn的文本类别分类模型，确定目标指标张量与多维张量表示的分词词组之间的相关性，以基于相关性确定新闻语料对应的文本类别，其中，目标指标张量用于表征预先标注得到的至少一个技术指标对应的张量。用以解决新闻语料的文本类别分类准确性低，涉及新闻语料的量化策略的准确性低，与市场实际表现相反的问题，进而提升涉及新闻语料的量化策略的准确性的技术效果。附图说明48.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。49.图1是本公开实施例所提供的一种新闻语料的文本分类处理方法的流程示意图；50.图2是本公开实施例所提供的一种对新闻语料预处理的流程示意图；51.图3是本公开实施例所提供的一种对初始bert模型进行预训练的流程示意图；52.图4为本公开实施例提供的一种基于bert-cnn的文本类别分类模型的框架示意图；53.图5是本公开实施例所提供的一种不同服务器节点的并行训练的流程示意图；54.图6为本公开实施例提供的一种新闻语料的文本分类处理装置的结构框图；55.图7为本公开实施例提供的一种电子设备的结构示意图。56.通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。具体实施方式57.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。58.首先对本公开所涉及的名词进行解释：59.量化策略：是指使用计算机作为工具，利用量化的方法，通过一套固定的逻辑来进行金融市场的分析、判断和交易的策略、算法的总称。所谓的量化就是通过海量的数据客观分析决策，利用模型扑捉价差，获得持续稳定的收益，从而避免了人为主观因素干扰。60.因子：是指能够对不同资产的收益具有解释力的要素，最简单的因子就是capm的市场组合的超额收益，又称市场因子(mkt)。61.卷积神经网络：是指一类包含卷积计算且具有深度结构的前馈神经网络。62.循环神经网络：是指一类以序列数据作为输入，在序列的演进方向进行递归且所有节点按链式连接的递归神经网络。63.长短期记忆网络(lstm)：长短期记忆网络是一种时间循环神经网络，是为了解决循环神经网络中存在的长期依赖问题而专门设计出来的。64.自主力机制：通过三元组参数提供了一种有效的捕捉全局上下文信息的建模方式。65.transformers神经网络模型：一种基于自主力机制实现的支持并行的神经网络模型，能够有效地缓解循环神经网络梯度消失问题。66.bert神经网络模型：是一种全新的预训练语言模型，使用了transformer神经网络模型的encoder层来进行特征的提取，采用了预训练和微调(fine-tuning)的训练模式，通过掩码语言模型maskedlm任务和下一句预测nsp(nextsentenceprediction)任务来学习深度单词级和句子级的特征，在不同的下游任务上通过fine-tuning的方式训练和测试，以此得到最终的模型和实验结果。67.maskedlm任务：在bert神经网络模型的预训练任务中，用于捕捉单词级别的特征。68.nextsentenceprediction任务:在bert神经网络模型的预训练任务中，用于捕捉句子级的特征。69.市场技术随机指标(kd随机指标)：又称为全程kdj指标，随机震荡指数，是技术分析指标的一种。70.日成交量净额指标(obv指标)：用于表征成交量净额，是累计每一天成交量的需要和供给变化的趋势。71.市场变化趋势指标(macd指标)：用于表征异同移动平均线，是从双指数移动平均线发展而来，macd的变化表示着市场趋势的变化。72.在一个创新和变革的时代中，信息技术、工程技术、互联网、物联网甚至万联网已经改变了人们的衣食住行，改变了我们的生活。如今，这些技术也开始逐渐渗透到智力博弈领域，例如，量化策略。73.当前量化策略中所涉及到的因子众多，其中，除了技术指标外，新闻语料对量化策略也会产生非常重要的影响，处理好新闻语料这个因子可以有效提升量化决策的准确性。74.但是，首先，当前主流处理新闻语料的主流方案是基于长短期记忆网络(lstm)或者bert网络进行情感分类监督训练，目标函数主要是通过神经网络的输出张量与提前标注好的目标张量做交叉熵，现有方案并没有和市场技术指标相关联。其次，传统方法大多是基于开源的传统bert模型，该传统bert模型是基于日常语料构建的，并没有对预训练任务进行额外特有领域语料的再训练和设置下游任务。再次，传统bert模型不需要有很高的迭代性，所以通常是串行训练，而量化领域中需要快速做出响应，所以需要模型在短时间完成快速更迭，所以本公开实施例中还涉及并行训练方法。75.本公开提供的新闻语料的文本分类处理方法，旨在解决现有技术的如上技术问题。76.下面以具体地实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本公开的实施例进行描述。77.图1是本公开实施例所提供的一种新闻语料的文本分类处理方法的流程示意图，如图1所示，该方法包括：78.s101，对获取到的新闻语料进行分词处理，以得到分词词组。79.s102，对上述分词数组进行词嵌入编码处理，以得到多维张量表示的分词词组。80.s103，采用预训练得到的基于bert-cnn的文本类别分类模型，确定目标指标张量与上述多维张量表示的分词词组之间的相关性，以基于上述相关性确定上述新闻语料对应的文本类别。81.可选的，在本公开实施例中，上述目标指标张量用于表征预先标注得到的至少一个技术指标对应的张量。82.一种示例中，上述技术指标包括如下至少之一：市场技术随机指标，日成交量净额指标，市场变化趋势指标。83.可选的，上述新闻语料可以是从新闻语料库中收集到的，例如，从新闻语料库中重点收集知名度较高的杂志或者电子报纸等，如麦肯锡、得勤等等，得到的语料数据作为本公开实施例中的新闻语料。84.在收集到新闻语料之后，可以先过滤掉该新闻语料中文章质量较低的杂志和文章，以提升确定新闻语料的文本类别分类的准确性。85.由于大部分新闻语料采用的是总分总的段落格式，首段和末尾段通常是重点，因此，可以采用抽取器，对过滤后的新闻语料提取首段和末尾段的文字，针对中间段采用随机抽样提取文字，得到抽取结果。之后，采用分词器对该抽取器的抽取结果进行分词处理，分词处理的目的是对抽取器的抽取结果进行分词，例如，分别对不同语言类别(如中文、英文)的抽取结果，采用不同的分词器，以对应得到不同语言对应的分词词组。86.可选的，本公开实施例中，分词器输出的分词词组可以采用二维张量(k,m)表示，其中，k是发表时段，以表征日期区间维度，m代表分词。87.之后，针对分词器输出的分词词组，可以采用编码器对该分词数组进行词嵌入编码处理，以得到多维张量(k,m,n)表示的分词词组，其中，k是发表时段，以表征日期区间维度，m表示分词，n表示词张量。88.本公开实施例中所提供的预训练得到的基于bert-cnn的文本类别分类模型，相比较传统的bert神经网络模型采用通用语料及其对应的文本类别进行预训练之外，还采用新闻语料及其对应的文本类别、与至少一个技术指标相关的新闻语料及其对应的文本类别，进行预训练，并且，在上述训练后bert模型的输出层之前，拼接卷积神经网络cnn层。89.因此，采用本公开实施例中所提供的经特殊预训练得到的，基于bert-cnn的文本类别分类模型，可以更准确的预测该目标指标张量与上述多维张量表示的分词词组之间的相关性，以基于上述相关性确定上述新闻语料对应的文本类别。90.在本公开实施例中，通过基于上述相关性确定上述新闻语料对应的文本类别，进而可以处理好新闻语料这个影响量化策略的因子，可以解决新闻语料的文本类别分类准确性低，与市场实际表现相反的问题，进而提升涉及新闻语料的量化策略的准确性的技术效果。91.一种可选的实施例中，上述方法还包括：92.s201，获取新闻语料库中的上述新闻语料，以及上述新闻语料的发表时段和语言种类。93.s202，对上述新闻语料进行过滤处理，得到过滤后语料。94.s203，依据上述新闻语料的发表时段和语言种类，对上述过滤后语料进行归类处理，得到归类后语料。95.本公开实施例中，如图2所示，可以是从新闻语料库中收集到该新闻语料，并且，收集到新闻语料的发表时段和语言种类。例如，从新闻语料库中重点收集知名度较高的杂志或者电子报纸等，如麦肯锡、得勤等等，得到的语料数据作为本公开实施例中的新闻语料。96.在收集到新闻语料之后，可以先过滤掉该新闻语料中文章质量较低的杂志和文章，以提升确定新闻语料的文本类别分类的准确性。97.针对过滤后语料，再依据收集新闻语料确定的发表时段和语言种类，对过滤后语料进行归类处理，得到归类后语料。例如，按照发表时段主要是为了，匹配与发表该新闻语料时相对应时段的技术指标，比如某年2-4月的新闻语料集合一般只和相同时段的技术指标相关联。98.结合上述可选的实施例，上述s101，对获取到的新闻语料进行分词处理，以得到分词词组，包括：99.s1010，采用分词器对上述归类后语料中的文字进行分词处理，得到上述分词词组。100.可选的，由于大部分新闻语料采用的是总分总的段落格式，首段和末尾段通常是重点，因此，本公开实施例中，仍如图2所示，还可以采用抽取器对归类后语料执行文段抽取，以提取首段和末尾段的文字，针对中间段采用随机抽样提取文字，得到抽取结果。101.之后，采用分词器对该抽取器的抽取结果进行分词处理，分词处理的目的是对抽取器的抽取结果进行分词，例如，分别对不同语言类别(如中文、英文)的抽取结果，采用不同的分词器，以对应得到不同语言对应的分词词组(词组列表)。102.此外，在本公开实施例中，还采用语料字典可以对上述分词词组中的每个分词进行索引映射，以得到索引映射后的整数数组。103.另一种示例中，上述分词词组为分词器输出的采用二维张量表示的上述分词数组，上述s102，对上述分词数组进行词嵌入编码处理，以得到多维张量表示的分词词组，包括：104.s1020，对上述二维张量表示的分词数组，进行词嵌入编码处理，以得到上述多维张量表示的分词词组，其中，上述二维张量包括：发表时段和分词，上述多维张量包括：发表时段、分词和词张量。105.可选的，本公开实施例中，分词器输出的分词词组可以采用二维张量(k,m)表示，其中，k是发表时段，以表征日期区间维度，m表示分词。106.之后，针对分词器输出的分词词组，可以采用编码器对该分词数组进行词嵌入编码处理，以得到多维张量(k,m,n)表示的分词词组，其中，k是发表时段，以表征日期区间维度，m代表分词，n表示词张量。107.例如，采用编码器对分词器输出的二维整数张量进行词嵌入编码，按照词向量字典将每个词映射为长度是768的词向量，最终信息维度为(k,m,n)的三维张量，其中n为768。108.本公开实施例中，得到多维张量表示的分词词组，以得到基于bert-cnn的文本类别分类模型进行文本类别分类处理的输入数据，可以更准确的预测该目标指标张量与上述多维张量表示的分词词组之间的相关性。109.一种示例中，上述采用预训练得到的基于bert-cnn的文本类别分类模型，确定目标指标张量与上述多维张量表示的分词词组之间的相关性，包括：110.s301，基于目标函数对上述目标指标张量和上述多维张量表示的分词词组进行协方差计算，得到协方差值。111.s302，采用上述基于bert-cnn的文本类别分类模型，根据上述协方差值确定上述目标指标张量与上述多维张量表示的分词词组之间的相关性。112.本公开实施例中，上述目标函数用于提升上述多维张量表示的分词词组和上述目标指标张量的正相关性；上述目标指标张量用于表征预先标注得到的至少一个技术指标对应的张量，即市场技术指标张量。113.为了使基于bert-cnn的文本类别分类模型输出的文本类别分类结果，与目标指标张量，例如，市场技术指标的表现更加接近，提升目标指标张量与上述多维张量表示的分词词组之间的正相关性。114.本公开实施例中，可以选取三个市场技术指标张量yi(如：kd随机指标,obv指标,macd指标)和多维张量表示的分词词组xi进行协方差计算，其中，均值输出张量为x，均值市场技术指标张量y。115.由于协方差的值为-1到 1，其中-1表示两者是最大负相关，即文本类别分类结果模型输出的文本类别分类结果，与市场技术指标所反映的情况是相反的， 1表示两者是最大正相关，即文本类别分类结果模型输出的文本类别分类结果，与市场技术指标所反映的情况是基本一致。116.为了使协方差的值更加接近 1，本公开实施例中，还预先设计了以下的目标函数:117.目标函数＝maxnf；118.协方差函数其中，k为新闻语料的索引号，n为新闻语料的个数。119.此外，还存在一种可选的实施例，由于以上三个市场技术指标之间可能存在相差过大，导致拟合性差的问题，因此，在进行协方差计算前，还可以预先对三个市场技术指标进行softmax归一化处理，以提升拟合性效果。120.本公开实施例中，结合可以用于反应新闻语料在市场表现的部分代表性技术指标，设计了目标函数来提升新闻语料与市场表现的正相关性，解决了传统bert模型中预测结果与市场表现正相关性不强，串行训练速度慢的特点。121.一种示例中，上述方法还包括：122.s401，采用多组样本数据通过机器学习训练初始bert模型，得到训练后bert模型，其中，多组样本数据中的每组数据包括：通用语料及其对应的文本类别，新闻语料及其对应的文本类别，与至少一个技术指标相关的新闻语料及其对应的文本类别；123.s402，在上述训练后bert模型的输出层之前，拼接卷积神经网络cnn层，以得到上述文本类别分类模型。124.本公开实施例中，预训练得到的基于bert-cnn的文本类别分类模型，主要是提取语义特征，为了提高预训练的效率，可以采用并行训练方式，同时执行三种训练方式，还可以如图3所示的三段式顺序训练方式，例如，相比较传统的bert神经网络模型采用通用语料及其对应的文本类别进行预训练之外，还采用新闻语料及其对应的文本类别、与至少一个技术指标相关的新闻语料及其对应的文本类别，进行预训练，得到训练后bert模型。125.如图4所示，训练后bert模型中的网络层结构依次包含：输入层、自注意力层、相加并归一化层、前馈神经网络层、相加并归一化层和输出层。126.需要说明的是，如图4所示的基于bert-cnn的文本类别分类模型的结构图是一个简化示意图，实际在模型构建时，右侧的训练后bert模型可以重叠12次，以使得数据拟合性更好。127.仍如图4所示，本公开实施例中，还可以对经上述三段式训练得到的训练后bert模型进行简单改造，在上述训练后bert模型的输出层之前，也即相加并归一化层和输出层之间，拼接卷积神经网络cnn层，得到最终的文本类别分类模型。通过训练后bert模型的输出层之前，拼接卷积神经网络cnn层，可以使得基于bert-cnn的文本类别分类模型的输出张量的维度和市场技术指标个数相同。128.另一示例中，如图5所示，上述方法还包括：129.s501，获取不同的服务器节点各自运行的上述文本类别分类模型，以及上述文本类别分类模型的bert模型参数。130.s502，采用网络磁盘存储上述不同的服务器节点对应的上述bert模型参数，以根据上述不同的服务器节点对应的上述bert模型参数，得到均值归一化后的模型参数。131.s503，采用消息队列将上述均值归一化后的模型参数发送到上述不同的服务器节点，以使得上述不同的服务器节点采用上述均值归一化后的模型参数，对本地运行的上述文本类别分类模型进行同步处理。132.本公开实施例中，为了满足文本类别分类模型的快速更迭速度，提升文本类别分类模型的预测能力，还可以采用集群多服务器节点，对不同的服务器节点各自运行的文本类别分类模型进行并行训练。133.可选的，不同的服务器节点各自运行的上述文本类别分类模型，可以但不限于是采用本公开实施例中所提供的预训练方式，由不同的服务器节点各自独立训练得到的；此外，并行训练过程中也可以，但不限于采用本公开实施例中所提供的预训练方式进行训练。134.在并行训练过程中，同一时刻不同服务器节点训练出的bert模型参数是不一致的，因此，通过获取不同的服务器节点各自运行的上述文本类别分类模型，以及上述文本类别分类模型的bert模型参数，可以对不同服务器节点上运行的文本类别分类模型的bert模型参数进行均值归一处理。135.例如，可以采用网络磁盘存储上述不同的服务器节点对应的上述bert模型参数，以根据上述不同的服务器节点对应的上述bert模型参数，得到均值归一化后的模型参数，以生成统一的文本类别分类模型。136.之后，再将统一的文本类别分类模型的bert模型参数，传递到不同的服务器节点进行参数同步，而由于不同服务器节点相互采用点对点的方式直接传递参数的效率较低。137.并且，在整个训练的过程中，不同服务器节点可能会参数同步很多次，所以同步的效率也十分重要，因此，本公开实施例中，通过采用消息队列将上述均值归一化后的模型参数发送到上述不同的服务器节点，以使得上述不同的服务器节点采用上述均值归一化后的模型参数，对本地运行的上述文本类别分类模型进行同步处理。之后，再无限循环执行上述由不同的服务器节点各自独立训练，多个服务器节点并行训练。138.本公开实施例，通过对预训练得到的bert模型进行合理微调，连接cnn层，并制定了目标函数配合技术指标因子进行下游任务训练，可以有效增加新闻语料和技术指标因子之间的正相关性，避免有误导性的新闻文章做出错误的判断。同时还提供了一种并行训练bert模型的方法，加快了bert模型训练的速度，以使得更快的做出合理的量化策略。139.根据本公开的一个或多个实施例，提供了一种新闻语料的文本分类处理装置，图6为本公开实施例提供的一种新闻语料的文本分类处理装置的结构框图，如图6所示，上述装置包括：140.分词处理模块600，用于对获取到的新闻语料进行分词处理，以得到分词词组；141.编码处理模块601，用于对上述分词数组进行词嵌入编码处理，以得到多维张量表示的分词词组；142.文本分类模块602，用于采用预训练得到的基于bert-cnn的文本类别分类模型，确定目标指标张量与上述多维张量表示的分词词组之间的相关性，以基于上述相关性确定上述新闻语料对应的文本类别，其中，上述目标指标张量用于表征预先标注得到的至少一个技术指标对应的张量。143.根据本公开的一个或多个实施例，上述装置还包括：第一获取模块，用于获取新闻语料库中的上述新闻语料，以及上述新闻语料的发表时段和语言种类；过滤模块，用于对上述新闻语料进行过滤处理，得到过滤后语料；归类模块，用于依据上述新闻语料的发表时段和语言种类，对上述过滤后语料进行归类处理，得到归类后语料；144.上述分词处理模块，还用于采用分词器对上述归类后语料中的文字进行分词处理，得到上述分词词组。145.根据本公开的一个或多个实施例，上述分词词组为分词器输出的采用二维张量表示的上述分词数组，上述编码处理模块，还用于对上述二维张量表示的分词数组，进行词嵌入编码处理，以得到上述多维张量表示的分词词组，其中，上述二维张量包括：发表时段和分词，上述多维张量包括：发表时段、分词和词张量。146.根据本公开的一个或多个实施例，上述文本分类模块，包括：147.协方差计算模块，基于目标函数对上述目标指标张量和上述多维张量表示的分词词组进行协方差计算，得到协方差值，其中，上述目标函数用于提升上述多维张量表示的分词词组和上述目标指标张量的正相关性；148.相关性确定模块，用于采用上述基于bert-cnn的文本类别分类模型，根据上述协方差值确定上述目标指标张量与上述多维张量表示的分词词组之间的相关性。149.根据本公开的一个或多个实施例，上述装置还包括：150.训练模块，用于采用多组样本数据通过机器学习训练初始bert模型，得到训练后bert模型，其中，多组样本数据中的每组数据包括：通用语料及其对应的文本类别，新闻语料及其对应的文本类别，与至少一个技术指标相关的新闻语料及其对应的文本类别；151.拼接模块，用于在上述训练后bert模型的输出层之前，拼接卷积神经网络cnn层，以得到上述文本类别分类模型。152.根据本公开的一个或多个实施例，上述装置还包括：153.第二获取模块，用于获取不同的服务器节点各自运行的上述文本类别分类模型，以及上述文本类别分类模型的bert模型参数；154.存储模块，用于采用网络磁盘存储上述不同的服务器节点对应的上述bert模型参数，以根据上述不同的服务器节点对应的上述bert模型参数，得到均值归一化后的模型参数；155.后续训练模块，采用消息队列将上述均值归一化后的模型参数发送到上述不同的服务器节点，以使得上述不同的服务器节点采用上述均值归一化后的模型参数，对本地运行的上述文本类别分类模型进行同步处理。156.在示例性实施例中，本公开实施例还提供了一种电子设备，包括：处理器，以及与上述处理器连接的存储器；157.上述存储器存储计算机执行指令；158.上述处理器执行上述存储器存储的计算机执行指令，以实现如任一项上述的方法。159.在示例性实施例中，本公开实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如任一项所述的方法。160.在示例性实施例中，本公开实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现任一项所述的方法。161.为了实现上述实施例，本公开实施例还提供了一种电子设备。162.参考图7，其示出了适于用来实现本公开实施例的电子设备700的结构示意图，该电子设备700可以为终端设备或服务器。其中，终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(personaldigitalassistant，简称pda)、平板电脑(portableandroiddevice，简称pad)、便携式多媒体播放器(portablemediaplayer，简称pmp)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。163.如图7所示，电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701，其可以根据存储在只读存储器(readonlymemory，简称rom)702中的程序或者从存储装置708加载到随机访问存储器(randomaccessmemory，简称ram)703中的程序而执行各种适当的动作和处理。在ram703中，还存储有电子设备700操作所需的各种程序和数据。处理装置701、rom702以及ram703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。164.通常，以下装置可以连接至i/o接口705：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置707；包括例如液晶显示器(liquidcrystaldisplay，简称lcd)、扬声器、振动器等的输出装置707；包括例如磁带、硬盘等的存储装置708；以及通信装置707。通信装置707可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。165.特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置707从网络上被下载和安装，或者从存储装置708被安装，或者从rom702被安装。在该计算机程序被处理装置701执行时，执行本公开实施例的方法中限定的上述功能。166.需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、rf(射频)等等，或者上述的任意合适的组合。167.上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。168.上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。169.可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c ，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(localareanetwork，简称lan)或广域网(wideareanetwork，简称wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。170.附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。171.描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。172.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。173.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种缓存类型确定方法、装置、设备及存储介质与流程

新闻语料的文本分类处理方法、装置、设备及存储介质与流程

相关文献

最热文献