网页相似度模型的训练方法、装置、电子设备及介质与流程

2022-07-13 23:22:15 来源：中国专利 TAG：

1.本公开涉及计算机
技术领域：
：，具体涉及自然语言处理和深度学习等
技术领域：
：。
背景技术：
：：2.随着互联网技术的发展，如何从海量网页中找到所需要的相似页面，以及判断网页之间所描述内容的相似程度，是重要的研究方向。3.目前，网页相似度分析技术，一般是通过对网页文本进行特征抽取与表示交互，对网页进行内容学习，以分析出内容相似的网页。技术实现要素：4.本公开提供了网页相似度模型的训练方法、装置、电子设备及可读存储介质。5.根据本公开的一方面，提供了一种网页相似度模型的训练方法，包括：6.获取样本网页的网页数据；7.根据无回放抽样策略，从所述网页数据中抽取正文句子，以获得句子数据；8.根据所述句子数据和网页数据，获得样本数据；9.根据所述样本数据，对预训练语言模型进行训练，以获得所述网页相似度模型，用于对待测网页的相似度进行预测。10.根据本公开的另一方面，提供了另一种网页相似度的预测方法，包括：11.获取任意两个待测网页的网页数据；12.根据无回放抽样策略，分别从所述任意两个待测网页的网页数据中抽取正文句子，以获得句子数据；13.根据所述任意两个待测网页的网页数据和所述句子数据，获得所述网页相似度的预测结果。14.根据本公开的再一方面，提供了一种网页相似度模型的训练装置，包括：15.获取单元，用于获取样本网页的网页数据；16.抽取单元，用于根据无回放抽样策略，从所述网页数据中抽取正文句子，以获得句子数据；17.获得单元，用于根据所述句子数据和网页数据，获得样本数据；18.训练单元，用于根据所述样本数据，对预训练语言模型进行训练，以获得所述网页相似度模型，用于对待测网页的相似度进行预测。19.根据本公开的又一方面，提供了另一种网页相似度的预测装置，包括：20.获取单元，用于获取任意两个待测网页的网页数据；21.抽取单元，用于根据无回放抽样策略，分别从所述任意两个待测网页的网页数据中抽取正文句子，以获得句子数据；22.获得单元，用于根据所述任意两个待测网页的网页数据和所述句子数据，获得所述网页相似度的预测结果。23.根据本公开的又一方面，提供了一种电子设备，包括：24.至少一个处理器；以及25.与所述至少一个处理器通信连接的存储器；其中，26.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。27.根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。28.根据本公开的又一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。29.由上述技术方案可知，一方面，本公开实施例通过获取样本网页的网页数据，进而可以根据无回放抽样策略，从所述网页数据中抽取正文句子，以获得句子数据，再根据所述句子数据和网页数据，获得样本数据，进而能够根据所述样本数据，对预训练语言模型进行训练，以获得所述网页相似度模型，用于对待测网页的相似度进行预测，由于根据基于无回放抽样策略所获得训练样本数据，对预先训练语言模型进行训练，来获得网页相似度模型，可以根据具有更加全面和丰富的网页正文信息的样本数据进行模型训练，可以更加便于模型学到网页的全局文本信息，减少了学习的信息损失，从而增强了模型预测的鲁棒性。30.由上述技术方案可知，另一方面，本公开实施例通过获取任意两个待测网页的网页数据，进而可以根据无回放抽样策略，分别从所述任意两个待测网页的网页数据中抽取正文句子，以获得句子数据，使得能够根据所述任意两个待测网页的网页数据和所述句子数据，获得网页相似度的预测结果，由于丰富了用于网页相似度预测的网页的相关数据，即增强了用于预测的网页信息完整度，从而提高了网页相似度的预测结果的可靠性。31.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明32.附图用于更好地理解本方案，不构成对本公开的限定。其中：33.图1是根据本公开第一实施例的示意图；34.图2是根据本公开第一实施例中的获得样本数据的过程的示意图；35.图3是根据本公开第一实施例中的无监督的模型训练的示意图；36.图4是根据本公开第一实施例中的有监督的模型训练的示意图；37.图5是根据本公开第二实施例的示意图；38.图6是根据本公开第二实施例中的新闻网页的相似度预测的示意图；39.图7是根据本公开第三实施例的示意图；40.图8是根据本公开第四实施例的示意图；41.图9是用来实现本公开实施例的网页相似度模型的训练方法或网页相似度的预测方法的电子设备的框图。具体实施方式42.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。43.显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。44.需要说明的是，本公开实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理(personaldigitalassistant，pda)、无线手持设备、平板电脑(tabletcomputer)等智能设备；显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。45.另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。46.目前，相关的网页相似度分析技术大多是对短文本和短文本进行匹配或者短文本和长文本进行匹配，基于对比学习训练一个通用的预训练编码器，再利用预训练编码器对文本进行分别编码，进行页网页相似度计算。47.但是，相关技术的方案中，因为网页的篇章(文章)中的句子过长，一般是通过对句子进行截断或者选取主旨句的方式来获得用于预测的网页相关数据，所以，相关技术的方案较难有效地迁移到直接针对篇章级别的网页的相似度预测任务中。48.例如，训练基于双向转化器的编码器(bidirectionalencoderrepresentationfromtransformers,bert)的网页相似度模型时，是从网页的篇章中筛选出最相似的段落，采用该段落作为模型训练的输入文本。但是，由于仍然需要利用基于相似度排序所获得最相似的段落进行模型训练，所以较难有效地直接对两个待测网页的整体篇章进行相似度预测。49.再例如，训练基于西姆塞(simcse)的网页相似度模型时，由于simcse预训练模型的长度限制，较难对长文本和篇章进行模型训练，所以一般是直接按最大长度截断文本，以获得模型训练的输入文本。但是，这样容易损失学习信息，导致所训练的模型无法较好地学习到网页的全局信息。50.因此，亟需提供一种网页相似度模型的训练方法，能够使模型学到网页的全局文本信息，减少学习的信息损失，从而增强模型预测的鲁棒性。51.图1是根据本公开第一实施例的示意图，如图1所示。52.101、获取样本网页的网页数据。53.102、根据无回放抽样策略，从所述网页数据中抽取正文句子，以获得句子数据。54.103、根据所述句子数据和网页数据，获得样本数据。55.104、根据所述样本数据，对预训练语言模型进行训练，以获得所述网页相似度模型，用于对待测网页的相似度进行预测。56.需要说明的是，所述样本网页的网页数据可以包括但不限于标题(title)、关键字(keywords)、和切分处理后的正文(article)。57.可选地，可以对样本网页进行预处理，以获取样本网页的网页数据。58.具体地，首先，可以抽取出样本网页的标题(title)、关键字(keywords)、和正文(article)。然后，对正文按照句子切分，并可以根据正文中句子的顺序，获得每个正文句子的顺序标识，即可以获得s1,s2,s3,…,sn等句子。59.需要说明的是，样本网页可以包括新闻网页等篇章级别的网页。60.需要说明的是，无回放抽样策略是指是在从样本总体中逐个抽取样本个体时，每次被抽到的样本个体不放回样本总体中参加下一次抽取。61.需要说明的是，101～104的执行主体的部分或全部可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(softwaredevelopmentkit，sdk)等功能单元，或者还可以为位于网络侧服务器中的处理引擎，或者还可以为位于网络侧的分布式系统，例如，网络侧的网页分析平台中的处理引擎或者分布式系统等，本实施例对此不进行特别限定。62.可以理解的是，所述应用可以是安装在本地终端上的本地程序(nativeapp)，或者还可以是本地终端上的浏览器的一个网页程序(webapp)，本实施例对此不进行限定。63.这样，通过获取样本网页的网页数据，进而可以根据无回放抽样策略，从所述网页数据中抽取正文句子，以获得句子数据，再根据所述句子数据和网页数据，获得样本数据，进而能够根据所述样本数据，对预训练语言模型进行训练，以获得所述网页相似度模型，用于对待测网页的相似度进行预测，由于根据基于无回放抽样策略所获得训练样本数据，对预先训练语言模型进行训练，来获得网页相似度模型，可以根据具有更加全面和丰富的网页正文信息的样本数据进行模型训练，可以更加便于模型学到网页的全局文本信息，减少了学习的信息损失，从而增强了模型预测的鲁棒性。64.可选地，在本实施例的一个可能的实现方式中，在102中，具体可以根据所述无回放抽样策略和所述预训练语言模型的输入阈值，对所述网页数据中的正文进行句子抽取处理，以获得正文句子，进而可以根据所述正文句子的顺序标识，对所述正文句子进行排序处理，使得可以根据所述排序处理的结果，获得所述句子数据。65.在该实现方式中，无回放抽样策略可以包括但不限于基于均匀分布的无回放抽样和基于句子的权重值的无回放抽样。其中，该句子的权重值可以是根据句子的长度所确定的。66.在该实现方式中，预训练语言模型可以是基于大型语料库所预先训练的模型。在自然语言处理任务中，利用预训练语言模型可以避免从头开始训练新模型。67.具体地，预训练语言模型可以包括预训练多语言模型。例如ernie-m。这样，对不同语言的网页进行多语言同步学习，增强训练资源较少的语言(例如冰岛语等)网页的学习能力。68.在该实现方式的一个具体实现过程中，具体可以根据所述无回放抽样策略，对所述网页数据中的正文进行句子抽取处理，以获得所述正文句子，进而若所抽取的所述正文句子的总长度达到所述预训练语言模型的输入阈值，则终止所述句子抽取处理。69.在该具体实现过程中，预训练语言模型的输入阈值可以包括输入模型的文本序列的长度阈值，即输入长度。预训练语言模型的输入长度可以是固定长度，例如512个文本的字符(token)。70.该具体实现过程的一种情况，对任意一个样本网页，可以从网页数据中抽取正文的多个正文句子，当多个正文句子的总长度达到了预训练语言模型的输入阈值时，则终止所述句子抽取处理。71.这样，通过根据无放回抽样策略和预训练语言模型的输入阈值，从网页数据中抽取正文句子，可以避免对正文文本进行直接截断，即可以获得更加全面地用于表征网页正文的全局信息的句子数据，以便于后续利用基于该句子数据所确定的样本数据进行模型训练，可以使得模型可以学习到更全面完整地网页的正文特征信息。72.该具体实现过程的另一种情况，对任意一个样本网页，终止所述句子抽取处理，即终止抽取正文的句子之后，可以根据所述正文句子的顺序标识，对所述句子进行排序处理，使得可以根据所述排序的结果，获得所述句子数据。73.可以理解的是，对任意一个样本网页，可以执行多次抽取正文句子与对抽取出的正文句子进行排序处理的操作，获得多组句子数据。74.这样，在本实现方式中，可以通过根据无回放抽样策略和预训练语言模型的输入阈值，对网页数据中的正文进行句子抽取处理，获得正文句子，并根据正文句子的顺序标识，对句子进行排序处理，以获得句子数据。由此，可以获得更加全面地用于表征网页正文的全局信息的句子数据，以便于后续利用这些句子数据进行模型训练，从而使得模型可以学习到更全面的网页的正文特征信息。75.而且，根据正文句子的顺序标识，即根据句子在正文中出现的顺序，对抽取的正文句子进行排序，获得排序后的句子数据。由此，获得的句子数据可以尽可能体现正文原义，提升了句子数据的有效性，进而进一步地提升了后续获得的样本数据的有效性，以便于后续利用这些样本数据进行模型训练时，模型可以学习到更全面的网页的正文特征信息，从而进一步地，从而增强了模型预测的鲁棒性。76.可选地，在本实施例的一个可能的实现方式中，在103中，具体可以获取所述网页数据中的标题数据和关键字数据，进而可以根据所述句子数据、标题和关键字，获得样本数据。77.在该实现方式的一个具体实现过程中，对任意一个样本网页，可以将通过102所获得的句子数据和通过预处理所获得的标题和关键字作为样本数据，78.图2是根据本公开第一实施例中的获得样本数据的过程的示意图，如图2所示，具体地，对任意一个样本网页，标题、关键字、与句子数据可以使用分隔符[sep]进行分隔，作为该网页的样本数据。[0079]具体地，对任意一个样本网页，可以根据无回放抽样策略，从所述网页数据中抽取正文句子，即从s1,s2,s3,…,sn中随机抽取句子，获得s10,s2,…,s5，然后，根据正文句子的顺序标识，对s10,s2,…,s5进行排序，获得s2,s5,…,s10。s2,s5,…,s10可以作为该样本网页的句子数据。[0080]在该实现方式的另一个具体实现过程中，对任意一个样本网页，可以执行多次抽取正文句子与对抽取出的句子进行排序处理的操作，获得多组句子数据。根据该网页的标题、关键字和多组句子数据，可以获得该网页的多组样本数据。[0081]这样，在本实现方式中，可以通过根据网页的标题、关键字和基于抽样获得句子数据，获得样本数据，可以实现样本数据的增强，丰富了模型训练的样本数据，可以便于模型学到网页的全局文本信息，从而进一步地增强了模型预测的鲁棒性。[0082]需要说明的是，本实现方式中所提供的获得样本数据的具体实现过程，可以结合前述实现方式中所提供的获得句子数据的多种具体实现过程，来实现本实施例的网页相似度模型的训练方法。详细的描述可以参见前述实现方式中的相关内容，此处不再赘述。[0083]可选地，在本实施例的一个可能的实现方式中，样本网页的数量可以为多个，可以对多个样本网页中的每个样本网页执行多次102-103的操作，获得多个批次(batch)样本数据。[0084]例如，样本网页的数量可以为10个，对每个样本网页执行3次102-103的操作，可以获得3个批次的样本数据。每个批次的样本数据包括10个网页的样本数据。[0085]可选地，在本实施例的一个可能的实现方式中，在104中，具体可以根据所述样本数据，对预训练语言模型进行无监督训练，和/或，进行监督训练。[0086]在该实现方式的一个具体实现过程中，无监督训练可以包括对比学习的无监督训练。[0087]图3是根据本公开第一实施例中的无监督的模型训练的示意图，如图3所示。具体地，预训练语言模型可以是基于孪生神经网络的模型，即是可以包括预训练语言模型1和第二预训练语言模型2的结构，预训练语言模型1和第二预训练语言模型2可以共享参数。预训练语言模型可以用于提取样本数据的特征向量。[0088]例如，首先，可以将多组两个batch样本数据分别输入预训练语言模型1和第二预训练语言模型2，获得正样本特征向量对(h,h )。然后，基于如下公式(1)计算对比学习的损失函数(loss)li。最后，当满足训练终止条件时，可以获得网页相似度模型。[0089][0090]其中，sim可以表征余弦相似度，可以表征第i个样本输入预训练语言模型所获得特征向量对，τ可以表征模型的超参数。公式的分子可以表征正样本，公式的分母可以表征正样本和负样本。[0091]可以理解的是，每个batch样本数据可以是多个样本网页的样本数据。对于多个样本网页中的任意一个样本网页，该样本网页的样本数据可以作为正样本，其他样本网页的样本数据可以作为负样本。因此，每个batch样本数据可以包括正样本和负样本。[0092]在该实现方式的一个具体实现过程中，若通过103所获得的样本数据具有标签，可以将该样本数据输入预训练语言模型，进行监督训练。[0093]图4是根据本公开第一实施例中的有监督的模型训练的示意图，如图4所示。具体地，该预训练语言模型可以是基于孪生神经网络的模型，即可以包括预训练语言模型1和预训练语言模型2，两个预训练语言模型可以共享参数。[0094]例如，首先，可以将每两个样本网页的样本数据分别输入预训练语言模型1和第二预训练语言模型2，获得每个样本网页对应的特征向量u和v。然后，根据u和v，利用分类器(classifier)进行网页相似度计算。最后，当满足训练终止条件时，可以获得网页相似度模型。[0095]这样，在本实现方式中，可以通过根据所获得的样本数据，对预训练语言模型进行无监督训练和/或进行监督训练，来获得网页相似度模型，由于数据增强后的样本数据可以应用于不同训练模式的模型训练中，从而保证了网页样本数据的通用性。[0096]需要说明的是，本实现方式中所提供的模型训练的具体实现过程，可以结合前述实现方式中所提供的获得样本数据的多种具体实现过程，来实现本实施例的网页相似度模型的训练方法。详细的描述可以参见前述实现方式中的相关内容，此处不再赘述。[0097]本实施例中，通过获取样本网页的网页数据，进而可以根据无回放抽样策略，从所述网页数据中抽取正文句子，以获得句子数据，再根据所述句子数据和网页数据，获得样本数据，进而能够根据所述样本数据，对预训练语言模型进行训练，以获得所述网页相似度模型，用于对待测网页的相似度进行预测，由于根据基于无回放抽样策略所获得训练样本数据，对预先训练语言模型进行训练，来获得网页相似度模型，可以根据具有更加全面和丰富的网页正文信息的样本数据进行模型训练，可以更加便于模型学到网页的全局文本信息，减少了学习的信息损失，从而增强了模型预测的鲁棒性。[0098]另外，采用本实施例所提供的技术方案，可以通过根据无放回抽样策略和预训练语言模型的输入阈值，从网页数据中抽取正文句子，可以避免对正文文本进行直接截断，即可以获得更加全面地用于表征网页正文的全局信息的句子数据，以便于后续利用基于该句子数据所确定的样本数据进行模型训练，可以使得模型可以学习到更全面完整地网页的正文特征信息。[0099]另外，采用本实施例所提供的技术方案，可以通过根据无回放抽样策略和预训练语言模型的输入阈值，对网页数据中的正文进行句子抽取处理，获得正文句子，并根据正文句子的顺序标识，对句子进行排序处理，以获得句子数据。由此，可以获得更加全面地用于表征网页正文的全局信息的句子数据，以便于后续利用这些句子数据进行模型训练，从而使得模型可以学习到更全面的网页的正文特征信息。[0100]而且，根据正文句子的顺序标识，即根据句子在正文中出现的顺序，对抽取的正文句子进行排序，获得排序后的句子数据。由此，获得的句子数据可以尽可能体现正文原义，提升了句子数据的有效性，进而进一步地提升了后续获得的样本数据的有效性，以便于后续利用这些样本数据进行模型训练时，模型可以学习到更全面的网页的正文特征信息，从而进一步地，从而增强了模型预测的鲁棒性。[0101]另外，采用本实施例所提供的技术方案，可以通过根据网页的标题、关键字和基于抽样获得句子数据，获得样本数据，可以实现样本数据的增强，丰富了模型训练的样本数据，可以便于模型学到网页的全局文本信息，从而增强了模型预测的鲁棒性。[0102]图5是根据本公开第二实施例的示意图，如图5所示。[0103]501、获取任意两个待测网页的网页数据。[0104]502、根据无回放抽样策略，分别从所述任意两个待测网页的网页数据中抽取正文句子，以获得句子数据。[0105]503、根据所述任意两个待测网页的网页数据和所述句子数据，获得网页相似度的预测结果。[0106]需要说明的是，待测的网页可以包括新闻网页等篇章级别的网页。[0107]具体地，如图6所示，可以预测新闻网页的新闻正文的相似度，例如，0.9、4和1。根据该相似度可以确定哪些网页的新闻内容是相近的。[0108]需要说明的是，501～503的执行主体的部分或全部可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(softwaredevelopmentkit，sdk)等功能单元，或者还可以为位于网络侧服务器中的处理引擎，或者还可以为位于网络侧的分布式系统，例如，网络侧的网页分析平台中的处理引擎或者分布式系统等，本实施例对此不进行特别限定。[0109]可以理解的是，所述应用可以是安装在本地终端上的本地程序(nativeapp)，或者还可以是本地终端上的浏览器的一个网页程序(webapp)，本实施例对此不进行限定。[0110]这样，可以通过获取任意两个待测网页的网页数据，进而可以根据无回放抽样策略，分别从所述任意两个待测网页的网页数据中抽取正文句子，以获得句子数据，使得能够根据所述任意两个待测网页的网页数据和所述句子数据，获得网页相似度的预测结果，由于丰富了用于网页相似度预测的网页的相关数据，即增强了用于预测的网页信息完整度，从而提高了网页相似度的预测结果的可靠性。[0111]可选地，在本实施例的一个可能的实现方式中，在503中，具体可以将所述任意两个待测网页的网页数据和所述句子数据输入网页相似度模型，以获得网页相似度的预测结果。[0112]在本实现方式中，网页相似度模型可以是利用样本数据对预训练语言模型进行训练所确定的模型。该样本数据是基于样本网页的网页数据和根据无回放抽样策略从样本网页的网页数据中抽取正文句子所获得的句子数据所获得的。[0113]可以理解的是，该网页相似度模型可以是利用前述实施例中的网页相似度模型的训练方法所获得的。[0114]在本实现方式中，网页相似度模型可以支持多语言网页相似度预测能力。[0115]在本实现方式中，网页数据还可以包括标题和关键字等。[0116]这样，通过网页相似度模型待测的任意两个待测网页的网页数据进行相似度预测，可以获得更加准确地预测结果，更加有效地确定出具有相似文本内容的网页，以便于相关网页的推荐，从而提升了网页的信息检索和语义计算能力。而且，网页相似度模型可以支持多语言网页相似度预测能力，从而提升了对单语言和多语言网页的相似度预测分析。[0117]在该实现方式的一个具体实现过程中，具体可以根据所述无回放抽样策略和所述网页相似度模型的输入阈值，分别对所述任意两个待测网页的网页数据中的正文进行句子抽取处理，以获得所述任意两个待测网页的正文句子，进而可以根据所述任意两个待测网页的所述正文句子的顺序标识，分别对所述正文句子进行排序处理，使得能够根据所述排序处理的结果，获得所述句子数据。[0118]在该具体实现过程中，首先，对任意两个待测网页，可以重复多次执行根据所述无回放抽样策略和所述网页相似度模型的输入阈值，分别对所述任意两个待测网页的网页数据中的正文进行句子抽取处理，以获得所述任意两个待测网页的正文句子，根据所述任意两个待测网页的所述正文句子的顺序标识，分别对所述正文句子进行排序处理，获得多组句子数据。然后，根据网页数据和多组句子数据，可以获得多组待测的数据。[0119]该具体实现过程的一种情况是，利用网页相似度模型对任意两个待测网页进行预测时，可以将任意两个待测网页对应的多组待测的数据输入网页相似度模型，并可以将输出的相似度进行集成处理，根据集成处理后的相似度，获得网页相似度的预测结果。[0120]具体地，该集成处理可以包括投票处理和加权平均处理。[0121]这样，可以通过根据无回放抽样策略和网页相似度模型的输入阈值，分别对任意两个待测网页的正文句子进行抽取和排序处理，获得用于预测的句子数据。由此，可以获得更加丰富准确地用于预测的句子数据，从而提升了预测结果的可靠性和准确性。[0122]本实施例中，可以通过获取任意两个待测网页的网页数据，进而可以根据无回放抽样策略，分别从所述任意两个待测网页的网页数据中抽取正文句子，以获得句子数据，使得能够根据所述任意两个待测网页的网页数据和所述句子数据，获得网页相似度的预测结果，由于丰富了用于网页相似度预测的网页的相关数据，即增强了用于预测的网页信息完整度，从而提高了网页相似度的预测结果的可靠性。[0123]另外，采用本实施例所提供的技术方案，可以通过网页相似度模型待测的任意两个待测网页的网页数据进行相似度预测，可以获得更加准确地预测结果，更加有效地确定出具有相似文本内容的网页，以便于相关网页的推荐，从而提升了网页的信息检索和语义计算能力。而且，网页相似度模型可以支持多语言网页相似度预测能力，从而提升了对单语言和多语言网页的相似度预测分析。[0124]另外，采用本实施例所提供的技术方案，可以通过根据无回放抽样策略和网页相似度模型的输入阈值，分别对任意两个待测网页的正文句子进行抽取和排序处理，获得用于预测的句子数据。由此，可以获得更加丰富准确地用于预测的句子数据，从而提升了预测结果的可靠性和准确性。[0125]需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本公开所必须的。[0126]在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。[0127]图7是根据本公开第三实施例的示意图，如图7所示。本实施例的网页相似度模型的训练装置700可以包括获取单元701、抽取单元702、获得单元703和训练单元704。其中，获取单元，用于获取样本网页的网页数据；抽取单元，用于根据无回放抽样策略，从所述网页数据中抽取正文句子，以获得句子数据；获得单元，用于根据所述句子数据和网页数据，获得样本数据；训练单元，用于根据所述样本数据，对预训练语言模型进行训练，以获得所述网页相似度模型，用于对待测网页的相似度进行预测。[0128]需要说明的是，本实施例的网页相似度模型的训练装置的部分或全部可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(softwaredevelopmentkit，sdk)等功能单元，本实施例对此不进行特别限定。[0129]可以理解的是，所述应用可以是安装在本地终端上的本地程序(nativeapp)，或者还可以是本地终端上的浏览器的一个网页程序(webapp)，本实施例对此不进行限定。[0130]可选地，在本实施例的一个可能的实现方式中，所述抽取单元702，具体可以用于根据所述无回放抽样策略和所述预训练语言模型的输入阈值，对所述网页数据中的正文进行句子抽取处理，以获得正文句子，根据所述正文句子的顺序标识，对所述正文句子进行排序处理，以及根据所述排序处理的结果，获得所述句子数据。[0131]可选地，在本实施例的一个可能的实现方式中，所述抽取单元702，还可以用于根据所述无回放抽样策略，对所述网页数据中的正文进行句子抽取处理，以获得所述正文句子，若所抽取的所述正文句子的总长度达到所述预训练语言模型的输入阈值，则终止所述句子抽取处理。[0132]可选地，在本实施例的一个可能的实现方式中，所述获得单元703，具体可以用于获取所述网页数据中的标题和关键字，根据所述句子数据、所述标题和所述关键字，获得所述样本数据。[0133]本实施例中，通过获取样本网页的网页数据，进而可以根据无回放抽样策略，从所述网页数据中抽取正文句子，以获得句子数据，再根据所述句子数据和网页数据，获得样本数据，进而能够根据所述样本数据，对预训练语言模型进行训练，以获得所述网页相似度模型，用于对待测网页的相似度进行预测，由于根据基于无回放抽样策略所获得训练样本数据，对预先训练语言模型进行训练，来获得网页相似度模型，可以根据具有更加全面和丰富的网页正文信息的样本数据进行模型训练，可以更加便于模型学到网页的全局文本信息，减少了学习的信息损失，从而增强了模型预测的鲁棒性。[0134]另外，采用本实施例所提供的技术方案，可以通过根据无放回抽样策略和预训练语言模型的输入阈值，从网页数据中抽取正文句子，可以避免对正文文本进行直接截断，即可以获得更加全面地用于表征网页正文的全局信息的句子数据，以便于后续利用基于该句子数据所确定的样本数据进行模型训练，可以使得模型可以学习到更全面完整地网页的正文特征信息。[0135]另外，采用本实施例所提供的技术方案，可以通过根据无回放抽样策略和预训练语言模型的输入阈值，对网页数据中的正文进行句子抽取处理，获得正文句子，并根据正文句子的顺序标识，对句子进行排序处理，以获得句子数据。由此，可以获得更加全面地用于表征网页正文的全局信息的句子数据，以便于后续利用这些句子数据进行模型训练，从而使得模型可以学习到更全面的网页的正文特征信息。[0136]而且，根据正文句子的顺序标识，即根据句子在正文中出现的顺序，对抽取的正文句子进行排序，获得排序后的句子数据。由此，获得的句子数据可以尽可能体现正文原义，提升了句子数据的有效性，进而进一步地提升了后续获得的样本数据的有效性，以便于后续利用这些样本数据进行模型训练时，模型可以学习到更全面的网页的正文特征信息，从而进一步地，从而增强了模型预测的鲁棒性。[0137]另外，采用本实施例所提供的技术方案，可以通过根据网页的标题、关键字和基于抽样获得句子数据，获得样本数据，可以实现样本数据的增强，丰富了模型训练的样本数据，可以便于模型学到网页的全局文本信息，从而增强了模型预测的鲁棒性。[0138]图8是根据本公开第四实施例的示意图，如图8所示。本实施例的网页相似度的预测装置800可以包括获取单元801、抽取单元802和获得单元803。其中，获取单元801，用于获取任意两个待测网页的网页数据；抽取单元802，用于根据无回放抽样策略，分别从所述任意两个待测网页的网页数据中抽取正文句子，以获得句子数据；获得单元803，用于根据所述任意两个待测网页的网页数据和所述句子数据，获得所述网页相似度的预测结果。[0139]需要说明的是，本实施例的网页相似度的预测装置的部分或全部可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(softwaredevelopmentkit，sdk)等功能单元，本实施例对此不进行特别限定。[0140]可以理解的是，所述应用可以是安装在本地终端上的本地程序(nativeapp)，或者还可以是本地终端上的浏览器的一个网页程序(webapp)，本实施例对此不进行限定。[0141]可选地，在本实施例的一个可能的实现方式中，所述获得单元803，具体可以用于将所述任意两个待测网页的网页数据和所述句子数据输入网页相似度模型，以获得网页相似度的预测结果。[0142]可选地，在本实施例的一个可能的实现方式中，所述抽取单元802，可以具体用于根据所述无回放抽样策略和所述网页相似度模型的输入阈值，分别对所述任意两个待测网页的网页数据中的正文进行句子抽取处理，以获得所述任意两个待测网页的正文句子，根据所述任意两个待测网页的所述正文句子的顺序标识，分别对所述正文句子进行排序处理，以及根据所述排序处理的结果，获得所述句子数据。[0143]本实施例中，可以通过获取单元获取任意两个待测网页的网页数据，进而抽取单元可以根据无回放抽样策略，分别从所述任意两个待测网页的网页数据中抽取正文句子，以获得句子数据，使得获得单元能够根据所述任意两个待测网页的网页数据和所述句子数据，获得网页相似度的预测结果，由于丰富了用于网页相似度预测的网页的相关数据，即增强了用于预测的网页信息完整度，从而提高了网页相似度的预测结果的可靠性。[0144]另外，采用本实施例所提供的技术方案，可以通过网页相似度模型待测的任意两个待测网页的网页数据进行相似度预测，可以获得更加准确地预测结果，更加有效地确定出具有相似文本内容的网页，以便于相关网页的推荐，从而提升了网页的信息检索和语义计算能力。而且，网页相似度模型可以支持多语言网页相似度预测能力，从而提升了对单语言和多语言网页的相似度预测分析。[0145]另外，采用本实施例所提供的技术方案，可以通过根据无回放抽样策略和网页相似度模型的输入阈值，分别对任意两个待测网页的正文句子进行抽取和排序处理，获得用于预测的句子数据。由此，可以获得更加丰富准确地用于预测的句子数据，从而提升了预测结果的可靠性和准确性。[0146]本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。[0147]根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。[0148]图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。[0149]如图9所示，电子设备900包括计算单元901，其可以根据存储在只读存储器(rom)902中的计算机程序或者从存储单元908加载到随机访问存储器(ram)903中的计算机程序，来执行各种适当的动作和处理。在ram903中，还可存储电子设备900操作所需的各种程序和数据。计算单元901、rom902以及ram903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。[0150]电子设备900中的多个部件连接至i/o接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。[0151]计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如网页相似度模型的训练方法、网页相似度的预测方法。例如，在一些实施例中，网页相似度模型的训练方法、网页相似度的预测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由rom902和/或通信单元909而被载入和/或安装到电子设备900上。当计算机程序加载到ram903并由计算单元901执行时，可以执行上文描述的网页相似度模型的训练方法、网页相似度的预测方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行网页相似度模型的训练方法、网页相似度的预测方法。[0152]本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。[0153]用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。[0154]在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。[0155]为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。[0156]可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。[0157]计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种充电策略优化控制方法及装置与流程

网页相似度模型的训练方法、装置、电子设备及介质与流程

相关文献

最热文献