预训练模型推理处理方法、装置、电子设备及存储介质与流程

2022-06-30 01:09:00 来源：中国专利 TAG：

1.本发明涉及模型处理术领域，尤其涉及一种预训练模型推理处理方法、装置、电子设备及存储介质。

背景技术：

2.近年来，大规模预训练模型成为研究热点，例如，大规模预训练语言模型已成为自然语言处理领域的研究热点。预训练语言模型的相关技术使得训练包括百亿级乃至千亿级参数的大规模模型成为可能(如open ai gpt3、智源悟道2.0模型等)。这些大规模模型在很多自然语言处理任务中取得了惊艳的效果并吸引了众多研究者持续关注。
3.虽然大规模预训练语言模型在多个任务上表现惊人，但是它们的大参数量也为模型的推理带来了极大的挑战。推理过程需要对模型进行频繁地调用，这无疑会在时间、存储、金钱等方面产生巨大的成本。

技术实现要素：

4.本发明提供一种预训练模型推理处理方法、装置、电子设备及存储介质，用以解决现有技术中对于大规模预训练模型在推理过程中存在的高成本缺陷，实现了大规模预训练模型在推理过程中的低成本性和高处理速度性。
5.本发明提供一种预训练模型推理处理方法，所述方法应用于对待处理模型进行推理处理的服务器，所述方法包括：确定所述待处理模型，其中，所述待处理模型采用高比特浮点数进行表示且通过预训练得到，所述高比特浮点数的位数大于或等于第一位数阈值；基于模型量化技术，将所述待处理模型的模型参数由采用所述高比特浮点数表示转化为采用低比特定点数表示，用以实现对所述待处理模型进行加速推理处理，其中，所述低比特定点数的位数小于或等于第二位数阈值。
6.根据本发明提供的一种预训练模型推理处理方法，所述模型参数包括所述待处理模型的线性层参数，所述基于模型量化技术，将所述待处理模型的模型参数由采用所述高比特浮点数表示转化为采用低比特定点数表示，包括：基于模型量化计算，对所述线性层参数进行量化处理，得到量化后的线性层参数，其中，所述量化后的线性层参数采用所述低比特定点数表示。
7.根据本发明提供的一种预训练模型推理处理方法，在对所述待处理模型进行加速推理处理的过程中，所述方法还包括：基于模型量化技术，对所述待处理模型的隐状态进行量化处理，得到量化后的隐状态，其中，所述量化后的隐状态采用所述低比特定点数表示；基于所述量化后的线性层参数和所述量化后的隐状态进行关于推理处理的运算，得到推理处理运算结果；对所述推理处理运算结果进行反量化处理，得到反量化处理后的推理处理运算结果，并将所述反量化处理后的推理处理运算结果作为加速推理处理运算结果，其中，所述反量化处理后的推理处理运算结果采用所述高比特浮点数表示。
8.根据本发明提供的一种预训练模型推理处理方法，在所述基于模型量化技术，将
所述待处理模型的模型参数由采用所述高比特浮点数表示转化为采用低比特定点数表示之后，所述方法还包括：基于训练数据集，对所述待处理模型进行低比特适配训练，并将训练后的待处理模型作为最终加速推理处理后的待处理模型。
9.根据本发明提供的一种预训练模型推理处理方法，所述服务器包括中央处理器和图形处理器，在对所述待处理模型进行加速推理处理的过程中，所述方法还包括：将关于所述待处理模型的模型参数存储至所述中央处理器；响应于所述待处理模型进行推理处理，将所述模型参数由所述中央处理器加载至所述图形处理器中进行加速推理处理计算；响应于加速推理处理计算完成，将加载至所述图形处理器中的所述模型参数以及生成的计算图在所述图形处理器中进行释放。
10.根据本发明提供的一种预训练模型推理处理方法，所述方法还包括：将所述图形处理器的显存至少划分出第一显存池和第二显存池；所述将所述模型参数由所述中央处理器加载至所述图形处理器中进行加速推理处理计算，包括：在同一时刻，基于所述第一显存池和所述第二显存池交替执行相邻所述模型参数由所述中央处理器加载至所述图形处理器的加载处理，以及在所述图形处理器中进行所述模型参数的运算处理。
11.本发明还提供一种预训练模型推理处理装置，所述装置应用于对待处理模型进行推理处理的服务器，所述装置包括：确定模块，用于确定所述待处理模型，其中，所述待处理模型采用高比特浮点数进行表示且通过预训练得到，所述高比特浮点数的位数大于或等于第一位数阈值；处理模块，用于基于模型量化技术，将所述待处理模型的模型参数由采用所述高比特浮点数表示转化为采用低比特定点数表示，用以实现对所述待处理模型进行加速推理处理，其中，所述低比特定点数的位数小于或等于第二位数阈值。
12.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述预训练模型推理处理方法。
13.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的预训练模型推理处理方法。
14.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的预训练模型推理处理方法。
15.本发明提供的预训练模型推理处理方法、装置、电子设备及存储介质，基于模型量化技术将待处理模型的模型参数由采用高比特浮点数表示转化为采用低比特定点数表示，可以压缩大规模待处理模型，用以实现在模型性能相似的情况下降低模型的参数量，从而实现大规模待处理模型在推理过程中的低成本性和高处理速度性。
附图说明
16.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
17.图1是应用本发明提供的预训练模型推理处理方法的服务器的技术方案框架图；
18.图2是本发明提供的预训练模型推理处理方法的流程示意图之一；
19.图3是本发明提供的预训练模型推理处理方法的流程示意图之二；
20.图4是本发明提供的模型量化方案的应用场景示意图；
21.图5本发明提供的预训练模型推理处理方法的流程示意图之三；
22.图6本发明提供的模型运算卸载技术的应用场景示意图；
23.图7本发明提供的cpu-gpu调度优化方案的示意图；
24.图8采用不同预训练模型推理处理方法的性能对比图；
25.图9是本发明提供的预训练模型推理处理装置的结构示意图；
26.图10是本发明提供的电子设备的结构示意图。
具体实施方式
27.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
28.近年来，大规模预训练模型成为研究热点，例如，大规模预训练语言模型已成为自然语言处理领域的研究热点。其中，大规模预训练模型是指模型参数量在十亿以上的模型。
29.为了便于说明，在本技术中，大规模预训练模型以大规模预训练语言模型为例进行说明。可以理解的是，本技术所包含的范围并不局限于大规模预训练语言模型。
30.预训练语言模型的相关技术使得训练包括百亿级乃至千亿级参数的超大规模模型成为可能(例如open ai gpt3模型、智源悟道2.0模型等)。这些超大规模模型在很多自然语言处理任务中取得了惊艳的效果并吸引了众多研究者持续关注。
31.虽然超大规模预训练语言模型在多个任务上表现惊人，但是它们的超大参数量也为模型的推理带来了极大的挑战。推理过程需要对模型进行频繁地调用，如果需要满足这样的需求，一种常见的方式是构建较大的gpu集群堆叠算力，这无疑会在时间、存储、金钱等方面产生巨大的成本。对于大的企业和研究机构来说，他们拥有足够的算力支持超大模型进行推理，但仍需要相应的计算加速技术来降低使用成本。而对于小的企业和个人用户来说，一般很难拥有足够的资金构建相应的gpu资源，从而无法使用超大模型进行推理。
32.基于上述原因，本技术提出一种预训练模型推理处理方法，可以实现低资源推理及加速推理处理，使得百亿参数的超大规模模型能够在消费级别的显卡(例如nvidia gtx 1060显卡和gtx 1080ti显卡)上运行，同时在企业级显卡上(例如nvidia tesla v100显卡和tesla a100显卡)上较现有框架具有更快的运行速度。
33.本发明提供的预训练模型推理处理方法可以应用于待处理模型进行推理处理的服务器，结合图1可知，应用本发明的预训练模型推理处理方法的服务器的技术方案框架可以包括模型层、算法层、实现层和硬件层。其中，本技术将从算法层和实现层两个层面来进行大规模预训练语言模型的低资源适配与加速。在算法层面，本技术使用模型量化技术来压缩大规模模型，在模型性能相似的情况下降低模型参数量。在底层实现层面，本技术使用模型运算卸载技术、混合精度算子实现、cpu-gpu调度优化技术来进一步加速模型推理性能。
34.本发明将结合下述实施例对本发明提供的预训练模型推理处理方法的过程进行
说明。
35.图2是本发明提供的预训练模型推理处理方法的流程示意图之一。
36.在本发明一示例性实施例中，预训练模型推理处理方法可以应用于对待处理模型进行推理处理的服务器。其中，待处理模型通过采用训练集进行预训练得到。待处理模型可以是大规模模型。
37.结合图2可知，预训练模型推理处理方法可以包括步骤210和步骤220，下面将分别介绍各步骤。
38.在步骤210中，确定待处理模型，其中，待处理模型采用高比特浮点数进行表示且通过预训练得到，高比特浮点数的位数大于或等于第一位数阈值。
39.在一示例中，待处理模型可以采用高比特浮点数进行表示，其中，高比特浮点数的位数大于或等于第一位数阈值。需要说明的是，第一位数阈值可以根据实际情况进行调整，在一示例中，第一位数阈值可以是16位。
40.在步骤220中，基于模型量化技术，将待处理模型的模型参数由采用高比特浮点数表示转化为采用低比特定点数表示，用以实现对待处理模型进行加速推理处理，其中，低比特定点数的位数小于或等于第二位数阈值。
41.在一种实施例中，基于模型量化技术，可以将待处理模型的模型参数由高比特浮点数表示转化为采用低比特定点数表示。由于模型量化技术旨在将待处理模型的模型参数由高比特浮点数替换为低比特定点数。在应用过程中，预训练语言模型(又称待处理模型)通常使用32位或者16位浮点数，经过模型量化后可以将模型使用8位、4位甚至1位定点数来表示，这样可以大大减少显存占用，便于待处理模型进行加速推理处理。
42.需要说明的是，低比特定点数的位数可以小于或等于第二位数阈值，其中，第二位数阈值可以根据实际情况进行调整，在一示例中，第二位数阈值可以是8位。
43.本发明提供的预训练模型推理处理方法，基于模型量化技术将待处理模型的模型参数由采用高比特浮点数表示转化为采用低比特定点数表示，可以压缩大规模待处理模型，用以实现在模型性能相似的情况下降低模型的参数量，从而实现大规模待处理模型在推理过程中的低成本性和高处理速度性。
44.在本发明一示例性实施例中，模型参数可以包括待处理模型的线性层参数，基于模型量化技术将待处理模型的模型参数由采用高比特浮点数表示转化为采用低比特定点数表示可以采用以下方式实现：基于模型量化计算，对线性层参数进行量化处理，得到量化后的线性层参数，其中，量化后的线性层参数采用低比特定点数表示。在本实施例中，将线性层参数采用低比特定点数表示，可以实现对预训练模型的压缩处理，并且可以确保压缩后的预训练模型能够保留模型的泛化能力，进而可以实现大规模待处理模型在推理过程中的低成本性和高处理速度性。
45.为了进一步介绍本发明提供的预训练模型推理处理方法，下面将结合图3进行说明。
46.图3是本发明提供的预训练模型推理处理方法的流程示意图之二。
47.在本发明一示例性实施例中，结合图3可知，在对待处理模型进行加速推理处理的过程中，预训练模型推理处理方法可以包括步骤310至步骤330，下面将分别介绍各步骤。
48.在步骤310中，基于模型量化技术，对待处理模型的隐状态进行量化处理，得到量
化后的隐状态，其中，量化后的隐状态采用低比特定点数表示。
49.在步骤320中，基于量化后的线性层参数和量化后的隐状态进行关于推理处理的运算，得到推理处理运算结果。
50.在本实施例中，基于具有低比特定点数的线性层参数和具有低比特定点数的隐状态进行推理处理计算，可以有效减少推理处理过程的资源使用量，从而降低推理处理成本以及提高运行速度。
51.在步骤330中，对推理处理运算结果进行反量化处理，得到反量化处理后的推理处理运算结果，并将反量化处理后的推理处理运算结果作为加速推理处理运算结果，其中，反量化处理后的推理处理运算结果采用高比特浮点数表示。
52.在应用过程中，将推理处理运算结果进行反量化处理，以得到反量化处理后的推理处理运算结果，可以在减少推理处理运算过程中的运算量的基础上，确保反量化处理后的推理处理运算结果能够与其他参数更加契合。
53.结合图4进行说明，可以将采用高比特(例如32位)浮点数表示的模型进行量化，得到使用低比特(例如8位)定点数来表示的模型。在应用过程中，可以将采用高比特(例如32位)浮点数表示的输入状态量(例如线性层参数和隐状态，对应图4中等式左侧的float32)转化为采用低比特(例如8位)定点数表示的输入状态量(对应图4中等式左侧的int8)。再基于转化后的输入状态量进行相关计算，得到推理处理运算结果(对应图4中等式右侧的int8)。可以理解的是，在本实施中，基于具有低比特定点数的线性层参数和具有低比特定点数的隐状态进行推理处理计算，可以有效减少推理处理过程的资源使用量，从而降低推理处理成本以及提高运行速度。
54.进一步的，再将计算完成后的结果转换为采用高比特浮点数表示的计算结果(对应图4中等式右侧的float32)。在本实施例中，可以在减少推理处理运算过程中的运算量的基础上，确保反量化处理后的推理处理运算结果能够与其他参数更加契合。
55.为了减少量化对模型性能的影响，可以使用一小部分预训练阶段数据对模型进行了低比特适配训练。
56.在本发明一示例性实施例中，继续以图2所述的预训练模型推理处理方法为例进行说明。在基于模型量化技术，将待处理模型的模型参数由采用高比特浮点数表示转化为采用低比特定点数表示之后，预训练模型推理处理方法还可以包括：基于训练数据集，对待处理模型进行低比特适配训练，并将训练后的待处理模型作为最终加速推理处理后的待处理模型。
57.在一种实施例中，在低比特适配训练阶段，可以采用高比特数字表示模型权重。在应用过程中，可以将采用高比特数字表示的模型权重量化为采用低比特数字表示的模型权重，并进行模型计算。在低比特适配训练阶段结束后，采用高比特数字表示的模型权重将被丢弃，可以使用它们对应的采用低比特数字表示的模型权重来进行模型推理。通过本实施例，可以提高采用低比特数字表示的待处理模型的推理准确性。
58.为了确保对于部分显存较小的图形处理器(graphics processing unit,gpu)能够支持同时存储模型参数与计算图，在本技术中，还可以使用模型运算卸载技术来使用机器内存。
59.下面将结合图5对使用模型运算卸载技术来使用机器内存的过程进行说明。
60.在本发明一示例性实施例中，服务器可以包括中央处理器(central processing unit，简称cpu)和图形处理器。如图5所示，在对待处理模型进行加速推理处理的过程中，预训练模型推理处理方法还可以包括步骤510至步骤530，下面将分别介绍各步骤。
61.在步骤510中，将关于待处理模型的模型参数存储至中央处理器。
62.在步骤520中，响应于待处理模型进行推理处理，将模型参数由中央处理器加载至图形处理器中进行加速推理处理计算。
63.在步骤530中，响应于加速推理处理计算完成，将加载至图形处理器中的模型参数以及生成的计算图在图形处理器中进行释放。
64.在一种实施例中，结合图6可知，模型运算卸载的主要思想是将待处理模型参数存储在cpu使用的内存中。当待处理模型在一层一层的计算过程中，可以从cpu加载卸载后的待处理模型参数到gpu中进行计算。当计算完成后，可以将加载的待处理模型参数和计算图释放，从而节省gpu显存。因为待处理模型的模型参数可以被划分为很多块，所以模型运算卸载技术对于大规模的待处理模型能够在低计算资源设备上运行具有非常重要的意义。
65.模型运算卸载技术产生了碎片化的存储，并且模型运算卸载技术需要在cpu和gpu之间进行频繁地通信，从而造成了运行时间开销。为了解决这个问题，可以使用cpu-gpu调度优化技术。
66.本发明将结合下述实施例对cpu-gpu调度优化方案的过程进行说明。
67.在本发明一示例性实施例中，预训练模型推理处理方法还可以包括：将图形处理器的显存至少划分出第一显存池和第二显存池；将模型参数由中央处理器加载至图形处理器中进行加速推理处理计算可以采用以下方式实现：在同一时刻，基于第一显存池和第二显存池交替执行相邻模型参数由中央处理器加载至图形处理器的加载处理，以及在图形处理器中进行模型参数的运算处理。
68.结合图7可知，可以将gpu显存进行分段。在一示例中，可以设置两个显存池用以交替计算和加载参数。剩下的显存部分可以定义为“固定”显存。基于“固定”显存，可以存储一些模型参数从而避免将所有参数都进行调度。
69.在应用过程中，以大规模预训练语言模型的层作为划分粒度。在一示例中，预训练语言模型可以包括12层，gpu显存能够支持8层的存储与运算。在应用过程中，可以使用2层的显存大小设置两个显存池，剩下的显存存储前6层的参数，并使用两个显存池进行后6层的参数调度。由于在同一时刻(例如t2时刻)，相邻模型参数的计算和加载(例如计算第7层的参数和加载第8层的参数)是同时进行的，因此可以有效减少由于cpu和gpu之间进行频繁地通信而造成的运行时间开销。
70.通过图7也可以看出，使用两个显存池之后，cpu-gpu的通信和gpu的模型计算基本上同时进行，cpu-gpu通信时间完全重叠在计算时间内，使权重加载的时间成本可以忽略不计。
71.在又一实施例中，为了更好地利用gpu中的张量计算核心，还可以设计并实现一批高效的混合精度算子，用于提高对待处理模型进行推理处理的运行速度。
72.在应用过程中，可以以一个百亿参数的中文预训练语言模型cpm2为例来阐述本技术相对于之前方案的优点。原来的方案基于分布式工具包deepspeed和megatron(又称开源软件)实现。可以基于模型解码的速度判断不同预训练模型推理处理方法在不同gpu上的性
能。
73.结合图8可知，本技术提供的预训练模型推理处理方法能够实现110亿参数的cpm2模型在消费级显卡上的推理(如gtx 1060和gtx 1080ti)。本技术提供的预训练模型推理处理方法能够让大部分个人用户在个人终端上运行大模型推理从而得到想要的结果。
74.在支持大模型推理的gpu上(如tesla v100和a100)上，本技术提供的预训练模型推理处理方法能够实现4至6倍的速度提升。具体来说，技术方案中的模型量化技术、混合精度算子的实现使得本方案较之前方案产生了较大的性能提升。
75.根据上述描述可知，本发明提供的预训练模型推理处理方法，基于模型量化技术将待处理模型的模型参数由采用高比特浮点数表示转化为采用低比特定点数表示，可以压缩大规模待处理模型，用以实现在模型性能相似的情况下降低模型的参数量，从而实现大规模待处理模型在推理过程中的低成本性和高处理速度性。
76.基于相同的构思，本发明还提供一种预训练模型推理处理装置。
77.下面对本发明提供的预训练模型推理处理装置进行描述，下文描述的预训练模型推理处理装置与上文描述的预训练模型推理处理方法可相互对应参照。
78.图9是本发明提供的预训练模型推理处理装置的结构示意图。
79.在本发明一示例性实施例中，预训练模型推理处理装置可以用于对待处理模型进行推理处理的服务器。如图9所示，预训练模型推理处理装置可以包括确定模块910和处理模块920，下面将分别介绍各模块。
80.确定模块910可以被配置为用于确定待处理模型，其中，待处理模型采用高比特浮点数进行表示且通过预训练得到，高比特浮点数的位数大于或等于第一位数阈值。
81.处理模块920可以被配置为用于基于模型量化技术，将待处理模型的模型参数由采用高比特浮点数表示转化为采用低比特定点数表示，用以实现对待处理模型进行加速推理处理，其中，低比特定点数的位数小于或等于第二位数阈值。
82.在本发明一示例性实施例中，模型参数可以包括待处理模型的线性层参数，处理模块920可以采用以下方式基于模型量化技术，将待处理模型的模型参数由采用高比特浮点数表示转化为采用低比特定点数表示：基于模型量化计算，对线性层参数进行量化处理，得到量化后的线性层参数，其中，量化后的线性层参数采用低比特定点数表示。
83.在本发明一示例性实施例中，在对待处理模型进行加速推理处理的过程中，处理模块920还可以被配置为用于：基于模型量化技术，对待处理模型的隐状态进行量化处理，得到量化后的隐状态，其中，量化后的隐状态采用低比特定点数表示；基于量化后的线性层参数和量化后的隐状态进行关于推理处理的运算，得到推理处理运算结果；对推理处理运算结果进行反量化处理，得到反量化处理后的推理处理运算结果，并将反量化处理后的推理处理运算结果作为加速推理处理运算结果，其中，反量化处理后的推理处理运算结果采用高比特浮点数表示。
84.在本发明一示例性实施例中，处理模块920还可以被配置为用于：基于训练数据集，对待处理模型进行低比特适配训练，并将训练后的待处理模型作为最终加速推理处理后的待处理模型。
85.在本发明一示例性实施例中，服务器可以包括中央处理器和图形处理器，在对待处理模型进行加速推理处理的过程中，处理模块920还可以被配置为用于：将关于待处理模
型的模型参数存储至中央处理器；响应于待处理模型进行推理处理，将模型参数由中央处理器加载至图形处理器中进行加速推理处理计算；响应于加速推理处理计算完成，将加载至图形处理器中的模型参数以及生成的计算图在图形处理器中进行释放。
86.在本发明一示例性实施例中，处理模块920还可以被配置为用于：将图形处理器的显存至少划分出第一显存池和第二显存池；处理模块920可以采用以下方式将模型参数由中央处理器加载至图形处理器中进行加速推理处理计算：在同一时刻，基于第一显存池和第二显存池交替执行相邻模型参数由中央处理器加载至图形处理器的加载处理，以及在图形处理器中进行模型参数的运算处理。
87.图10示例了一种电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(communications interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令，以执行预训练模型推理处理方法，该方法应用于对待处理模型进行推理处理的服务器，所述方法包括：确定待处理模型，其中，待处理模型采用高比特浮点数进行表示且通过预训练得到，高比特浮点数的位数大于或等于第一位数阈值；基于模型量化技术，将待处理模型的模型参数由采用高比特浮点数表示转化为采用低比特定点数表示，用以实现对待处理模型进行加速推理处理，其中，低比特定点数的位数小于或等于第二位数阈值。
88.此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
89.另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的预训练模型推理处理方法，该方法应用于对待处理模型进行推理处理的服务器，所述方法包括：确定待处理模型，其中，待处理模型采用高比特浮点数进行表示且通过预训练得到，高比特浮点数的位数大于或等于第一位数阈值；基于模型量化技术，将待处理模型的模型参数由采用高比特浮点数表示转化为采用低比特定点数表示，用以实现对待处理模型进行加速推理处理，其中，低比特定点数的位数小于或等于第二位数阈值。
90.又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的预训练模型推理处理方法，该方法应用于对待处理模型进行推理处理的服务器，所述方法包括：确定待处理模型，其中，待处理模型采用高比特浮点数进行表示且通过预训练得到，高比特浮点数的位数大于或等于第一位数阈值；基于模型量化技术，将待处理模型的模型参数由采用高比特浮点数表示转化为采用低比特定点数表示，用以实现对待处理模型进行加速推理处理，其中，低
比特定点数的位数小于或等于第二位数阈值。
91.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
92.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
93.进一步可以理解的是，本发明实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。
94.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种租赁账单的计算方法及系统与流程

预训练模型推理处理方法、装置、电子设备及存储介质与流程

相关文献

最热文献