交互方法、模型训练方法、装置、设备和存储介质与流程

2021-11-15 17:46:00 来源：中国专利 TAG：

1.本发明涉及计算机技术领域，尤其涉及一种交互方法、模型训练方法、装置、设备和存储介质。

背景技术：

2.对于用户的线上交易，其可以认为成是人与人之间的一种交互行为。在这种交互过程中，交互双方即买卖双方可以针对商品的细节、价格等内容进行沟通。通常来说买卖双方需要同时保存在线状态，并进行多轮沟通后，才有可能达成交易。
3.但在交易的过程中，卖方可能需要应对多个买方，卖方的沟通压力较大，从而很容易导致交易效率和交易成功率都不高。因此，如何保证交易的成功率就成为一个亟待解决的问题。

技术实现要素：

4.有鉴于此，本发明实施例提供一种交互方法、模型训练方法、装置、设备和存储介质，用以保证交易的成功率。
5.第一方面，本发明实施例提供一种交互方法，包括：
6.获取交互主体的标识信息以及针对目标对象的交互记录，其中，所述交互记录用于描述交互动作；
7.根据所述标识信息以及所述交互记录，确定预期交互动作；
8.根据所述预期交互动作，生成所述交互记录对应的应答记录。
9.第二方面，本发明实施例提供一种交互装置，包括：
10.获取模块，用于获取交互主体的标识信息以及针对目标对象的交互记录，其中，所述交互记录用于描述交互动作；
11.动作确定模块，用于根据所述标识信息以及所述交互记录，确定预期交互动作；
12.生成模块，用于根据所述预期交互动作，生成所述交互记录对应的应答记录。
13.第三方面，本发明实施例提供一种电子设备，包括处理器和存储器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第一方面中的交互方法。该电子设备还可以包括通信接口，用于与其他设备或通信网络通信。
14.第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第一方面所述的交互方法。
15.第五方面，本发明实施例提供一种交互方法，包括：
16.显示包含交互按钮的交互界面；
17.响应于交互主体对所述交互按钮触发的点击操作，获取针对目标对象的交互记录；
18.根据所述交互记录以及所述交互主体的标识信息，确定预期交互动作；
19.在所述交互界面中显示用于描述所述预期交互动作的应答记录。
20.第六方面，本发明实施例提供一种交互装置，包括：
21.显示模块，用于显示包含交互按钮的交互界面；
22.获取模块，用于响应于交互主体对所述交互按钮触发的点击操作，获取针对目标对象的交互记录；
23.动作确定模块，用于根据所述交互记录以及所述交互主体的标识信息，确定预期交互动作；
24.所述显示模块，还用于在所述交互界面中显示用于描述所述预期交互动作的应答记录。
25.第七方面，本发明实施例提供一种电子设备，包括处理器和存储器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第五方面中的交互方法。该电子设备还可以包括通信接口，用于与其他设备或通信网络通信。
26.第八方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第五方面所述的交互方法。
27.第九方面，本发明实施例提供一种交互方法，包括：
28.显示包含交互按钮的交互界面；
29.响应于第一交互方对所述交互按钮触发的点击操作，获取所述第一交互方和第二交互方各自的标识信息以及针对目标对象的第一交互记录；
30.根据所述第一交互记录以及所述第二交互方的标识信息，确定所述第一交互方的预期交互动作；
31.显示用于描述所述第一交互方的预期交互动作的第一应答记录；
32.响应于所述第二交互方对交互按钮触发的点击操作，根据所述第一交互记录、所述第一应答记录以及所述第一交互方的标识信息，确定所述第二交互方的预期交互动作；
33.显示用于描述所述第二交互方的预期交互动作的第二应答记录。
34.第十方面，本发明实施例提供一种交互装置，包括：
35.显示模块，用于显示包含交互按钮的交互界面；
36.获取模块，用于响应于第一交互方对所述交互按钮触发的点击操作，获取所述第一交互方和所述第二交互方各自的标识信息以及针对目标对象的第一交互记录；
37.第一动作确定模块，用于根据所述第一交互记录以及所述第二交互方的标识信息，确定所述第一交互方的预期交互动作；
38.所述显示模块，还用于显示用于描述所述第一交互方的预期交互动作的第一应答记录；
39.第二动作确定模块，用于响应于所述第二交互方对交互按钮触发的点击操作，根据所述第一交互记录、所述第一应答记录以及所述第一交互方的标识信息，确定所述第二交互方的预期交互动作；
40.所述显示模块，还用于显示用于描述所述第二交互方的预期交互动作的第二应答
记录。
41.第十一方面，本发明实施例提供一种电子设备，包括处理器和存储器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第九方面中的交互方法。该电子设备还可以包括通信接口，用于与其他设备或通信网络通信。
42.第十二方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第九方面所述的交互方法。
43.第十三方面，本发明实施例提供一种模型训练方法，包括：
44.接收第一交互方对应于历史对象的交互记录，所述交互记录包含第一交互方和第二交互方产生的多条记录，所述交互记录由所述第二交互方输入；
45.根据所述交互记录确定所述第一交互方的交互特性；
46.根据所述交互特性确定动作预测参数；
47.输出所述动作预测参数，以使所述第二交互方根据所述动作预测参数获得针对于所述第一交互方的预测模型参数。
48.第十四方面，本发明实施例提供一种模型训练装置，包括：
49.接收模块，用于接收第一交互方对应于历史对象的交互记录，所述交互记录包含第一交互方和第二交互方产生的多条记录，所述交互记录由所述第二交互方输入；
50.特性确定模块，用于根据所述交互记录确定所述第一交互方的交互特性；
51.参数确定模块，用于根据所述交互特性确定动作预测参数；
52.输出模块，用于输出所述动作预测参数，以使所述第二交互方根据所述动作预测参数获得针对于所述第一交互方的预测模型参数。
53.第十五方面，本发明实施例提供一种电子设备，包括处理器和存储器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第十三方面中的模型训练方法。该电子设备还可以包括通信接口，用于与其他设备或通信网络通信。
54.第十六方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第十三方面所述的模型训练方法。
55.第十七方面，本发明实施例提供一种模型训练方法，包括：
56.获取对应于历史对象的交互记录，所述交互记录包含第一交互方和第二交互方产生的多条记录；
57.根据所述交互记录确定所述第一交互方的交互特性；
58.根据所述交互特性确定所述第二交互方针对于所述第一交互方的动作预测模型。
59.第十八方面，本发明实施例提供一种模型训练装置，包括：
60.获取模块，用于获取对应于历史对象的交互记录，所述交互记录包含第一交互方和第二交互方产生的多条记录；
61.特性确定模块，用于根据所述交互记录确定所述第一交互方的交互特性；
62.模型确定模块，用于根据所述交互特性确定所述第二交互方针对于所述第一交互
方的动作预测模型。
63.第十九方面，本发明实施例提供一种电子设备，包括处理器和存储器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第十七方面中的模型训练方法。该电子设备还可以包括通信接口，用于与其他设备或通信网络通信。
64.第二十方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第十七方面所述的模型训练方法。
65.本发明实施例提供的交互方法，先获取针对目标对象的交互记录以及交互主体的标识信息，其中，交互记录用于描述交互主体对目标对象产生的交互动作。然后，根据交互主体的标识信息以及交互记录，确定预期交互动作，并最终生成描述预期交互动作的记录，此记录也即是交互记录对应的应答记录，从而实现交互。
66.根据上述描述可知，一方面，本发明提供的是一种自动交互方式，即根据交互记录中描述的动作自动生成交互主体下一步的交互动作即预期交互动作。另一方面，在生成应答记录时，同时考虑到了交互主体当前的交互动作以及互方主体的标识信息。由于标识信息可以体现交互主体的交互习惯，因此，使得生成的应答记录更符合交互方的交互习惯、更有针对性。
67.当上述交互具体为背景技术中的商品交易时，上述的自动交易方法可以提高交易效率，同时由于生成的应答记录是符合第一交互方的交易习惯的，因此，也可以大大提高交易成功率。
附图说明
68.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
69.图1为本发明实施例提供的一种交互方法的流程图；
70.图2为本发明实施例提供的交互记录的示意图；
71.图3a为本发明实施例提供的一种可选地动作预测方式的流程图；
72.图3b为本发明实施例提供的另一种可选地动作预测方式的流程图；
73.图4为本发明实施例提供的另一种交互方法的流程图；
74.图5为本发明实施例提供的另一种交互方法的流程图；
75.图6为本发明实施例提供的交互方法应用于交易场景下的示意图；
76.图7为本发明实施例提供的一种模型训练方法的流程图；
77.图8为本发明实施例提供的另一种模型训练方法的流程图；
78.图9为本发明实施例提供的一种动作预测模型确定方式的流程图；
79.图10为本发明实施例提供的另一种动作预测模型确定方式的流程图；
80.图11为本发明实施例提供的又一种动作预测模型确定方式的流程图；
81.图12为本发明实施例提供的一种交互装置的结构示意图；
82.图13为与图12所示实施例提供的交互装置对应的电子设备的结构示意图；
83.图14为本发明实施例提供的另一种交互装置的结构示意图；
84.图15为与图14所示实施例提供的交互装置对应的电子设备的结构示意图；
85.图16为本发明实施例提供的又一种交互装置的结构示意图；
86.图17为与图16所示实施例提供的交互装置对应的电子设备的结构示意图；
87.图18为本发明实施例提供的一种模型训练装置的结构示意图；
88.图19为与图18所示实施例提供的模型训练装置对应的电子设备的结构示意图；
89.图20为本发明实施例提供的另一种模型训练装置的结构示意图；
90.图21为与图20所示实施例提供的模型训练装置对应的电子设备的结构示意图。
具体实施方式
91.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
92.在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。
93.应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。
94.取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于识别”。类似地，取决于语境，短语“如果确定”或“如果识别(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当识别(陈述的条件或事件)时”或“响应于识别(陈述的条件或事件)”。
95.还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
96.在对本发明实施例提供的交互方法进行详细说明之前，还可以先对该交互方法的实际意义进行示例性说明：
97.日常生活中可以存在多种交互场景，正如背景技术中提到的，一种常见的场景可以是交互双方分别使用终端设备进行线上交易。并且这种交易既可以是商品的二手交易，也可以是非二手交易。此时，交互双方可以通过终端设备上安装的应用程序直接对交易对象的详细信息、价格等内容进行沟通。但这种原始的交互方式需要交互双方同时在线才能完成，若一方离线或者一方不能及时回复，则都会造成交易的效率和成功率大大降低。此时，便可以使用本发明提供的交互方法来避免上述问题。
98.另一种交互场景，用户a可以与智能机器人进行交互。但智能机器人输出的往往是没有感情色彩的应答语句。为了提高用户a的交互体验，则可以使用本发明提供的交互方法，此时，智能机器人输出的应答语句的语气、表达方式可以与用户熟识的另一用户b的相同，使用户a有一种与用户b在交谈的感觉。
99.当然，本发明并不限定使用场景，除了上述场景之外，任何需要实现自动交互的场景均可以本发明提供的交互方法。
100.下面结合附图对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。
101.下述各实施例均以上述提及的交易场景为例进行说明。在此场景下，交互动作为交互主体对目标对象产生的交易动作，目标对象可以为商品。交易动作包括对目标对象的砍价动作、对目标对象的属性信息的询问动作、对目标对象的交易成功动作、对目标对象的交易失败动作中的任一种。
102.基于上述内容，图1为本发明实施例提供的一种交互方法的流程图，本发明实施例提供的该交互方法可以由交互设备来执行。可以理解的是，该交互设备可以实现为软件、或者软件和硬件的组合。本实施例以及下述各实施例中的交互设备具体来说可以是交互主体使用的终端设备，比如手机等等。如图1所示，该方法包括如下步骤：
103.s101，获取交互主体的标识信息以及针对目标对象的交互记录，其中，交互记录用于描述交互动作。
104.交互主体使用的交互设备中可以安装有交易应用程序(application，简称app)。交互主体可以对交易app上待交易的任一商品即目标对象发起交易。交易发起后，交互主体则可以开始针对目标对象的对话，且对话内容会同步的显示于交互主体使用的交互设备上。
105.其中，对话内容可以包括：交互主体产生的针对于目标对象的交互记录。可选地，交互记录可以表现为文字、视频、图片的多种类型。从内容上来说，交互记录可以是询问目标对象的详细信息，比如型号、尺寸等等，也可以是商讨价格等等。
106.在交互主体进行对话的过程中，假设，交互主体在t1时刻发起针对目标对象的交易，则在t1时刻至当前t2时刻这一时间段内，交互主体产生的针对目标对象的对话内容即为交互记录。交互主体使用的交互设备可以获取并显示此交互记录。举例来说，在t2时刻，交互主体对目标对象产生的交互记录可以图2所示。
107.同时在交互主体发起交易后，交互主体使用的交互设备还可以得到交互主体的用户标识，并进一步根据此用户标识查询到交互主体的标识信息。其中，用户标识具体可以表现为用户id，标识信息用于反映第一交互方的交易习惯。
108.s102，根据标识信息以及交互记录，确定预期交互动作。
109.对于交互设备已经得到的交互记录，其已经描述有在t1时刻至t2时刻这一时间段内，交互主体产生的交互动作，继续承接图2所示的交互记录，对于交互动作，可以进行以下理解：
110.在这一时间段内，交互主体产生的交互动作可以为：砍价—不同意砍价—砍价—不同意砍价—砍价。此时，交互设备会根据上述交互动作动作以及交互主体的标识信息，确
定预期交互动作。此预期交互动作可以认为是在当前的交易状态下，符合交互主体的交易习惯、最容易被交互主体接受的、同时也是最有可能使交易成功的交互动作。
111.s103，根据预期交互动作，生成交互记录对应的应答记录。
112.交互设备在得到了预期交互动作后，会进一步生成描述此预期交互动作的记录，也即是交互记录对应的应答记录。在实际应用中，交互记录以及应答记录通常表现为文字语句形式，则对于应答记录的生成，一种可选地方式，交互设备已经包含与不同交互动作对应的语句模板，通过查询即可完成应答记录的生成。生成的应答记录会同时显示于交互主体使用的交互设备中，也即是完成了对交互记录的自动应答。
113.本实施例中，先获取针对目标对象的交互记录以及交互主体的标识信息，其中，交互记录用于描述交互主体对目标对象产生的交互动作。然后，根据交互主体的标识信息以及交互记录，确定预期交互动作，并最终生成描述预期交互动作的应答记录，以实现交互。可见，上述是一种自动交互方法，能够提高交易效率。同时，在生成应答记录时，同时考虑到了交互主体当前的交互动作，以及用于体现交互主体的交互习惯的标识信息，使得生成的应答记录更符合交互主体的交互习惯，提高交易成功率。
114.在实际应用中，上述实施例提及的交互主体具体可以包括可以第一交互方和第二交互方。此时，预期交互动作的确定实际上就是：根据第一交互方的标识信息以及描述有第一交互方当前交互动作的交互记录，确定第二交互方的预期动作。得到的预期交互动作是在当前的交易状态下，符合第一交互方的交易习惯、最容易被第一交互方接受的、同时也是最有可能使交易成功的交互动作。在下述各实施例中，可以认为第一交互方为买方，第二交互方为卖方。且下述各实施例中提及的交互设备如无特殊说明，均是第二交互方使用的交互设备。
115.基于上述描述，可选地，预期交互动作的确定可以借助预测模型来实现。具体的，得到交互主体的标识信息也即是得到了第一交互方的标识信息，此时，交互设备可以先根据此标识信息，确定第二交互方针对于第一交互方的动作预测模型。其中，标识信息可以认为是动作预测模型的模型参数，此时便可以直接根据第一交互方的标识信息生成对应于第一交互方的动作预测模型。接着，再将t1时刻至t2时刻这一时间段内交互双方针对目标对象产生的交互记录输入动作预测模型，以通过动作预测模型输出第二交互方的预期交互动作，即预期交易动作。
116.在实际应用中，动作预测模型可以多种多样，则使用动作预测模型来预测第二交互方的预期交互动作的过程也各不相同。一种可选地动作预测方式，如图3a所示：
117.s201，将交互记录、目标对象的属性信息以及第一交互方、第二交互方各自的交易特性，输入动作预测模型，以通过动作预测模型的特征提取层对交互记录、属性信息以及交易特性进行特征提取。
118.s202，将提取出的特征输入动作预测模型的输出层，以通过输出层输出第二交互方的预期交易动作。
119.将交互记录，目标对象的属性信息以及第一交互方、第二交互方各自的交易特性一并输入动作预测模型，以通过动作预测模型输出第二交互方对目标对象的预期交易动作。其中，动作预测可以为卷积神经网络(recurrent neural network,简称rnn)模型。对于动作预测模型的训练过程可以参见下述图11所示实施例的详细描述。
120.具体来说，动作预测模型中的特征提取层可以对交互记录、目标对象的属性信息、交互双方各自的交易特征进行特征提取。其中，交互记录中描述有的目标对象的当前交互状态以及第一交互方的当前交易动作。接着，再将提取出的特征输入动作预测模型的输出层，以通过输出层输出预期交易动作。
121.其中，目标对象的当前交互状态可以是由交互记录中每条记录描述的交易动作所构成的动作序列。继续承接图2所示的举例，在当前t2时刻，交互记录中描述的当前交互状态可以为：砍价(第一交互方)—不同意砍价(第二交互方)—砍价(第一交互方)—不同意砍价(第二交互方)—砍价(第一交互方)。第一交互方的当前交易动作为砍价，第二交互方的当前交易动作为不同意砍价。
122.其中，目标对象的属性信息可以包括：目标对象的属性信息包括目标交易对象的详情信息和/或目标交易对象的交易竞争力。详情信息比如可以是商品的尺寸、型号、类型等等。容易理解的，在交易平台上，对于相同的目标交易对象来说，可以有多个卖方，且第二交互方为多个卖方中的一个，则交易竞争力可以表示为：t2时刻在交易平台上，多个卖方对此目标交易对象的中间价格/第二交互方对目标交易对象的价格。比值越高，交易竞争力越高。
123.需要说明的有，在第一交互方发起对目标交易对象的交易后，交互设备可以开始收集上述数据，从而得到目标交易对象的属性信息。
124.对于中间价格，一种可选地方式，交互设备可以通过识别交易app上各交易对象的图片来确定交易平台上有多少个交易对象是与目标交易对象是相同的。若交易对象是在交易app上购买的，则另一种可选地方式，第二交互方可以直接使用app上提供的二次交易功能将交易对象重新上线，交互设备便可以直接得到此交易对象的详情信息，从而判断其是否与目标交易对象相同。在确定出交易平台上与目标交易对象相同的交易对象后，即可进一步得到目标交易对象的中间价格。
125.其中，第一交互方的交互特性可以包括：在预设时间段内，比如一年内，第一交互方的议价能力、交易频率、交易效率、交易成功率中的至少一项。第二交互方的交互特性也是如此，在此不再赘述。
126.交易效率可以认为是交易耐心度，即在预设时间段内，第一交互方的平均交互轮数。第一交互方与第二交互方之间的一问一答可以认为是一轮交互。
127.议价能力，即在预设时间段内，对于第一交互方交易成功的交易对象，平均成交价格/交易对象的平均标价。当第一交互方为买方时，比值越大，交易能力越高；当第一交互方为卖方时，比值越小，交易能力越高。
128.交易频率具体可以认为是交易活跃度，即第一交互方在预设时间段内，对交易平台上的多少个交易对象发起了交易，也即是交易总量，其中既包含交易成功的，也包含交易交易失败的。
129.交易成功率具体可以认为是交易熟练度，即第一交互方在预设时间段内，交易成功量/交易总量。
130.需要说明的是，上述的交易特性通常可以定期更新。并在第一交互方发起对目标交易对象的交易后，交互设备便可以直接获取。
131.本实施例中，在预测第二交互方的预期交易动作的过程中，使用到了目标对象的
属性信息以及能够反映第一交互方的交易习惯的交易特性，从而使预测出的预期交易动作能够更加符合第一交互方的交易习惯，提高交易成功率。
132.另一种可选地动作预测方式，将交互记录以及目标对象的属性信息输入动作预测模型，以通过动作预测模型预测第二交互方的预期交易动作。可选地，动作预测模型可以是马尔科夫决策(markov decision process，简称mdp)模型。此动作预测模型的模型参数可以根据第一交互方的交易特性以及第一交互方的历史交易对象的属性信息确定，参数的确定过程可以参见图10所示实施例中的相关描述。
133.其中，历史交易对象的属性信息包括历史交易对象的详情信息和/或历史交易对象的交易竞争力。其中，历史交易对象即为第一交互方在预设时间段内，交易成功或者失败的所有交易对象。属性信息以及交易特性的具体内容可以参见图3a所示实施例中的描述。
134.本实施例中，与图3a所示实施例相似的，在动作预测过程中同样使用到了目标对象的属性信息以及能够反映第一交互方的交易习惯的交易特性，从而使预测出的预期交易动作更加符合第一交互方的交易习惯，提高交易成功率。
135.除了上述两种方式，又一种可选地动作预测方式，如图3b所示：
136.s203,获取交互记录中描述的第一交互方的当前交易动作。
137.s204,根据当前交易动作以及动作预测模型中的预测方程确定第二交互方的预期交易动作，预测方程根据第一交互方的交易特性确定。
138.在获取到交互记录后，由于交互记录中描述有第一交互方的当前交互动作即当前交易动作，因此，交互设备也即是获取到第一交互方的当前交易动作。接着，可选地，可以根据当前交易动作以及动作预测模型中的预测方程来确定第二交互方的备选交易动作。其中，动作预测模型可以是协商决策(negotiation decision function，简称ndf)模型。
139.若当前交易动作和备选交易动作之间满足预设条件，表明以当前第一交互方的出价成交的话，第一交互方的满意程度较低，则交互设备确定备选交易动作为第二交互方的预期交互动作。其中，备选交易动作通常是非交易成功或失败的其他任一种交易动作。
140.若当前交易动作和备选交易动作之间不满足预设条件，表明以当前第一交互方的出价成交的话，第一交互方的满意程度较高，则交互设备可以直接生成用于表明交易成功的应答记录，目标对象则以当前第一交互方的出价成交。
141.对于当前交易动作与备选交易动作是否满足预设条件的判断，可选地，
142.先根据效用方程分别确定当前交易动作和备选交易动作各自的效用值。其中，当前交易动作的效用值反映的是目标对象以当前交易动作成交后，第一交互方的满意程度。比如，第一交互方的当前交易动作为砍价时，此砍价动作所属的交互轮数越少，当前价格与第二交互方的标价之间相差越多，则此砍价动作对应的效用值越高。
143.再根据效用值以及效用损失参数，确定当前交易动作和备选交易动作之间是否满足预设条件，效用损失参数可以根据第一交互方的交易特性确定。其中，当前的交易动作可以表示为σ1，当前交易动作的效用值可以表示为u(σ1)，备选交易动作表示为σ2，备选交易动作的效用值表示为u(σ2)，效用损失参数可以表示为δ。若u(σ1)≤δu(σ2)，则两动作之间满足预设条件，否则不满足预设条件。
144.在交易过程中，砍价是最常见的交易动作，则一方面，对于上述使用到的效用方程，一种最简单的情况，其就可以认为是第一交互方的对历史交易对象对应的历史平均成
交价格与第二交互方的底线价格之间的差值。其中，底线价格可以是一个预设值。
145.另一方面，对上述过程中使用到的预测方程，一种简单的方式，预测方程可以包含的参数可以是让步比例和砍价值。前述参数可以进行如下理解：
146.第一交互方在对每个历史交易对象的交易过程中，经过第一次砍价动作后，每个历史交易对象都有一个初始出价，多个初始出价的平均值即为预测方程中的砍价值。
147.先根据交互双方对历史交易对象的砍价过程得到交易曲线，可选地还可以对曲线进行平滑处理。交易曲线的参数值即为让步比例。比如，交易曲线通常是幂函数，则幂函数的指数即为此让步比例。
148.本实施例中，在预测第二交互方的预期交易动作的过程中，使用到了能够反映第一交互方的交易习惯的交易特性，从而使预测出的预期交易动作更加符合第一交互方的交易习惯，提高交易成功率。
149.综上所述，三种预测模型具有的优缺点不同，比如图3a所示实施例适用的模型，其的预测准确度高，但需要的训练样本多，收敛慢，模型的可榨取度也高。其中，以上述的交易为例，可榨取度越高表明卖方的利润值越高。在实际应用中，可榨取度应该是越低越好。mdp模型的预测准确度低，训练样本少，收敛快，榨取度低。图3b所示实施例适用的模型,其的预测准确度适中，可榨取度也适中。实际应用中，可以根据实际需求择一选用。
150.另外，上述提供了多种预期交易动作的预测方式，在得到预期交互动作后，同样可以按照图1所示实施例中查询语句模板的方式生成应答记录。而另一种可选地方式，还可以借助生成模型，将预期交易动作输入生成模型，以通过生成模型输出应答记录。
151.需要说明的有，上述各实施例中第一交互方可以认为是买方，第二交互方可以认为是卖方。但在实际应用中，二者也可以交换过来，第一交互方可以认为是卖方，第二交互方可以认为是买方，从而使买方针对不同卖方实现差异性、个性化的交易，提高交易的成功率和效率。
152.除了上述的交易场景外，对于日常交互场景中，第一交互方可以是用户，第二交互方可以智能机器人。
153.上述各实施例描述的是交互设备的内部工作过程，当然也可以从交互设备的界面角度即从交互方的角度说明交互过程。则图4为本发明实施例提供的另一种交互方法的流程图。本实施例的执行主体同样可以为交互主体使用的交互设备。如图4所示，该方法可以包括如下步骤：
154.s301，显示包含交互按钮的交互界面。
155.s302，响应于交互主体对交互按钮触发的点击操作，获取针对目标对象的交互记录。
156.s303，根据交互记录以及交互主体的标识信息，确定预期交互动作。
157.s304，在交互界面中显示用于描述预期交互动作的应答记录。具体来说，交互主体可以通过交互设备在交互界面中提供的交互按钮对目标对象发起交易，可选地，交互按钮对应于交互主体。交互设备响应于此点击操作，获取交互主体针对目标对象的交互记录。同时还可以得到交互主体的标识信息，此标识信息反映了交互主体的交易习惯。根据交互记录和标识信息确定交互主体的预期交互动作。最终根据预期交互动作生成应答记录，并且此应答记录也显示于交互主体的交互设备上，也即是实现了对交互记录的自动应答。
158.本实施例中未详细描述的内容，可以参见上述图1～图3b所示实施例中的相关描述，在此再不赘述。
159.本实施例中，显示包含交互按钮的交互界面，响应于交互主体对按钮触发的点击操作，获取交互主体对目标对象的交互记录。再根据交互主体的标识信息以及交互记录，确定预期交互动作。最终，将描述有预期交互动作的应记录句显示于交互设备上，此应答记录也即是对交互记录的应答。可见，上述是一种高效的自动交互方法，同时，在生成应答记录时，交互设备考虑到了用于体现交互主体的交互习惯的标识信息，使得生成的应答记录更符合交互主体的交互习惯，从而提高交易成功率。
160.需要说明的有，交互主体具体可以包括第一交互方和第二交互方，其中，第一交互方为目标对象的购买方，第二交互方可以为目标对象的销售方。此时图4所示实施例可以进行以下理解：
161.第一交互方可以通过交互设备对目标对象发起交易，之后即可输入针对目标对象的交互记录。然后，第二交互方使用的交互设备可以接收到第一交互方的标识信息以及第一交互方输入的交互记录，并根据二者确定第二交互方的预期交互动作。随着交互的进行，交互双方针对目标对象产生的记录的数量会逐渐增多，交互双方可以对目标对象产生的至少一条记录，此至少一条记录中包括第一交互方上述输入的交互记录。
162.最终，交互设备可以根据预期交互动作生成应答记录，且此应答记录也同样会发送至第一交互方使用的交互设备上，以使交互双方的交互设备上均显示有应答记录，也即是实现了第二交互方自动对第一交互方产生的交互记录的应答。
163.上述图1～图4所示的实施例，可以认为是交互双方中一方是人工在线应答，另一方为交互设备自动应答。但在实际应用中，尤其是交易场景下，交互双方可以都是自动应答，这样能够最大限度的提高交易效率。则图5为本发明实施例提供的又一种交互方法的流程图，如图5所示，该方法可以包括如下步骤：
164.s401，显示包含交互按钮的交互界面。
165.s402，响应于第一交互方对交互按钮触发的点击操作，获取第一交互方和第二交互方各自的标识信息以及针对目标对象的第一交互记录。
166.以交易场景为例来说，第一交互方使用的交互设备上可以安装有交易app，交易app的交互界面上还提供有交互按钮，此交互按钮也即是对应于第一交互方。第一交互方可以对此交互按钮触发点击操作，第一交互方使用的交互设备响应于此操作，获取第一交互方和第二交互方各自的交互标识以及在当前时刻交互双方针对目标对象的第一交互记录。
167.其中，交互标识用于反映交互方的交互习惯。第一交互记录中包含的内容，也即为在第一交互方触发点击操作后，交互双方对目标对象产生的至少一条交互记录。第一交互记录中描述有第二交互方当前的交互动作，交互动作比如可以是询问目标对象的详细信息，或者是出价等等。并且此第一交互记录会同时显示于交互双方使用的交互设备上。
168.s403，根据第一交互记录以及第二交互方的标识信息，确定第一交互方的预期交互动作。
169.接着，第一交互方使用的交互设备可以根据第二交互方的交互标识以及第一交互记录，预测第一交互方的预期交互动作。
170.一种可选地动作预测方式，第一交互方式使用的交互设备可以先根据第二交互方
的标识信息，确定第一交互方针对于第二交互方的第一动作预测模型。再将第一交互记录输入第一动作预测模型，以通过第一预测模型预测第一交互方的预期交互动作。其中，第一预测模型可采用上述实施例中提供的多种预测模型。
171.s404，显示用于描述第一交互方的预期交互动作的第一应答记录。
172.然后，第一交互方式使用的交互设备还可以根据预期交互动作生成第一应答记录，此第一应答记录用于对步骤402中的第一交互记录进行应答。其中，第一应答记录的生成可以借助生成模型来实现，并且第一应答记录也会显示于交互双方使用的交互设备上。
173.s405，响应于第二交互方对交互按钮触发的点击操作，根据第一交互记录、第一应答记录以及第一交互方的标识信息，确定第二交互方的预期交互动作。
174.进而，第二交互方使用的交互设备也可以对交互界面上提供的交互按钮触发点击操作，此时的交互按钮对应于第二交互方。第二交互方使用的交互设备可以根据第一交互方的标识信息、第一交互记录以及第一应答记录预测第二交互方的预期交互动作。
175.一种可选地动作预测方式，第二交互方式使用的交互设备可以根据第一交互方的标识信息，确定第二交互方针对于第一交互方的第二动作预测模型。再将第一交互记录和第一应答记录输入第二动作预测模型，以通过第二预测模型预测第二交互方的预期交互动作。其中，第二预测模型可采用上述实施例中提供的多种预测模型。交互双方各自使用的交互设备中可以设置有相同或者不同的预测模型。
176.s406，显示用于描述第二交互方的预期交互动作的第二应答记录。
177.最终，第二交互方式使用的交互设备还可以根据预期交互动作生成第二应答记录，此记录用于对步骤404中的第一应答记录进行应答。其中，第二应答记录的生成可以借助生成模型来实现。并且生成的第二应答记录也会显示于交互双方使用的交互设备上。
178.另外，本实施例中未详细描述的内容，可以参见上述图1～图3b所示实施例中的相关描述，在此再不赘述。
179.本实施例中，在第一交互方开始交互后，交互双方都可以自动应答对方的交互记录，从而实现了双方的自动交易，保证了交易效率。并且交互双方使用的交互设备在自动回复的过程中输出的应答记录都是符合对方交易习惯的，从而保证了交易的成功率。
180.下面以交易场景为例对上述的提供的交互方法进行示意性说明。下述内容可以结合图6理解。
181.假设第一交互方为买方，其使用的交互设备为第一终端设备，第二交互方为卖方，其使用的交互设备为第二终端设备，目标对象为小说m，标价30元。
182.买方可以在第一终端设备提供的交易界面上触发交易开始操作，并在交易界面上输入描述有交易动作的交互记录：“小说m是几成新？”，此交互记录描述的交互动作是：询问属性信息。此交互记录可以同时显示于买卖双方的终端设备上。
183.卖方使用的第二终端设备响应于买方触发的开始操作，从而获取到买方的标识信息，比如用户id以及小说m的属性信息，从而根据此标识信息确定卖方针对于买方的动作预测模型，然后利用通过此动作预测模型输出卖方的预期交易动作是：输出属性信息。最终，通过生成模型自动生成描述有此预期交易动作的交互记录为：“小说m是八成新”。生成的此交互记录同样可以显示于买卖双方的终端设备上。此时，也即是实现了卖方对买方的自动回复，上述两个记录可以构成针对小说m的一轮对话。
184.接着，买方还可以继续在交易界面上输入描述有砍价动作的交互记录：“20元可以吗”。此时第二终端设备，可以将交互记录：“小说m是几成新”、“小说m是八成新”以及“20元可以吗”一并输入动作预测模型，以使动作预测模型输出卖方的预期交易动作为：不接受砍价，则生成模型可以生成交互记录“诚心25元出，低了不出了”，也即是对记录“20元可以吗”的自动应答。也即是实现了针对小说m的又一轮对话。
185.在经过至少一轮对话后即可实现卖方对买方的自动交易。通过自动交易能够提高交易效率。通时由于动作预测模型是根据买方的历史交易对象以及买方的交易习惯数据训练出来的，因此，输出的是符合买方交易习惯的内容，从而保证交易的成功率。
186.下面再以日常聊天场景为例对上述的提供的交互方法进行示意性说明。
187.假设第一交互方为用户a，第二交互方为智能机器人。目标对象可以是二者讨论的对象内容，比如电影。
188.用户a可以向智能机器人发出语音指令即交互记录：“最近有什么好看的电影”。智能机器人比如可以通过声纹识别来确定用户a的标识信息，再根据用户a的标识信息确定与用户对应的动作预测模型。将上述交互记录输入模型中，以由模动作预测型输出应答记录：“最近好看的电影很多呀，你最喜欢喜剧类型的电影，xxx挺好的”。此时也即是实现了智能机器人对用户a的回复。
189.由于预测模型是根据用户b的说话习惯训练出来的，因此输出的应答记录具有与用户b相似的语气以及思维，从而使得用户a有一种和用户b在沟通的感觉，保证用户的交互体验。
190.下述各实施例均以交易场景为例进行说明。在此场景下，交互特性即为交易特性。历史对象可以为在预设时间段内第一交互方发生交易的商品。并且在下述各实施例中，可以认为第一交互方为买方，第二交互方为卖方。
191.基于上述内容，图7为本发明实施例提供的一种模型训练方法的流程图，本发明实施例提供的该模型训练方法可以由训练设备来执行。可以理解的是，该训练设备可以实现为软件、或者软件和硬件的组合，比如可以是服务器。如图7所示，该方法包括如下步骤：
192.s501，接收第一交互方对应于历史对象的交互记录，交互记录包含第一交互方和第二交互方产生的多条记录，交互记录由第二交互方输入。
193.s502，根据交互记录确定第一交互方的交互特性。
194.第二交互方可以确定在预设时间段内，第一交互方都对哪些历史对象产生过交易，此交易包括交易成功以及交易失败的。同时，第二交互方也可以收集到针对这些历史对象，第一交互方和第二交互方产生的至少一条记录，也即是交互记录。在实际应用中，不同的历史对象可以对应于不同的第二交互方，但收集交互记录的上第二交互方可以是交易平台上的任一个第二交互方，而不限于历史对象对应的第二交互方。
195.第二交互方可以将收集到的交互记录输入到服务器中。服务器在接收到交互记录的同时，还可以得到交互记录中每条记录的产生时间，并通过对交互记录进行分析、处理，以得到第一交互方的交互特征。
196.在交易场景下，交互特性即为交易特性，其可以包含第一交互方的议价能力、交易频率、交易效率、交易成功率中的至少一项。具体内容可以参见上述图3a所示实施例中的相关描述。
197.s503，根据交互特性确定动作预测参数。
198.s504，输出动作预测参数，以使第二交互方根据动作预测参数获得针对于第一交互方的预测模型参数。
199.服务器可以进一步根据第一交互方的交互特性确定动作预测参数，并最终将动作预测参数输出。对于有模型训练需求的第二交互方，其可以直接将模型参数输入到已经搭建好的模型结构中，从而得到第二交互方针对于第一交互方的动作预测模型。其中，参数的确定过程可以参见下述图9～图11所示实施例中的相关描述。
200.本实施例可以认为是提供了一种模型训练的线上平台，对于有模型训练需求的第二交互方，其可以将收集到的数据输入到平台上，以由平台自动为其输出模型参数，第二交互方可以直接将模型参数输入至模型，从而得到模型，以实现对第一交互方产生的交易记录进行应答。
201.图8为本发明实施例提供的另一种模型训练方法的流程图，本发明实施例提供的该模型训练方法可以由训练设备来执行。可以理解的是，该训练设备可以实现为软件、或者软件和硬件的组合。如图8所示，该方法包括如下步骤：
202.s601，获取对应于历史对象的交互记录，交互记录包含第一交互方和第二交互方产生的多条记录记录。
203.s602，根据交互记录确定第一交互方的交互特性。
204.s603，根据交互特性确定第二交互方针对于第一交互方的动作预测模型。
205.以交易场景为例，交互包括在预设时间段内，第一交互方和第二交互方对历史对象的交易。第一交互方的交互特性包括第一交互方的交易特性。交易特性包括在预设时间段内，第一交互方的议价能力、交易频率、交易效率、交易成功率中的至少一项。
206.本实施例的步骤与图7所示实施例相似，具体实现过程可以可以参见图7所示实施例中的相关描述，在此不再赘述。
207.本实施例中，在模型训练的过程中考虑到了第一交互方的交互特性，从而使训练出的是第二交互方专门针对于第一交互方的动作预测模型。得到的模型可以自动输出符合第一交互方交互习惯的应答记录，从而保证交易的效率以及成功率。
208.在实际应用中，动作预测模型可以是多种多样的，动作模型具体可以表现为ndf模型，则如图9所示，一种动作预测模型的确定方式，也即是步骤603一种可选地实现方式：
209.s701，根据第一交互方的交易特性，确定第一交互方对应的效用损失参数。
210.在得到交易特性后，可以对其中的交易频率、交易成功率、交易效率、议价能力等数据进行极大似然估计，从而确定出效用损失参数。
211.s702，根据交易特征确定预测方程以及效用方程。
212.对于预测方程以及效用方程的描述可以参见图3b所示实施例中的相关描述。通过上述实施例中提供的方式可以确定出两个方程，并且在方程参数确定的过程中，重点使用到了交易特性中的议价能力。
213.s703，由效用损失参数、效用方程以及预测方程构成动作预测模型。
214.最终，可以由效用损失参数、效用方程以及预测方程构成用于动作预测的公式即动作预测模型，如图3b所示实施例中提供的。通过此判定公式是否成立来预测第二交互方的预期交互动作。
215.本实施例提供的训练过程中，考虑到了第一交互方的交易特性，从而保证训练出的动作预测模型是第二交互方专门针对于第一交互方的。另外，本实施例中未详细描述的内容可以参见图3b所示实施例中的相关描述。
216.如图10所示，另一种动作预测模型的确定方式，也即是步骤603一种可选地实现方式：
217.s801，获取第一交互方的历史交易对象的属性信息和交互记录中描述的多个交易状态，交易状态包含交互记录中描述的至少一个交易动作。
218.获取第一交互方的历史交易对象的属性信息以及交互记录中描述的多个交易状态。其中，历史交易对象的属性信息包括历史交易对象的详情信息和/或历史交易对象的交易竞争力。交易状态可以认为是交互记录中各记录描述的交互动作所构成的动作序列。
219.承接图2所示的交易记录，其包括的多个交易状态可以为：
220.状态1：砍价(第一交互方)
221.状态2：砍价(第一交互方)—不同意砍价(第二交互方)
222.状态3：砍价(第一交互方)—不同意砍价(第二交互方)
--
砍价(第一交互方)
223.状态4：砍价(第一交互方)—不同意砍价(第二交互方)
--
砍价(第一交互方)—不同意砍价(第二交互方)
224.状态5：砍价(第一交互方)—不同意砍价(第二交互方)
--
砍价(第一交互方)—不同意砍价(第二交互方)
--
砍价(第一交互方)
225.因此，对于第一交互方来说，其交易过的每个历史交易对象，都可以具有多个交互状态。
226.s802，结合历史交易对象的属性信息，确定在目标交易状态下，第一交互方的预期交易动作为不同交易动作的概率值，目标交易状态为多个交易状态中的任一交易状态。
227.在得到第一交互方针对不同的历史交易对象各自的多个交易状态后，通过统计的方式可以得到在目标交易状态下，第一交互方的预期交易动作分别为不同交易动作，比如询问属性信息、砍价、同意交易等动作的概率值。最高概率值对应的预期交易动作也即是在目标交易状态下，第一交互方最常作出的交易动作，反映了第一交互方的交易习惯。其中，上述的目标交易状态为步骤801中多个交易状态的任意一个。
228.s803，根据第一交互方的交易特性以及多个交易状态各自对应的概率值以及第一交互方的交易特性，生成动作预测模型。
229.不同交易状态与概率值之间的映射关系可以体现为马尔科夫链矩阵，此矩阵即可以认为是动作预测模型的参数，也即是得到了动作预测模型。此模型实际上可以为mdp模型。
230.本实施例提供的训练过程中，同时考虑到了第一交互方的交易特性以及历史交易对象的属性信息，从而保证训练出的动作预测模型是第二交互方专门针对于第一交互方的。
231.需要说明的有，上述生成的动作预测模型是专门针对于第一交互方的。但在实际应用中，第二交互方为每个第一交互方都专门训练一个预测模型是不现实的，因此，在通过上述方式得到预测模型后，还可以进一步对获取到的第一交互方对历史交易对象的交互记录进行分析，以确定第一交互方的交易特性。则上述已经得到的预测模型不仅适用于第一
交互方，同时也适用于所有与第一交互方具有相同或相似交易特性的交互方。
232.如图11所示，又一种动作预测模型的确定方式，也即是步骤603一种可选地实现方式：
233.s901，获取第一交互方的历史交易对象的属性信息和描述有多个交易状态的交互记录，交易状态包含交互记录中描述的至少一个交易动作。
234.s902，将描述有目标交易状态、在目标状态下第二交互方的预期交易动作的交互记录、第一交互方的交易特性以及历史交易对象的属性信息，输入动作预测模型，以对动作预测模型进行训练，其中，目标交易状态为多个交易状态中的任一交易状态。
235.获取第一交互方的历史交易对象的属性信息，以及针对历史交易对象产生的交互记录。其中，交互记录中描述有针对历史交易对象的多个交易状态，具体的，交互记录中可以描述有第一交互方在目标状态下的交易动作，以及第二交互方在此目标状态下的预期交易动作。历史交易对象的属性信息包括历史交易对象的详情信息和/或历史交易对象的交易竞争力。
236.然后，训练设备根据获取到的交互记录、第一交互方的交易特性以及历史交易对象的属性信息作为训练样本进行训练，从而得到动作预测模型。其中，动作预测模型可以是rnn模型。
237.动作预测模型对于输入的、描述有第一交互方的当前交互动作的交互记录，其可以输出一个第二交互方的预期交易动作，此动作可以认为是预测交易动作。并且由于输入至模型的交互记录中已经包含了第二交互方的预期动作，此动作是真实交易动作，因此，可选地，可以计算预测交易动作与真实交易动作之间的语义相似度。二者之间的语义相似度越高表明模型的训练效果越好。相似度值可以间接认为是模型的损失值，因此，可以根据此相似度来调整模型参数。
238.另一种可选地模型参数调整方式，动作预测模型输出预测交易动作是在目标状态下第二交互方的预期交易动作，若此预测交易动作与交互记录中描述的目标交易状态下包含的至少一个交易动作之间不满足预设交易规律，则表明输出的预测交易动作是有误的，不符合交易逻辑的。此时，可以对此输出设置一个较大的损失值从而根据损失值调整动作预测模型的模型参数。
239.其中，预设交易规律包含：规则1:第一交互方出价单调递增，第二交互方出价单调递减。
240.规则2:第二交互方出价高于第一交互方出价。
241.规则3:成交价格大于等于第一交互方最后一轮出价，小于等于第二交互方最后一轮出价。
242.基于上述规则，举例来说，目标交易状态为：原始标价100元(第二交互方)
--
砍价至80元(第一交互方)。此时，根据已经得到的交互记录可知，第二交互方真实的预期交易动作为：不同意砍价，重新出价90元。若预测模型输入的预测动作为不同意砍价，重新出价60元，这显然是不符合交易逻辑的。
243.上述过程实际上是，若模型输出的是不符合交易逻辑的预期交易动作，则会对其进行惩罚即设置一个较大的损失值。
244.除此之外，若模型输出的预期交易动作符合交易逻辑并且能够使第一交互方的收
益最大化，则还会对其进行奖励，得到奖励值用以抵消损失值。
245.可选地，可以通过下述方程计算奖励值：γ
s
＝p
t-υ
s
ω
d
*ii
d
,γ
b
＝υ
b-p
t
ω
d
*ii
d
。其中，γ
s
为第二交互方的奖励值，γ
b
为第一交互方的奖励值，p
t
为最终成交比例，ω
d
为成交收益的比重，交易成功则ω
d
＝1，否则ω
d
＝0，ii
d
为指示函数表示有无成交，υ
s
为第二交互方的心理价位，υ
b
为第一交互方的心理价位，心理价位可以认为是交互方所能接收的最低价格，其可以预先设定。
246.本实施例提供的训练过程中，同时考虑到了第一交互方的交易特性以及历史交易对象的属性信息，从而保证训练出的动作预测模型是第二交互方专门针对于第一交互方的。
247.另外，上述图9～图11所示的实施例实际上训练出的是第二交互方针对于第一交互方的第一动作预测模型。在实际应用中，同样可以按照上述方式训练出第一交互方针对于第二交互方的第二动作预测模型。此时，为了进一步保证模型的训练效果，可选地，还可以对上述的两个动作预测模型进行无监督的训练。
248.具体来说，第一动作预测模型部署于第二交互方使用的交互设备中，第二动作预测模型部署于第一交互方使用的交互设备中。对于其中一动作预测模型输出的交互记录，另一动作预测模型可以对其进行自动应答，即生成交互记录。两模型可以分别根据自身自动输出的以及对方自动输出的交互记录，进一步完成对自身的训练，也即是保证模型训练的效果。
249.以下将详细描述本发明的一个或多个实施例的交互装置。本领域技术人员可以理解，这些图像替换装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
250.图12为本发明实施例提供的一种交互装置的结构示意图，如图12所示，该装置包括：
251.获取模块11，用于获取交互主体的标识信息以及针对目标对象的交互记录，其中，所述交互记录用于描述交互动作。
252.动作确定模块12，用于根据所述标识信息以及所述交互记录，确定预期交互动作。
253.生成模块13，用于根据所述预期交互动作，生成所述交互记录对应的应答记录。
254.可选地，所述交互动作包括所述交互主体对所述目标对象的交易动作。所述交易动作包括对所述目标对象的砍价动作、对所述目标对象的属性信息的询问动作、对所述目标对象的交易成功动作、对所述目标对象的交易失败动作中的任一种。所述交互主体包括第一交互方和第二交互方。
255.所述动作确定模块12具体用于：根据所述第一交互方的标识信息以及描述有所述第一交互方当前交互动作的所述交互记录，确定所述第二交互方的预期交易动作。
256.可选地，所述所述动作确定模块12具体包括：
257.确定单元121，用于根据所述第一交互方的标识信息，确定所述第二交互方针对于所述第一交互方的动作预测模型。
258.输入模块122，用于将描述有所述第一交互方当前交易动作的所述交互记录，输入所述动作预测模型，以通过所述动作预测模型输出所述第二交互方的预期交易动作。
259.可选地，所述输入模块122具体用于：将所述交互记录、所述目标对象的属性信息
以及所述第一交互方、第二交互方各自的交易特性，输入所述动作预测模型，以通过所述动作预测模型的特征提取层对所述交互记录、所述属性信息以及所述交易特性进行特征提取；
260.将提取出的特征输入所述动作预测模型的输出层，以通过所述输出层输出所述第二交互方的预期交易动作。
261.其中，所述交易特性包括所述在预设时间段内，所述第一交互方的议价能力、交易频率、交易效率、交易成功率中的至少一项；所述历史交易对象的属性信息包括所述历史交易对象的详情信息和/或所述历史交易对象的交易竞争力；所述目标对象的属性信息包括所述目标交易对象的详情信息和/或所述目标交易对象的交易竞争力。
262.可选地，所述输入模块122具体用于：将所述交互记录以及目标对象的属性信息输入所述动作预测模型，以通过所述动作预测模型输出所述第二交互方的预期交易动作，其中，所述动作预测模型的模型参数根据所述第一交互方的交易特性以及所述第一交互方的历史交易对象的属性信息确定。
263.可选地，所述输入模块122具体用于：获取所述交互记录中描述的所述第一交互方的当前交易动作；
264.根据所述当前交易动作以及所述动作预测模型中的预测方程确定所述第二交互方的预期交易动作，所述预测方程根据所述第一交互方的交易特性确定。
265.可选地，所述输入模块122具体用于：若所述第一交互方的当前交易动作与所述动作预测模型输出的第二交互方的备选交易动作之间满足预设条件，则确定所述备选交易动作为所述预期交易动作。
266.可选地，所述生成模块13，还用于若所述当前交易动作与所述备选交易动作之间不满足预设条件，则生成表明交易成功的应答记录。
267.可选地，所述装置还包括：
268.效用确定模块14，用于根据效用方程分别确定所述当前交易动作和所述备选交易动作各自的效用值，所述当前交易动作的效用值反映所述目标对象以所述当前交易动作成交后，所述第一交互方的满意程度。
269.判断模块15，用于根据所述效用值以及效用损失参数，确定所述当前交易动作和所述备选交易动作之间是否满足所述预设条件，所述效用损失参数根据所述第一交互方的交易特性确定。
270.可选地，所述生成模块13还用于：将所述预期交易动作输入所述生成模型，以通过所述的生成模型输出所述应答记录。
271.图12所示装置可以执行图1至图3b所示实施例的方法，本实施例未详细描述的部分，可参考对图1至图3b所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1至图3b所示实施例中的描述，在此不再赘述。
272.以上描述了交互装置的内部功能和结构，在一个可能的设计中，交互装置的结构可实现为一电子设备，如图13所示，该电子设备可以包括：处理器21和存储器22。其中，所述存储器22用于存储支持该电子设备执行上述图1至图3b所示实施例中提供的交互方法的程序，所述处理器21被配置为用于执行所述存储器22中存储的程序。
273.所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述
处理器21执行时能够实现如下步骤：
274.获取交互主体的标识信息以及针对目标对象的交互记录，其中，所述交互记录用于描述交互动作；
275.根据所述标识信息以及所述交互记录，确定预期交互动作；
276.根据所述预期交互动作，生成所述交互记录对应的应答记录。
277.可选地，所述处理器21还用于执行前述图1至图3b所示实施例中的全部或部分步骤。
278.其中，所述电子设备的结构中还可以包括通信接口23，用于该电子设备与其他设备或通信网络通信。
279.另外，本发明实施例提供了一种计算机存储介质，用于储存上述电子设备所用的计算机软件指令，其包含用于执行上述图1至图3b所示方法实施例中交互方法所涉及的程序。
280.图14为本发明实施例提供的另一种交互装置的结构示意图，如图14所示，该装置包括：
281.显示模块31，用于显示包含交互按钮的交互界面，其中，所述交互按钮对应于交互主体。
282.获取模块32，用于响应于交互主体对所述交互按钮触发的点击操作，获取针对目标对象的交互记录。
283.动作确定模块32，用于根据所述交互记录以及所述交互主体的标识信息，确定预期交互动作。
284.所述显示模块31，还用于在所述交互界面中显示用于描述所述预期交互动作的应答记录。
285.图14所示装置可以执行图4所示实施例的方法，本实施例未详细描述的部分，可参考对图4所示实施例的相关说明。该技术方案的执行过程和技术效果参见图4所示实施例中的描述，在此不再赘述。
286.以上描述了交互装置的内部功能和结构，在一个可能的设计中，交互装置的结构可实现为一电子设备，如图15所示，该电子设备可以包括：处理器41和存储器42。其中，所述存储器42用于存储支持该电子设备执行上述图4所示实施例中提供的交互方法的程序，所述处理器41被配置为用于执行所述存储器42中存储的程序。
287.所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器41执行时能够实现如下步骤：
288.显示包含交互按钮的交互界面；
289.响应于交互主体对所述交互按钮触发的点击操作，获取针对目标对象的交互记录；
290.根据所述交互记录以及所述交互主体的标识信息，确定预期交互动作；
291.在所述交互界面中显示用于描述所述预期交互动作的应答记录。
292.可选地，所述处理器41还用于执行前述图4所示实施例中的全部或部分步骤。
293.其中，所述电子设备的结构中还可以包括通信接口43，用于该电子设备与其他设备或通信网络通信。
294.另外，本发明实施例提供了一种计算机存储介质，用于储存上述电子设备所用的计算机软件指令，其包含用于执行上述图4所示方法实施例中交互方法所涉及的程序。
295.图16为本发明实施例提供的又一种交互装置的结构示意图，如图16所示，该装置包括：
296.显示模块51，用于显示包含交互按钮的交互界面。
297.获取模块52，用于响应于第一交互方对所述交互按钮触发的点击操作，获取所述第一交互方和第二交互方各自的标识信息以及针对目标对象的第一交互记录。
298.第一动作确定模块53，用于根据所述第一交互记录以及所述第二交互方的标识信息，确定所述第一交互方的预期交互动作。
299.所述显示模块51，还用于显示用于描述所述第一交互方的预期交互动作的第一应答记录。
300.第二动作确定模块54，用于响应于所述第二交互方对交互按钮触发的点击操作，根据所述第一交互记录、所述第一应答记录以及所述第一交互方的标识信息，确定所述第二交互方的预期交互动作。
301.所述显示模块51，还用于显示用于描述所述第二交互方的预期交互动作的第二应答记录。
302.可选地，所述第一动作确定模块52具体用于：根据所述第二交互方的标识信息，确定所述第一交互方针对于所述第二交互方的第一动作预测模型；
303.将描述有所述第二交互方的当前交互动作的第一交互记录输入所述第一动作预测模型，以通过所述第一动作预测模型输出所述第一交互方的预期交互动作。
304.可选地，第二动作确定模块54具体用于：根据所述第一交互方的标识信息，确定所述第二交互方针对于所述第一交互方的第二动作预测模型；
305.将描述有所述第二交互方的当前交互动作的第一交互记录，以及描述有所述第一交互方的预期交互动作的所述第一应答记录输入所述第二动作预测模型，以通过所述第二动作预测模型输出所述第二交互方的预期交互动作。
306.图16所示装置可以执行图5所示实施例的方法，本实施例未详细描述的部分，可参考对图5所示实施例的相关说明。该技术方案的执行过程和技术效果参见图5所示实施例中的描述，在此不再赘述。
307.以上描述了交互装置的内部功能和结构，在一个可能的设计中，交互装置的结构可实现为一电子设备，如图17所示，该电子设备可以包括：处理器61和存储器62。其中，所述存储器62用于存储支持该电子设备执行上述图5所示实施例中提供的交互方法的程序，所述处理器61被配置为用于执行所述存储器62中存储的程序。
308.所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器61执行时能够实现如下步骤：
309.显示包含交互按钮的交互界面；
310.响应于第一交互方对所述交互按钮触发的点击操作，获取所述第一交互方和所述第二交互方各自的标识信息以及针对目标对象的第一交互记录；
311.根据所述第一交互记录以及所述第二交互方的标识信息，确定所述第一交互方的预期交互动作；
312.显示用于描述所述第一交互方的预期交互动作的第一应答记录；
313.响应于所述第二交互方对交互按钮触发的点击操作，根据所述第一交互记录、所述第一应答记录以及所述第一交互方的标识信息，确定所述第二交互方的预期交互动作；
314.显示用于描述所述第二交互方的预期交互动作的第二应答记录。
315.可选地，所述处理器61还用于执行前述图5所示实施例中的全部或部分步骤。
316.其中，所述电子设备的结构中还可以包括通信接口63，用于该电子设备与其他设备或通信网络通信。
317.另外，本发明实施例提供了一种计算机存储介质，用于储存上述电子设备所用的计算机软件指令，其包含用于执行上述图5所示方法实施例中交互方法所涉及的程序。
318.图18为本发明实施例提供的一种模型训练装置的结构示意图，如图18所示，该装置包括：
319.接收模块71，用于接收第一交互方对应于历史对象的交互记录，所述交互记录包含第一交互方和第二交互方产生的多条记录，所述交互记录由所述第二交互方输入。
320.特性确定模块72，用于根据所述交互记录确定所述第一交互方的交互特性。
321.参数确定模块73，用于根据所述交互特性确定动作预测参数。
322.输出模块74，用于输出所述动作预测参数，以使所述第二交互方根据所述动作预测参数获得针对于所述第一交互方的预测模型参数。
323.图18所示装置可以执行图7所示实施例的方法，本实施例未详细描述的部分，可参考对图7所示实施例的相关说明。该技术方案的执行过程和技术效果参见图7所示实施例中的描述，在此不再赘述。
324.以上描述了模型训练装置的内部功能和结构，在一个可能的设计中，交互装置的结构可实现为一电子设备，如图19所示，该电子设备可以包括：处理器81和存储器82。其中，所述存储器82用于存储支持该电子设备执行上述图7所示实施例中提供的模型训练方法的程序，所述处理器81被配置为用于执行所述存储器82中存储的程序。
325.所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器81执行时能够实现如下步骤：
326.接收第一交互方对应于历史对象的交互记录，所述交互记录包含第一交互方和第二交互方产生的多条记录，所述交互记录由所述第二交互方输入；
327.根据所述交互记录确定所述第一交互方的交互特性；
328.根据所述交互特性确定动作预测参数；
329.输出所述动作预测参数，以使所述第二交互方根据所述动作预测参数获得针对于所述第一交互方的预测模型参数。
330.可选地，所述处理器81还用于执行前述图7所示实施例中的全部或部分步骤。
331.其中，所述电子设备的结构中还可以包括通信接口53，用于该电子设备与其他设备或通信网络通信。
332.另外，本发明实施例提供了一种计算机存储介质，用于储存上述电子设备所用的计算机软件指令，其包含用于执行上述图7所示方法实施例中模型训练方法所涉及的程序。
333.图20为本发明实施例提供的另一种模型训练装置的结构示意图，如图20所示，该装置包括：
334.获取模块91，用于获取对应于历史对象的交互记录，所述交互记录包含第一交互方和第二交互方产生的多条记录。
335.特性确定模块92，用于根据所述交互记录确定所述第一交互方的交互特性。
336.模型确定模块93，用于根据所述交互特性确定所述第二交互方针对于所述第一交互方的动作预测模型。
337.可选地，交互包括在预设时间段内，所述第一交互方和所述第二交互方对所述历史对象的交易；所述第一交互方的交互特性包括所述第一交互方的交易特性；所述所述交易特性包括在所述预设时间段内，所述第一交互方的议价能力、交易频率、交易效率、交易成功率中的至少一项。
338.所述模型确定模块93，用于根据所述第一交互方的交易特性，确定所述第一交互方对应的效用损失参数；
339.根据所述交易特性确定预测方程以及效用方程；
340.由所述效用损失参数、所述效用方程以及所述预测方程构成所述动作预测模型。
341.可选地，所述历史交易对象的属性信息包括所述历史交易对象的详情信息和/或所述历史交易对象的交易竞争力。
342.所述模型确定模块93，用于获取所述第一交互方的历史交易对象的属性信息和所述交互记录中描述的多个交易状态，交易状态包含所述交互记录中描述的至少一个交易动作；
343.结合所述历史交易对象的属性信息，确定在所述目标交易状态下，所述第一交互方的预期交易动作为不同交易动作的概率值，所述目标交易状态为所述多个交易状态中的任一交易状态；
344.根据所述第一交互方的交易特性以及所述多个交易状态各自对应的概率值，生成所述动作预测模型。
345.可选地，所述模型确定模块93，用于获取所述第一交互方的历史交易对象的属性信息和描述有多个交易状态的所述交互记录，交易状态包含所述交互记录中描述的至少一个交易动作；
346.将描述有所述目标交易状态、在所述目标状态下所述第二交互方的预期交易动作的交互记录、所述第一交互方的交易特性以及所述历史交易对象的属性信息，输入动作预测模型，以对所述动作预测模型进行训练，其中，所述目标交易状态为所述多个交易状态中的任一交易状态。
347.可选地，所述装置还包括：调整模块94，用于根据所述动作预测模型输出的预测交易动作与所述第二交互方的预期交易动作之间的语义相似度，调整所述预测模型的模型参数。
348.可选地，所述调整模块94，还用于若所述动作预测模型输出的预测交易动作与所述目标交易状态中包含的至少一个交易动作之间不满足预设交易规律，则调整所述预测模型的模型参数，所述至少一个交易动作由所述第一交易方和/或所述第二交易方产生。
349.可选地，所述装置还包括：输出模块95，用于响应交易开始操作，以使所述第一交互方针对于所述第二交互方的第一动作预测模型，以及所述第二交互方针对于所述第一交互方的第二动作预测模型，根据对方产生的交互记录，交替输出与所述交互记录对应的应
答记录。
350.所述调整模块94，还用于根据所述应答记录，调整所述第一动作预测模型与所述第二动作预测模型各自的模型参数。
351.图20所示装置可以执行图8所示实施例的方法，本实施例未详细描述的部分，可参考对图8所示实施例的相关说明。该技术方案的执行过程和技术效果参见图8所示实施例中的描述，在此不再赘述。
352.以上描述了模型训练装置的内部功能和结构，在一个可能的设计中，交互装置的结构可实现为一电子设备，如图21所示，该电子设备可以包括：处理器101和存储器102。其中，所述存储器102用于存储支持该电子设备执行上述图8所示实施例中提供的模型训练方法的程序，所述处理器101被配置为用于执行所述存储器52中存储的程序。
353.所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器101执行时能够实现如下步骤：
354.获取对应于历史对象的交互记录，所述交互记录包含第一交互方和第二交互方产生的多条记录；
355.根据所述交互记录确定所述第一交互方的交互特性；
356.根据所述交互特性确定所述第二交互方针对于所述第一交互方的动作预测模型。
357.可选地，所述处理器101还用于执行前述图8所示实施例中的全部或部分步骤。
358.其中，所述电子设备的结构中还可以包括通信接口103，用于该电子设备与其他设备或通信网络通信。
359.另外，本发明实施例提供了一种计算机存储介质，用于储存上述电子设备所用的计算机软件指令，其包含用于执行上述图8所示方法实施例中模型训练方法所涉及的程序。
360.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

交互方法、模型训练方法、装置、设备和存储介质与流程

相关文献

最热文献