识别内容中关键片段的方法、装置、介质及电子设备与流程

2022-11-19 11:35:59 来源：中国专利 TAG：

1.本技术涉及信息处理技术领域，具体而言，涉及一种识别内容中关键片段的方法、装置、计算机可读介质及电子设备。

背景技术：

2.随着互联网，特别是移动互联网的发展，信息时代已经到来，文章、视频、图片等各种内容正如潮水般向人们涌来。
3.互联网虽然能够为用户获取内容提供了便捷的途径，但与此同时，很多内容中会存在大量几乎不值得浏览的信息，这些信息会占用用户大量的阅读时间，也没有向用户提供有价值的信息，降低了用户的信息获取效率，用户体验较差。

技术实现要素：

4.本技术的实施例提供了一种识别内容中关键片段的方法、装置、计算机可读介质及电子设备，至少在一定程度上能够自动提取出内容中的关键片段，进而通过向用户提供关键片段可以提高用户的信息获取效率，节约用户的时间。
5.本技术的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本技术的实践而习得。
6.根据本技术实施例的一个方面，提供了一种识别内容中关键片段的方法，所述方法包括：将内容划分为多个片段；获取多个对象在访问所述内容中各个片段时产生的行为数据；根据所述多个对象在访问所述内容中每个片段时产生的行为数据，确定所述内容中每个片段的关键度，所述关键度用于衡量片段在内容中的关键程度；根据所述内容中每个片段的关键度在所述内容的多个片段中识别出至少一个关键片段。
7.根据本技术实施例的一个方面，提供了一种识别内容中关键片段的装置，所述装置包括：划分单元，用于将内容划分为多个片段；行为数据获取单元，用于获取多个对象在访问所述内容中各个片段时产生的行为数据；确定单元，用于根据所述多个对象在访问所述内容中每个片段时产生的行为数据，确定所述内容中每个片段的关键度，所述关键度用于衡量片段在内容中的关键程度；识别单元，用于根据所述内容中每个片段的关键度在所述内容的多个片段中识别出至少一个关键片段。
8.在本技术的一些实施例中，基于前述方案，所述内容为文章，所述行为数据获取单元配置为：获取多个对象在阅读文章时对所述文章中每个片段的每次曝光的曝光时长，以得到与每个片段的多次曝光分别对应的曝光时长，其中，所述曝光时长为从片段出现在屏幕起至片段从屏幕中消失为止的时长。
9.在本技术的一些实施例中，基于前述方案，所述确定单元配置为：根据多个对象在阅读文章时对所述文章中各个片段的每次曝光的曝光时长，对与每个片段的多次曝光分别对应的曝光时长进行归一化处理，得到每个片段的归一化曝光时长；根据所述文章中每个片段的归一化曝光时长，确定所述文章中每个片段的关键度。
10.在本技术的一些实施例中，基于前述方案，所述行为数据获取单元进一步配置为：获取多个对象在阅读文章时对所述文章中每个片段的曝光次数；所述确定单元进一步配置为：根据对所述文章中各个片段的曝光次数，对所述文章中每个片段的曝光次数进行归一化处理，得到每个片段的归一化曝光次数；根据所述文章中每个片段的归一化曝光时长和归一化曝光次数，确定所述内容中每个片段的关键度。
11.在本技术的一些实施例中，基于前述方案，所述行为数据还包括主动操作记录数据，所述确定单元配置为：针对所述文章中的每个片段，根据所述片段在曝光时产生的主动操作记录数据，对所述片段的至少一次曝光的曝光时长进行加权处理，并将所述曝光时长替换为相应的加权后曝光时长；对与每个片段对应的多个曝光时长进行归一化处理，得到每个片段的归一化曝光时长，其中，所述多个曝光时长包括所述加权后曝光时长。
12.在本技术的一些实施例中，基于前述方案，所述行为数据获取单元进一步配置为：获取多个对象在阅读文章时对所述文章中每个片段的每次曝光记录，并根据每次曝光记录计算一次原始曝光次数；针对所述文章中的每个片段，根据所述片段在曝光时产生的主动操作记录数据，对所述片段的至少一次曝光记录的原始曝光次数进行加权处理，得到加权处理后原始曝光次数；针对所述文章中的每个片段，根据所述片段的至少一次曝光记录的加权处理后原始曝光次数和其他曝光记录的原始曝光次数，得到所述片段的曝光次数。
13.在本技术的一些实施例中，基于前述方案，所述识别单元配置为：根据所述内容中每个片段的关键度在所述内容的多个片段中确定出第一候选关键片段；从所述多个对象在访问所述内容中每个片段时产生的行为数据中提取出每个片段的行为特征；将各个片段的行为特征分别输入至预先建立的人工智能模型中，得到所述人工智能模型输出的与每个片段对应的预测概率值；根据所述内容中每个片段对应的预测概率值在所述内容的多个片段中确定出第二候选关键片段；根据所述第一候选关键片段和所述第二候选关键片段确定出关键片段。
14.在本技术的一些实施例中，基于前述方案，在根据所述内容中每个片段的关键度在所述内容的多个片段中识别出至少一个关键片段之后，所述识别单元还用于：当目标对象在访问所述内容时，向所述目标对象提供所述内容，并突出显示所述内容中的所述关键片段。
15.在本技术的一些实施例中，基于前述方案，在根据所述内容中每个片段的关键度在所述内容的多个片段中识别出至少一个关键片段之后，所述识别单元还用于：当目标对象在访问所述内容时，在所述内容的显示界面中向所述目标对象提供操作控件；响应于所述目标对象对所述操作控件的触发操作，在所述显示界面中仅显示所述内容中的所述关键片段。
16.根据本技术实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的识别内容中关键片段的方法。
17.根据本技术实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的识别内容中关键片段的方法。
18.根据本技术实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行如上述实施例中所述的识别内容中关键片段的方法。
19.在本技术的一些实施例所提供的技术方案中，在将内容划分为多个片段之后，通过获取多个对象在访问内容中各个片段时产生的行为数据，并根据多个对象在访问所述内容中每个片段时产生的行为数据确定出每个片段的关键度，以衡量片段在内容中的关键程度，最后根据各片段的关键度确定出内容中的关键片段。由此可见，此方法借助大数据的手段可以自动提取出内容中的价值更高、更值得访问的关键片段，进而通过向用户提供关键片段可以提高用户的信息获取效率，节约了用户的时间。
20.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。
附图说明
21.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：
22.图1示出了相关技术中文本摘要技术在搜索引擎的应用场景示意图；
23.图2示出了相关技术中文本摘要技术在新闻事件抽取的应用场景示意图；
24.图3示出了根据本技术的一个实施例的正文与标题关联性较低的文章的页面示意图；
25.图4示出了根据本技术的一个实施例的冗长文章的页面示意图；
26.图5示出了根据本技术的一个实施例的标题党文章的页面示意图；
27.图6示出了可以应用本技术实施例的技术方案的示例性系统架构的示意图；
28.图7示出了根据本技术的一个实施例的识别内容中关键片段的方法的流程图；
29.图8示出了根据本技术的一个实施例的图7中步骤720的细节的流程图；
30.图9示出了根据本技术的一个实施例的图8中步骤730的细节的流程图；
31.图10示出了根据本技术的一个实施例的获取多个对象在阅读文章时对文章中每个片段的曝光次数的流程图；
32.图11示出了根据本技术的一个实施例的图7中步骤740之后步骤的流程图；
33.图12示出了根据本技术的另一个实施例的图7中步骤740之后步骤的流程图；
34.图13示出了根据本技术的一个实施例的方案整体流程示意图；
35.图14示出了根据本技术的一个实施例的识别内容中关键片段的装置的框图；
36.图15示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
具体实施方式
37.现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本技术将更加
全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。
38.此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本技术的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本技术的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本技术的各方面。
39.附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
40.附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。
41.随着信息化时代的到来，用户在访问互联网中的内容时仿佛在信息的海洋中遨游，大量没有价值的信息让用户无所适从。很多内容中有价值的信息很少，需要用户花费大量精力去甄别，这浪费了用户大量的时间。
42.在相关技术中能够自动进行信息的处理的技术主要有文本摘要技术和自动新闻撰写技术。
43.文本摘要技术能够自动生成或者自动从文章中抽取出文章的中心思想，并将文章的中心思想作为摘要，从而将文章这一长文本转换为摘要这一较短的文本。文本摘要技术能够应用于搜索引擎、新闻事件抽取等场景中。
44.搜索引擎可以根据输入的关键词检索出与关键词匹配的网址，搜索引擎是借助文本摘要技术确定出与关键词匹配的网址的。具体地，搜索引擎可以从每个网址上的文章中提取出摘要，然后，通过判断关键词位于摘要中确定出关键词与该摘要对应的网址匹配。图1示出了相关技术中文本摘要技术在搜索引擎的应用场景示意图。请参见图1所示，当用户在搜索引擎中输入了“文本摘要技术”这一关键词，搜索引擎会返回相应的搜索结果，这些搜索结果中每个网址的摘要都会与“文本摘要技术”匹配。例如，第一个搜索结果的摘要即为矩形框中的内容，该摘要包含“文本摘要”和“技术”，其显然与“文本摘要技术”匹配。
45.在新闻事件抽取的应用场景中，借助文本摘要技术可以抽取出简短的新闻事件。图2示出了相关技术中文本摘要技术在新闻事件抽取的应用场景示意图。请参见图2所示，很多网站提供的热搜榜单中的文本都借助文本摘要技术来抽取出新闻事件。
46.另外，相关技术中还存在自动新闻撰写技术，利用自动新闻撰写技术可以简洁快速地生成一些新闻事件，经常用于突发事件或体育新闻报导中。
47.然而，文本摘要技术的主要目的是提炼出与搜索意图最相关的内容片段，并不是文章最精华的关键片段；自动新闻撰写技术虽然冗余信息较少，但使用场景比较局限，编写的新闻也比较简短。
48.因此，相关技术均无法识别文章中的关键片段；此外，现如今的自媒体文章越来越多，相关技术对大量的自媒体文章显然是束手无策的，不能对自媒体文章实现有效的信息处理。
49.为此，本技术首先提供了一种识别内容中关键片段的方法。基于本技术实施例提
供的识别内容中关键片段的方法可以克服上述缺陷，能够在在众多纷繁的内容中识别出精华的关键片段，进而可以使用户能够更高效地从文章等内容中获取关键片段，使用户更简洁、直接地获取到关键信息，可以提高用户的信息获取效率，节约了用户的时间，提高了用户的体验。本技术实施例提供的识别内容中关键片段的方法尤其使用于存在如下问题的文章：正文与标题关联性较低、过于冗长的文章、标题党文章。
50.正文与标题关联性较低的文章是指文章的正文中包含了与标题关联性较低的图文信息，用户容易被湮没在这些没有营养的信息中。图3示出了根据本技术的一个实施例的正文与标题关联性较低的文章的页面示意图。请参见图3所示，该文章的标题为“研究显示：最好的健身方法xx”，文章的正文中却包含了大量与“最好的健身方法”相关性较弱的内容，这些内容在圆角矩形框中标注出。
51.过于冗长的文章是指字数过多的文章。图4示出了根据本技术的一个实施例的冗长文章的页面示意图。可以看到，该文章的标题与银行有关，正文的内容占据了很长篇幅，而且与银行有关的内容分布在正文的各个位置。
52.标题党文章是指标题夸张但正文可能与标题完全无关或联系不大的文章。图5示出了根据本技术的一个实施例的标题党文章的页面示意图。通过图5可以看到，标题党文章会吸引用户点击但文章价值较低，文章的正文中仅有一小部分片段包含了值得阅读的信息，浪费了用户的阅读时间。
53.通过采用本技术实施例提供的识别内容中关键片段的方法来处理上述存在问题的文章，可以自动识别出这些文章中的关键片段，通过将这些关键片段直接提供给用户，可以使用户高效、直接、快速地获取到文章中最有价值的信息。
54.图6示出了可以应用本技术实施例的技术方案的示例性系统架构的示意图。请参见图6所示，该系统架构600可以包括：内容上传终端610、服务器620以及多个用户终端，多个用户终端具体包括第一用户终端630、第二用户终端640以及第三用户终端650，各个用户终端与服务器620之间以及内容上传终端610与服务器620之间均建立通信连接，内容上传终端610具有内容上传客户端，各个用户终端上运行有访问客户端，服务器620上则部署有能够为用户终端上的访问客户端和内容上传终端610上的内容上传客户端提供服务的服务端。以服务器620为本技术实施例的执行终端为例，当本技术提供的识别内容中关键片段的方法应用于图6所示的系统架构中时，一个过程可以是这样的：首先，内容上传终端610的用户在创作完成内容之后，通过内容上传客户端将内容上传至服务器620中；接着，服务器620的服务端通过执行如下过程来识别出该内容中的关键片段：将内容划分为多个片段；根据至少两个用户终端的内容访问请求，将内容发送至至少两个用户终端；获取各用户终端在访问内容中各个片段时产生的行为数据；根据行为数据，确定内容中每个片段的关键度，并根据每个片段的关键度在内容的多个片段中识别出至少一个关键片段；最后，当目标用户终端请求访问该内容时，服务器620会在向目标用户终端返回该内容的同时，突出显示内容中的关键片段或者在内容的显示界面向用户提供一个按钮，以便目标用户终端的用户在触发该按钮时会突出显示内容中的关键片段或者仅显示内容中的关键片段，这样目标用户终端的用户便可以直接访问价值更高、更值得访问的关键片段，从而提高了信息获取效率。
55.在本技术的一些实施例中，内容为包括图片和/或文字的文章、视频、音频、图片中的任意一种。
56.在本技术的一些实施例中，内容上传终端610向服务器620上传的内容为自媒体文章。
57.应该理解，图6中的内容上传终端、服务器以及用户终端的数目仅仅是示意性的。根据实现需要，可以具有任意数目的内容上传终端、服务器以及用户终端。比如内容上传终端的数量可以为多个，服务器可以是多个服务器组成的服务器集群，用户终端的数量可以低于三个或超过三个。
58.需要说明的是，图6示出的仅为本技术的一个实施例。虽然在图6实施例的方案中，内容上传终端为笔记本电脑，执行终端为服务器，而用户终端为智能手机，内容上传终端和用户终端的终端类型是不同的，但在本技术的其他实施例中，内容上传终端、执行终端以及用户终端可以为台式机、笔记本电脑、ipad、智能手机、车载终端等各种各样的终端设备，并且内容上传终端和用户终端的终端类型也可以是相同的；虽然在图6实施例的方案中，内容为自媒体文章，但易于理解，在本技术的其他实施例中，内容也可以是权威媒体的文章等其他类型的文章，内容甚至还可以是书籍；虽然图6实施例的方案是通过获取各用户终端在访问内容中各个片段时产生的行为数据来识别内容中的关键片段的，但在本技术的其他实施例中，还可以将内容发送至内容审批人员的终端，通过获取内容审批人员在访问内容中各个片段时产生的行为数据来识别内容中的关键片段。本技术实施例对此不作任何限定，本技术的保护范围也不应因此而受到任何限制。
59.易于理解，本技术实施例所提供的识别内容中关键片段的方法一般由服务器执行，相应地，识别内容中关键片段的装置一般设置于服务器中。但是，在本技术的其它实施例中，终端设备也可以与服务器具有相似的功能，从而执行本技术实施例所提供的识别内容中关键片段的方案。
60.因此，本技术实施例方案可以应用于终端或服务器中。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本技术在此不做限制。
61.以下对本技术实施例的技术方案的实现细节进行详细阐述：
62.图7示出了根据本技术的一个实施例的识别内容中关键片段的方法的流程图，该识别内容中关键片段的方法可以由各种能够计算和处理的设备来执行，比如可以是用户终端或云服务器，用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、可穿戴设备等。本技术实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
63.请参照图7所示，该识别内容中关键片段的方法至少包括以下步骤：
64.在步骤710中，将内容划分为多个片段。
65.内容可以是书籍、文章、视频、音频、图片中的任意一种；当内容为文章时，内容中不仅可以包括文字、符号等信息，内容中也可以包括视频、音频、图片、表格中的至少一种类型的信息。
66.可以按照各种规则对内容进行划分，并且，根据内容类型的不同，划分方式也可以
根据需要进行选择。比如，当内容为音频或者视频时，可以按照时长对内容进行划分，将每分钟划分为一个片段，以使得各个片段的长度相近；当内容为书籍时，可以将书籍的每一页划分为一个片段。
67.下面，将以内容为文章为例进一步介绍本技术实施例的方案。
68.在本技术的一个实施例中，内容为文章，文章包括多个句子，将内容划分为多个片段，包括：根据句子将文章划分为多个片段，以使每个片段中的字符数不超过预定字符数。
69.预定字符数可以根据需要进行设置，预定字符数比如可以为150，因此，通过对文章进行片段的划分，可以使得划分成的片段最短为一个句子，最长为不超过150字符的若干句子。
70.在本技术的一个实施例中，文章还包括视频、音频、图片、表格中的至少一种，将内容划分为多个片段，还包括：将文章中的一个视频、一个音频、一张图片或者一个表格单独划分为一个片段。
71.在本技术的一个实施例中，根据句子将文章划分为多个片段，以使每个片段中的字符数不超过预定字符数，包括：从文章的第一个句子开始，每次从未抽取过的句子中抽取一个句子加入至本轮抽取出的句子集合中；如果继续抽取下一个句子并将下一个句子加入本轮抽取出的句子集合中会使本轮抽取出的句子集合的字符数大于预定字符数，则将本轮抽取出的句子集合组成当前片段；如果首个加入本轮抽取出的句子集合中的句子的字符数大于预定字符数，则将该句子分割为两个片段；继续从文章的首个未抽取过的句子开始进行抽取，并根据下一轮抽取出的句子集合组成下一个片段，直至将文章的所有句子划分至相应的片段。
72.如果首个加入本轮抽取出的句子集合中的句子的字符数大于150，那么，可以将该句子平均划分为两个片段。
73.在本技术的一个实施例中，将内容划分为多个片段，包括：判断内容是否为预设类型的文章；如果内容为预设类型的文章，则将内容划分为多个片段。
74.预设类型的文章比如可以是自媒体文章，自媒体文章的质量千差万别，通过仅针对自媒体文章进行关键片段的识别，可以在自媒体文章的内容价值较低的情况下，仅识别关键片段并提供给用户，能够在更大程度上节约用户的时间。
75.在本技术的一个实施例中，将内容划分为多个片段，包括：判断文章的字数是否超过预定字数；如果文章的字数超过预定字数，则将文章划分为多个片段。
76.字数过多的文章是比较冗长的文章，通过在文章的字数过多的情况下，，仅识别关键片段并提供给用户，能够在更大程度上节约用户的时间。
77.在本技术的一个实施例中，将内容划分为多个片段，包括：确定文章的标题与文章内容的关联度；如果关联度低于预定关联度阈值，则将文章内容划分为多个片段。
78.当文章标题与文章内容的关联度较低时，说明文章内容中包含了大量与文章标题无关的信息，通过这种情况下仅识别关键片段并提供给用户，能够在更大程度上节约用户的时间。
79.在步骤720中，获取多个对象在访问内容中各个片段时产生的行为数据。
80.对象可以是能够访问内容的实体，比如可以是用户操作的用户账号、用户访问终端使用的ip地址等。
81.通过针对内容设置相应的脚本或者代码可以获取到对象在访问内容中各个片段时产生的行为数据。
82.当内容为文章时，用户可以以web页面的方式阅读文章，这样就可以实现对内容的访问。
83.当内容为文章时，对象可以用户的用户账号，也可以是审批人员的账号，用户使用用户账号登录内容平台阅读文章，审批人员也可以使用其账号登录内容平台对上传至内容平台的文章进行审批，也相当于对内容进行了访问。
84.每个对象可以对内容中的每个片段进行访问，不同对象对同一片段进行访问可能会产生不同的行为数据，当然，对象也可以不访问内容中一个或多个片段，此时便不会产生相应的行为数据。
85.图8示出了根据本技术的一个实施例的图7中步骤720的细节的流程图。如图8所示，获取多个对象在访问内容中各个片段时产生的行为数据具体可以包括以下步骤：
86.在步骤720'中，获取多个对象在阅读文章时对文章中每个片段的每次曝光的曝光时长，以得到与每个片段的多次曝光分别对应的曝光时长，其中，曝光时长为从片段出现在屏幕起至片段从屏幕中消失为止的时长。
87.具体地，本技术实施例中行为数据包括片段在每次曝光的曝光时长，曝光即用户阅读文章时片段出现或者完整地出现在屏幕中，从片段出现在屏幕起开始计时，用户对文章在屏幕的显示进行移动，当通过移动使文章完被划出屏幕时为止结束对本次曝光的计时，便可以得到曝光时长。每个用户在每次阅读文章都可以对该片段进行一次曝光，而且不同用户在阅读同一文章时也会同一片段进行曝光，因此，每个片段会对应着多次曝光。
88.对于一篇文章，用户在阅读该文章时会在关键的、更值得阅读的片段停留更长时间，因此，曝光时长直接反映了一个片段的关键程度，根据片段在每次曝光的曝光时长这一行为数据可以准确识别出关键片段。
89.在步骤730中，根据多个对象在访问内容中每个片段时产生的行为数据，确定内容中每个片段的关键度，关键度用于衡量片段在内容中的关键程度。
90.关键度也可以称为精华度，内容中一个片段的关键度越高，内容中的该片段越值得访问。
91.图9示出了根据本技术的一个实施例的图8中步骤730的细节的流程图。请参见图9所示，可以通过如下步骤确定内容中每个片段的关键度：
92.在步骤731中，根据多个对象在阅读文章时对文章中各个片段的每次曝光的曝光时长，对与每个片段的多次曝光分别对应的曝光时长进行归一化处理，得到每个片段的归一化曝光时长。
93.具体地，可以利用如下公式得到每个片段的归一化曝光时长：
[0094][0095]
其中，ti为第i个片段的归一化曝光时长，表示第i个片段在第j次曝光时的曝光时长，n为片段曝光的次数，为所有片段的所有曝光的曝光时长之和。
[0096]
在本技术的一个实施例中，在根据多个对象在阅读文章时对文章中各个片段的每
次曝光的曝光时长，对与每个片段的多次曝光分别对应的曝光时长进行归一化处理之前，该识别内容中精华片段的方法还包括：
[0097]
剔除对应的曝光时长未超过预设曝光时长阈值的片段。
[0098]
预设曝光时长阈值可以根据实际应用场景进行设置，比如可以设置为1秒。
[0099]
曝光时长较短的片段基本不可能是关键片段，通过提前将曝光时长较短的片段剔除，节约了计算量。
[0100]
在步骤732中，根据文章中每个片段的归一化曝光时长，确定文章中每个片段的关键度。
[0101]
可以直接将片段的归一化曝光时长作为片段的关键度，也可以通过对归一化曝光时长进一步计算来得到关键度，只要使得归一化曝光时长与关键度正相关即可。
[0102]
在确定片段的关键度时，通过进行归一化处理，可以更准确地衡量片段的关键程度。
[0103]
在本技术的一个实施例中，获取多个对象在访问内容中各个片段时产生的行为数据，还包括：获取多个对象在阅读文章时对文章中每个片段的曝光次数；根据文章中每个片段的归一化曝光时长，确定文章中每个片段的关键度，包括：根据对文章中各个片段的曝光次数，对文章中每个片段的曝光次数进行归一化处理，得到每个片段的归一化曝光次数；根据文章中每个片段的归一化曝光时长和归一化曝光次数，确定内容中每个片段的关键度。
[0104]
每当文章的片段完整地出现在屏幕中一次即为对该片段的一次曝光。本技术实施例中的行为数据还包括片段的曝光次数。
[0105]
与对曝光时长进行归一化处理的方式类似，可以利用如下公式得到每个片段的归一化曝光次数：
[0106][0107]
其中，ei为第i个片段的归一化曝光次数，表示第i个片段在第j次曝光时的曝光次数，n为片段曝光的总原始曝光次数，为所有片段的所有曝光的曝光次数之和。
[0108]
通过上述公式可以看出，归一化曝光时长和归一化曝光次数均为0到1之间的实数，通过根据归一化曝光时长和归一化曝光次数来确定片段的关键度，可以更准确地衡量片段的关键程度。
[0109]
可以通过多种方式根据归一化曝光时长和归一化曝光次数来计算出片段的关键度，只需要使计算出的关键度与归一化曝光时长和归一化曝光次数正相关即可。
[0110]
在本技术的一个实施例中，根据文章中每个片段的归一化曝光时长和归一化曝光次数，确定内容中每个片段的关键度，包括：确定每个片段的归一化曝光时长和归一化曝光次数的加权和，作为每个片段的关键度。
[0111]
在计算加权和时，归一化曝光时长和归一化曝光次数的权重可以根据需要进行设置，例如可以使归一化曝光时长的权重大于归一化曝光次数的权重。
[0112]
在本技术的一个实施例中，通过如下公式确定片段的关键度：
[0113]
[0114]
其中，ei为第i个片段的归一化曝光次数，ti为第i个片段的归一化曝光时长，νi为第i个片段的关键度。
[0115]
在本技术的一个实施例中，行为数据还包括主动操作记录数据，根据多个对象在阅读文章时对文章中各个片段的每次曝光的曝光时长，对与每个片段的多次曝光分别对应的曝光时长进行归一化处理，得到每个片段的归一化曝光时长，包括：针对文章中的每个片段，根据片段在曝光时产生的主动操作记录数据，对片段的至少一次曝光的曝光时长进行加权处理，并将曝光时长替换为相应的加权后曝光时长；对与每个片段对应的多个曝光时长进行归一化处理，得到每个片段的归一化曝光时长，其中，多个曝光时长包括加权后曝光时长。
[0116]
在本技术的一个实施例中，主动操作记录数据为下列中的至少一项：通过上滑操作曝光片段、对片段的至少一部分进行了选中操作、将片段展示在屏幕的目标区域。
[0117]
当片段在某次曝光时产生了主动操作记录数据，就需要对该次曝光的曝光时长进行加权处理，加权处理的方式可以根据需要进行设置，只需要使得通过加权处理生成的加权后曝光时长大于生成该加权后曝光时长所基于的曝光时长即可。因此，对于一个片段而言，会基于该片段的至少一次曝光的加权后曝光时长和其他曝光的曝光时长进行归一化处理。
[0118]
具体地，可以将屏幕被划分为上部区域、中间区域和下部区域，可以按照平均的方式对各个区域进行划分，也可以按照其他指定比例对各个区域进行划分。屏幕的目标区域可以为中间区域。由于用户在不同的屏幕区域的注意力有所不同，展示在屏幕的中间区域的内容更有可能是用户正在阅读的内容，通过将片段展示在屏幕的目标区域作为主动操作记录数据，对相应的片段的曝光时长等行为数据进行特殊处理，可以更准确地确定出归一化曝光时长，进而可以更准确地识别出关键片段。
[0119]
当一个片段展示在屏幕的中间区域，可以仅对该片段在中间区域的曝光时长进行加权处理，例如，可以通过将该片段在中间区域的曝光时长乘以2，在其他区域的曝光时长保持不变，以此计算得到加权后曝光时长。
[0120]
用户通常是采用下滑的方式阅读文章的，当用户通过上滑操作曝光了某一片段，这是用户反复阅读的信号，该片段的曝光时长也可以按照双倍进行加权处理。
[0121]
当用户对某个片段的至少一部分进行了选中操作，这表明用户对选中的内容额外关注，该片段的曝光时长也可以按照双倍进行加权处理，此外也可以按照选中的内容的长度与片段长度的比例来确定对该片段的曝光时长进行加权处理的权值。
[0122]
图10示出了根据本技术的一个实施例的获取多个对象在阅读文章时对文章中每个片段的曝光次数的流程图。如图10所示，获取多个对象在阅读文章时对文章中每个片段的曝光次数具体可以包括以下步骤：
[0123]
在步骤1010中，获取多个对象在阅读文章时对文章中每个片段的每次曝光记录，并根据每次曝光记录计算一次原始曝光次数。
[0124]
片段的每次曝光对应着一次曝光记录，即片段每曝光一次便计数一次原始曝光次数。
[0125]
在步骤1020中，针对文章中的每个片段，根据片段在曝光时产生的主动操作记录数据，对片段的至少一次曝光记录的原始曝光次数进行加权处理，得到加权处理后原始曝
光次数。
[0126]
当片段在某次曝光时产生了主动操作记录数据，就需要对该次曝光的原始曝光次数进行加权处理，加权处理的方式可以根据需要进行设置，只需要使得加权处理后原始曝光次数大于该加权处理后原始曝光次数对应的原始曝光次数即可。
[0127]
当某个片段通过用户的上滑操作进行了曝光，或者该片段的至少一部分被用户进行了选中操作，或者片段被展示在屏幕的中间区域，可以通过将该片段的单次曝光的原始曝光次数乘以2，得到加权处理后原始曝光次数。
[0128]
在步骤1030中，针对文章中的每个片段，根据片段的至少一次曝光记录的加权处理后原始曝光次数和其他曝光记录的原始曝光次数，得到片段的曝光次数。
[0129]
在没有产生主动操作记录数据的情况下，曝光记录的原始曝光次数即为1；而如果片段在曝光时产生了主动操作记录数据，在该次曝光的加权处理后原始曝光次数为大于1的实数。
[0130]
当片段在某次曝光时产生了多项主动操作记录数据，可以设置更大的用于加权处理的权值，以进一步提高计算出的关键度的准确性。
[0131]
在本技术实施例中，通过根据片段在曝光时产生的主动操作记录数据对曝光时长和/或曝光次数进行加权处理，可以更准确地计算出用于衡量片段在内容中的关键程度的关键度，进而可以更准确地识别出关键片段。
[0132]
在步骤740中，根据内容中每个片段的关键度在内容的多个片段中识别出至少一个关键片段。
[0133]
关键片段的关键度通常高于内容中其他片段的关键度。
[0134]
在本技术的一个实施例中，根据内容中每个片段的关键度在内容的多个片段中识别出至少一个关键片段，包括：将内容中关键度最高的片段作为关键片段。
[0135]
在本技术的一个实施例中，根据内容中每个片段的关键度在内容的多个片段中识别出至少一个关键片段，包括：从内容中选出关键度高于预定关键度阈值的片段作为关键片段。
[0136]
在本技术的一个实施例中，根据内容中每个片段的关键度在内容的多个片段中识别出至少一个关键片段，包括：根据内容中每个片段的关键度在内容的多个片段中确定出第一候选关键片段；从多个对象在访问内容中每个片段时产生的行为数据中提取出每个片段的行为特征；将各个片段的行为特征分别输入至预先建立的人工智能模型中，得到人工智能模型输出的与每个片段对应的预测概率值；根据内容中每个片段对应的预测概率值在内容的多个片段中确定出第二候选关键片段；根据第一候选关键片段和第二候选关键片段确定出关键片段。
[0137]
行为特征的类型可以由专家预先进行定义，行为特征可以通过多种方式进行计算，甚至可以与归一化曝光时长、归一化曝光次数的计算方式相同，每个片段可以有多个行为特征。人工智能模型可以采用逻辑回归模型、深度学习模型等各种算法，人工智能模型输出的预测概率值用于预测一个片段属于关键片段的概率。
[0138]
可以将对应的预测概率值大于预定概率阈值的片段作为第二候选关键片段，也可以将对应的预测概率值最大的片段作为第二候选关键片段。
[0139]
本技术实施例中，通过采用两种方式分别识别出相应的候选关键片段，才通过结
合两种候选关键片段识别出关键片段，提高了识别关键片段的准确性。
[0140]
在本技术的一个实施例中，根据第一候选关键片段和第二候选关键片段确定出关键片段，包括：如果第一候选关键片段和第二候选关键片段一致，则将第一候选关键片段或者第二候选关键片段作为关键片段。
[0141]
在本技术的一个实施例中，第一候选关键片段和第二候选关键片段均为多个，根据第一候选关键片段和第二候选关键片段确定出关键片段，包括：将第一候选关键片段和第二候选关键片段的交集作为关键片段。
[0142]
在本技术实施例中，只有一个片段既属于第一候选关键片段，又属于第二候选关键片段，该片段才可以成为关键片段，保证了识别关键片段的准确性。
[0143]
图11示出了根据本技术的一个实施例的图7中步骤740之后步骤的流程图。请参见图11所示，在步骤740之后可以包括以下步骤：
[0144]
在步骤750中，当目标对象在访问内容时，向目标对象提供内容，并突出显示内容中的关键片段。
[0145]
当用户请求访问文章时，在向用户返回文章的同时，使文章中的关键片段突出显示。
[0146]
可以通过对关键片段进行加粗、改变字体、放大、倾斜、加下划线、改变颜色等方式中的一种或多种来实现对关键片段的突出显示。
[0147]
图12示出了根据本技术的另一个实施例的图7中步骤740之后步骤的流程图。请参见图12所示，在步骤740之后可以包括以下步骤：
[0148]
在步骤760中，当目标对象在访问内容时，在内容的显示界面中向目标对象提供操作控件。
[0149]
操作控件比如可以是按钮，当用户在阅读一篇文章时，显示界面会显示文章的完整内容；同时，该文章的显示界面中还设置有一个按钮。
[0150]
在步骤770中，响应于目标对象对操作控件的触发操作，在显示界面中仅显示内容中的关键片段。
[0151]
当用户通过鼠标或者屏幕按压点击该按钮时，该文章的显示界面会由显示文章的完整内容直接切换至显示文章的关键片段，从而提高用户获取信息的效率。
[0152]
当然，在本技术的其他实施例中，还可以通过设置操作控件对是否突出显示文章中的关键片段进行切换。
[0153]
图13示出了根据本技术的一个实施例的方案整体流程示意图。请参见图13所示，具体可以包括以下流程：首先，进行文章片段划分；然后，依据划分得到的片段进行行为数据记录，得到行为数据；接下来，进行行为数据处理；最后，根据处理结果对各个片段进行关键度计算，并基于关键度识别出关键片段。
[0154]
综上所述，根据本技术实施例提供的识别内容中关键片段的方法，借助大数据的手段可以自动提取出内容中的价值更高、更值得访问的关键片段，进而通过向用户提供关键片段可以提高用户的信息获取效率，节约了用户的时间；当内容为文章时，该方案可以通过行为数据分析发现文章最值得阅读的部分，使用户对文章的精华部分一目了然，用户即可以直击文章重点，又可以关注细节。给用户一种简洁快速阅读的体验，又对整个阅读过程有更强的把控权。
[0155]
以下介绍本技术的装置实施例，可以用于执行本技术上述实施例中的识别内容中关键片段的方法。对于本技术装置实施例中未披露的细节，请参照本技术上述的识别内容中关键片段的方法的实施例。
[0156]
图14示出了根据本技术的一个实施例的识别内容中关键片段的装置的框图。
[0157]
参照图14所示，根据本技术的一个实施例的识别内容中关键片段的装置1400，包括：划分单元1410、行为数据获取单元1420、确定单元1430以及识别单元1440。其中，划分单元1410用于将内容划分为多个片段；行为数据获取单元1420用于获取多个对象在访问所述内容中各个片段时产生的行为数据；确定单元1430用于根据所述多个对象在访问所述内容中每个片段时产生的行为数据，确定所述内容中每个片段的关键度，所述关键度用于衡量片段在内容中的关键程度；识别单元1440用于根据所述内容中每个片段的关键度在所述内容的多个片段中识别出至少一个关键片段。
[0158]
在本技术的一些实施例中，基于前述方案，所述内容为文章，行为数据获取单元1420配置为：获取多个对象在阅读文章时对所述文章中每个片段的每次曝光的曝光时长，以得到与每个片段的多次曝光分别对应的曝光时长，其中，所述曝光时长为从片段出现在屏幕起至片段从屏幕中消失为止的时长。
[0159]
在本技术的一些实施例中，基于前述方案，确定单元1430配置为：根据多个对象在阅读文章时对所述文章中各个片段的每次曝光的曝光时长，对与每个片段的多次曝光分别对应的曝光时长进行归一化处理，得到每个片段的归一化曝光时长；根据所述文章中每个片段的归一化曝光时长，确定所述文章中每个片段的关键度。
[0160]
在本技术的一些实施例中，基于前述方案，行为数据获取单元1420进一步配置为：获取多个对象在阅读文章时对所述文章中每个片段的曝光次数；确定单元1430进一步配置为：根据对所述文章中各个片段的曝光次数，对所述文章中每个片段的曝光次数进行归一化处理，得到每个片段的归一化曝光次数；根据所述文章中每个片段的归一化曝光时长和归一化曝光次数，确定所述内容中每个片段的关键度。
[0161]
在本技术的一些实施例中，基于前述方案，所述行为数据还包括主动操作记录数据，确定单元1430配置为：针对所述文章中的每个片段，根据所述片段在曝光时产生的主动操作记录数据，对所述片段的至少一次曝光的曝光时长进行加权处理，并将所述曝光时长替换为相应的加权后曝光时长；对与每个片段对应的多个曝光时长进行归一化处理，得到每个片段的归一化曝光时长，其中，所述多个曝光时长包括所述加权后曝光时长。
[0162]
在本技术的一些实施例中，基于前述方案，行为数据获取单元1420进一步配置为：获取多个对象在阅读文章时对所述文章中每个片段的每次曝光记录，并根据每次曝光记录计算一次原始曝光次数；针对所述文章中的每个片段，根据所述片段在曝光时产生的主动操作记录数据，对所述片段的至少一次曝光记录的原始曝光次数进行加权处理，得到加权处理后原始曝光次数；针对所述文章中的每个片段，根据所述片段的至少一次曝光记录的加权处理后原始曝光次数和其他曝光记录的原始曝光次数，得到所述片段的曝光次数。
[0163]
在本技术的一些实施例中，基于前述方案，识别单元1440配置为：根据所述内容中每个片段的关键度在所述内容的多个片段中确定出第一候选关键片段；从所述多个对象在访问所述内容中每个片段时产生的行为数据中提取出每个片段的行为特征；将各个片段的行为特征分别输入至预先建立的人工智能模型中，得到所述人工智能模型输出的与每个片
段对应的预测概率值；根据所述内容中每个片段对应的预测概率值在所述内容的多个片段中确定出第二候选关键片段；根据所述第一候选关键片段和所述第二候选关键片段确定出关键片段。
[0164]
在本技术的一些实施例中，基于前述方案，在根据所述内容中每个片段的关键度在所述内容的多个片段中识别出至少一个关键片段之后，识别单元1440还用于：当目标对象在访问所述内容时，向所述目标对象提供所述内容，并突出显示所述内容中的所述关键片段。
[0165]
在本技术的一些实施例中，基于前述方案，在根据所述内容中每个片段的关键度在所述内容的多个片段中识别出至少一个关键片段之后，识别单元1440还用于：当目标对象在访问所述内容时，在所述内容的显示界面中向所述目标对象提供操作控件；响应于所述目标对象对所述操作控件的触发操作，在所述显示界面中仅显示所述内容中的所述关键片段。
[0166]
图15示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
[0167]
需要说明的是，图15示出的电子设备的计算机系统1500仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。
[0168]
如图15所示，计算机系统1500包括中央处理单元(central processing unit，cpu)1501，其可以根据存储在只读存储器(read-only memory，rom)1502中的程序或者从存储部分1508加载到随机访问存储器(random access memory，ram)1503中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在ram 1503中，还存储有系统操作所需的各种程序和数据。cpu 1501、rom 1502以及ram 1503通过总线1504彼此相连。输入/输出(input/output，i/o)接口1505也连接至总线1504。
[0169]
以下部件连接至i/o接口1505：包括键盘、鼠标等的输入部分1506；包括诸如阴极射线管(cathode ray tube，crt)、液晶显示器(liquid crystal display，lcd)等以及扬声器等的输出部分1507；包括硬盘等的存储部分1508；以及包括诸如lan(local area network，局域网)卡、调制解调器等的网络接口卡的通信部分1509。通信部分1509经由诸如因特网的网络执行通信处理。驱动器1510也根据需要连接至i/o接口1505。可拆卸介质1511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1510上，以便于从其上读出的计算机程序根据需要被安装入存储部分1508。
[0170]
特别地，根据本技术的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本技术的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1509从网络上被下载和安装，和/或从可拆卸介质1511被安装。在该计算机程序被中央处理单元(cpu)1501执行时，执行本技术的系统中限定的各种功能。
[0171]
需要说明的是，本技术实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程
只读存储器(erasable programmable read only memory，eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory，cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。
[0172]
附图中的流程图和框图，图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0173]
描述于本技术实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。
[0174]
作为一方面，本技术还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。
[0175]
应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本技术的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0176]
通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本技术实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本技术实施方式的方法。
[0177]
可以理解的是，在本技术的具体实施方式中，涉及到与用户访问内容的行为相关的数据，当本技术以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且
相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0178]
本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。
[0179]
应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于粒子群算法的遥感产品生产任务调度方法

识别内容中关键片段的方法、装置、介质及电子设备与流程

相关文献

最热文献