文本信息的推荐方法、装置、服务器及存储介质与流程

2022-04-27 11:52:15 来源：中国专利 TAG：

1.本公开涉及人工智能技术领域，特别涉及一种文本信息的推荐方法、装置、服务器及存储介质。

背景技术：

2.随着互联网技术的发展，用户群体越来越趋近于年轻化，越来越多的未成年用户开始从网络上获取文本信息。由于当前互联网上的信息量十分巨大，文本信息的内容五花八门，为了提高未成年用户对文本信息的获取效率，需要向未成年用户推荐文本信息。
3.相关技术在向未成年用户推荐文本信息时，主要采用如下方法：基于未成年用户的人口统计学信息、社交关系、偏好习惯及消费行为等描绘出未成年用户的对象数据；根据该未成年用户的对象数据，从网络上筛选出符合要求的文本信息；将该文本信息推荐给未成年用户。
4.然而，相关技术所推荐的文本信息的形式一般为纯文本形式，信息形式较为单一。

技术实现要素：

5.本公开实施例提供了一种文本信息的推荐方法、装置、服务器及存储介质，能够丰富所推荐信息的形式。所述技术方案如下：
6.一方面，提供了一种文本信息的推荐方法，所述方法包括：
7.响应于目标对象的信息获取请求，获取待推荐文本信息；
8.获取所述待推荐文本信息对应的文本类别标签；
9.根据所述文本类别标签，获取与所述待推荐文本信息的内容相关联的图片；
10.获取所述待推荐文本信息对应的文本要素，所述文本要素包括文本标题或文本摘要中至少一项；
11.基于所述图片和所述文本要素，生成所述待推荐文本信息对应的封面信息；
12.将所述封面信息推荐给所述目标对象。
13.另一方面，提供了一种文本信息的推荐装置，所述装置包括：
14.第一获取模块，用于响应于目标对象的信息获取请求，获取待推荐文本信息；
15.所述第一获取模块，还用于获取所述待推荐文本信息对应的文本类别标签；
16.所述第一获取模块，还用于根据所述文本类别标签，获取与所述待推荐文本信息的内容相关联的图片；
17.所述第一获取模块，还用于获取所述待推荐文本信息对应的文本要素，所述文本要素包括文本标题或文本摘要中至少一项；
18.生成模块，用于基于所述图片和所述文本要素，生成所述待推荐文本信息对应的封面信息；
19.推荐模块，用于将所述封面信息推荐给所述目标对象。
20.另一方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存
储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现一方面所述的文本信息的推荐方法。
21.另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现一方面所述的文本信息的推荐方法。
22.另一方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，服务器的处理器从所述计算机可读存储介质读取所述计算机程序代码，所述处理器执行所述计算机程序代码，使得所述服务器执行一方面所述的文本信息的推荐方法。
23.本公开实施例提供的技术方案带来的有益效果是：
24.基于待推荐信息的文本类别标签获取与该待推荐文本信息的内容相关联的图片，该与待推荐文本信息的内容相关联的图片能够直观、形象地向用户展示该待推荐文本信息所描述的对象的外在表现，接着，获取该推荐文本信息对应的文本要素，该文本要素包括待推荐文本信息的文本标题或文本摘要中至少一项，能够简要地向用户展示该待推荐信息的核心内容，进而通过将与待推荐文本信息的内容相关联的图片和文本要素组合生成图文形式的封面信息，该封面信息相比于单一文本形式的信息，信息形式更丰富、趣味性更强，大大提高了用户查看该文本信息的概率。
附图说明
25.为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
26.图1是本公开实施例提供的一种文本信息的推荐方法所涉及的实施环境的示意图；
27.图2是本公开实施例提供的一种文本信息的推荐方法的流程图；
28.图3是本公开实施例提供的另一种文本信息的推荐方法的流程图；
29.图4是本公开实施例搜索到的关联图片的示意图；
30.图5是本公开实施例中封面信息的生成过程的示意图；
31.图6是相关技术所提供的信息的显示效果图；
32.图7是本公开实施例所过生成的封面信息的显示效果图；
33.图8是本公开实施例提供的一种文本类别识别模型的训练方法流程图；
34.图9是本公开实施例提供的一种样本文本信息标注过程的示意图；
35.图10是本公开实施例提供的一种文本信息的推荐过程的示意图；
36.图11是本公开实施例提供的一种文本信息的推荐装置结构示意图；
37.图12是根据一示例性实施例示出的一种用于文本信息的推荐的服务器。
具体实施方式
38.为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方
式作进一步地详细描述。
39.可以理解，本公开实施例所使用的术语“每个”、“多个”及“任一”等，多个包括两个或两个以上，每个是指对应的多个中的每一个，任一是指对应的多个中的任意一个。举例来说，多个词语包括10个词语，而每个词语是指这10个词语中的每一个词语，任一词语是指10个词语中的任意一个词语。
40.在本公开的具体实施方式中，涉及到用户的相关数据，当本公开实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
41.首先，在执行本公开实施例之前，首先对本公开实施例中涉及的名词进行解释。
42.对象数据是指根据用户人口统计学信息、社交关系、偏好习惯、消费行为等信息抽象出来的标签化画像。该构建对象数据的核心工作即是给用户贴“标签”，而标签中部分是根据用户的行为数据直接得到，部分是通过一系列算法或规则挖掘得到。
43.文本信息分类是指电子设备通过算法对输入的文本信息按照一定的类目体系进行自动化归类的过程。当电子设备按照一定的分类体系或标准对文本信息集合进行自动分类标记时，可根据一个已经被标注文本类别标签的样本文本信息集合，找到文本类别特征和文本类别标签之间的关系模型,该关系模型较为本公开实施例中所述的文本类别识别模型，进而采用学习到的关系模型对新的文本信息的文本类别进行识别。
44.ocr(optical character recognition，光学字符识别)识别是指电子设备基于ocr技术将图片或照片上的文字内容直接转换为可编辑文本的过程。
45.文本摘要是指电子设备自动地从原始文献中提取文本摘要，该文本摘要是全面准确地反映某一文献中心内容地简单连贯的短文。
46.对本公开实施例中所涉及的技术进行介绍。
47.人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
48.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、自然语言处理技术以及机器学习/深度学习等几大方向。
49.计算机视觉技术(computer vision，cv)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。
50.自然语言处理(nature language processing，nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
51.机器学习(machine learning，ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
52.云技术(cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。
53.请参考图1，其示出了本公开实施例提供的文本信息的推荐方法所涉及的实施环境，该实施环境包括：终端101和服务器102。
54.终端101可以是诸如智能手机、平板电脑、笔记本电脑、台式计算机、电子书阅读器、多媒体播放设备、可穿戴设备、pc(personal computer，个人计算机)、智能家电、车载终端、智能语音交互设备等电子设备。该终端101中安装有文本信息获取应用，基于该文本信息获取应用，终端101能够向服务器101发送信息获取请求，进而显示服务器102针对该信息获取请求推荐的文本信息的封面信息。
55.服务器102用于为终端101中的文本信息获取应用提供后台服务。例如，服务器102可以是该文本信息获取应用的后台服务器。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。该服务器102能够接收终端101发送的信息获取请求，并基于该信息获取请求获取待推荐文本信息。服务器102中安装并运行有文本类别识别模型和文本要素生成模型，该文本类别识别模型能够识别出待推荐文本信息对应的文本类别标签，该文本要素生成模型能够为待推荐文本信息生成文本要素。服务器101还能够基于识别出的文本类别标签获取与待推荐文本信息的内容相关联的图片，进而将该图片与生成的文本要素组合成封面信息，从而将该封面信息推荐给终端101。
56.终端101和服务器102之间可通过网络103进行通信。该网络103可以是有线网络，也可以是无线网络。
57.本公开实施例提供了一种文本信息的推荐方法，该方法由上述图1所示的服务器执行。本公开实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等各种场景。参见图2，本公开实施例提供的方法流程包括：
58.201.响应于目标对象的信息获取请求，获取待推荐文本信息。
59.其中，目标对象为具有文本信息获取需求的对象。信息获取请求包括目标对象的对象信息、信息获取时间等，该目标对象的对象信息包括目标对象的账号、年龄、性别、籍贯、住址、受教育程度等。当接收到目标对象的信息获取请求，响应于该目标对象的信息获取请求，服务器基于目标对象对应的对象数据，从网络上获取到待推荐信息。
60.202.获取待推荐文本信息对应的文本类别标签。
61.其中，文本类别标签用于标识待推荐文本信息所属的类别，该文本类别标签可以为动物科普、植物科普、游戏、情感等。
62.203.根据文本类别标签，获取与待推荐文本信息的内容相关联的图片。
63.在本公开实施例中，文本类别标签实际上为待推荐文本信息的内容关键字，能够反映出待推荐文本信息所描述的对象，基于该文本类别标签，服务器能够获取到与该待推荐文本信息的内容相关联的图片。
64.204.获取待推荐文本信息对应的文本要素。
65.其中，文本要素用于反应待推荐文本信息的核心内容，该文本要素包括文本标题或文本摘要中至少一项，也即是，该文本要素可以为文本标题，该文本要素可以为文本摘要，该文本要素还可以为文本标题和文本摘要。
66.205.基于图片和文本要素，生成待推荐文本信息对应的封面信息。
67.基于与待推荐文本信息的内容相关联的图片以及文本要素，服务器通过将该图片与文本要素组合，生成该推荐文本信息对应的封面信息，该封面信息为图文结合的形式，信息形式更丰富。针对文本要素包括的内容不同，服务器生成封面信息的方式也是不同的。当该文本要素为文本标题，服务器基于文本标题及与待推荐文本信息的内容相关联的图片，生成待推荐文本信息对应的封面信息；当该文本要素为文本摘要，服务器基于文本摘要及与待推荐文本信息的内容相关联的图片，生成待推荐文本信息对应的封面信息；当该文本要素包括文本标题和文本摘要，服务器基于该文本标题、文本摘要及与待推荐文本信息的内容相关联的图片，生成待推荐文本信息对应的封面信息。
68.206.将封面信息推荐给目标对象。
69.服务器将所生成的封面信息推荐给目标对象，以满足目标对象对文本信息的获取需求。该封面信息相比于纯文本形式的文本信息信息内容及信息形式更丰富，趣味性更强，增加了目标对象对文本信息获取应用的粘性。
70.本公开实施例提供的方法，基于待推荐信息的文本类别标签获取与该待推荐文本信息的内容相关联的图片，该与待推荐文本信息的内容相关联的图片能够直观、形象地向用户展示该待推荐文本信息所描述的对象的外在表现，接着，获取该推荐文本信息对应的文本要素，该文本要素包括待推荐文本信息的文本标题或文本摘要中至少一项，能够简要地向用户展示该待推荐信息的核心内容，进而通过将与待推荐文本信息的内容相关联的图片和文本要素组合生成图文形式的封面信息，该封面信息相比于单一文本形式的信息，信息形式更丰富、趣味性更强，大大提高了用户查看该文本信息的概率。
71.本公开实施例提供了一种文本信息的推荐方法，该方法由上述图1所示的服务器执行。本公开实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。参见图3，本公开实施例提供的方法流程包括：
72.301.响应于目标对象的信息获取请求，服务器获取待推荐文本信息。
73.当检测到目标对象对文本信息获取应用的打开操作，或者检测到目标对象对文本信息获取应用的界面的刷新操作，终端生成目标对象的信息获取请求，进而将该信息获取请求发送至服务器，以获取服务器向目标对象推荐的待推荐文本信息，进而通过显示该推荐文本信息，满足目标对象对文本信息的获取需求。其中，终端包括但不限于智能手机、电脑、智能语音交互设备、智能家电、车载终端等。
74.当接收到目标对象的信息获取请求，响应于该信息获取请求，服务器为该目标对象获取待推荐文本信息。在一种可能的实现方式中，服务器获取目标对象的对象数据，进而基于该对象数据，从网络上获取目标对象可能感兴趣的待推荐文本信息。在另一种可能的实现方式中，服务器可根据文本信息的关注信息(例如，点击率、转发量、点赞量、分享量等)，从网络上获取关注度较高的文本信息作为待推荐文本信息。在另一种可能的实现方式中，服务器可根据文本信息的发布时间，从网络上获取最新发布的文本信息作为待推荐文本信息。
75.302.服务器获取待推荐文本信息对应的文本类别标签。
76.在本公开实施例中，服务器上安装并运行有文本类别识别模型，该文本类别识别模型用于识别出任一文本信息对应的文本类别标签，基于该文本类别识别模型，服务器能够获取到该待推荐文本信息对应的文本类别标签，从而不仅能够对获取到的待推荐文本信息进行筛选，以避免将不适宜目标对象查看的文本信息推荐给目标对象，而且能够基于该待推荐文本信息对应的文本类别标签，获取到与该推荐文本信息的内容相关联的图片，进而通过生成图文相结合的封面信息，增强所推荐的文本信息的趣味性。
77.基于文本类别识别模型，服务器在获取待推荐信息对应的文本类别标签时，可采用如下方法：
78.3021.服务器从待推荐文本信息中提取文本类别特征。
79.其中，文本类别特征为用于标识文本信息的类别的特征。服务器从待推荐文本信息中提取文本类别特征包括以下步骤：
80.第一步，服务器对该待推荐文本信息进行预处理，以去除推荐文本信息中的无意义信息。
81.其中，无意义信息包括标点符号、介词等。
82.第二步，服务器对该预处理后的待推荐文本信息进行分词处理，并识别其中的非登录词，得到分词后的待推荐文本信息。
83.其中，非登录词是指没有被收录在分词表中但需要切分出来的词，包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等。
84.第三步，服务器从分词后的待推荐文本信息中提取文本类别特征。
85.服务器从分词后的待推荐文本信息中提取文本特征，进而从提取的文本特征中选择出文本分类相关的特征，以达到降低文本类别特征维度，减少计算量的目的，进而选择合适的方式表示所选择的特征，得到文本类别特征，该合适的方式可以为向量方式、矩阵方式等。
86.3022.服务器调用文本类别识别模型，对文本类别特征进行处理，得到文本类别标签。
87.其中，文本类别标签包括第一级文本类别标签和第二级文本类别标签，该第一级文本类别标签包括动物科普、植物科普、游戏、情感等，该第二级文本类别标签为第一级文本类别标签的子标签。例如，第一级文本类别标签为动物科普，则第二级文本类别标签为老虎、兔子、狮子、猫头鹰、熊等；又例如，第一级文本类别标签为植物科普，则第二级文本类别标签为蒲公英、桑树、含羞草等。
88.在本公开实施例中，文本类别识别模型为反映文本类别特征和文本类别标签之间关系的关系模型，服务器通过调用文本类别识别模型，对待推荐文本信息的文本类别特征进行处理，得到该待推荐文本信息对应的文本类别标签。
89.303.服务器获取目标对象的对象信息，在目标对象的对象信息符合预设年龄条件且文本类别标签属于预设文本类别标签的情况下，执行步骤304。
90.为了实现对未成年用户的保护，降低未成年用户接触网络上的不良信息、受到犯罪行为侵害的风险，当获取到该推荐文本信息对应的文本类别标签，服务器还将获取目标对象的对象信息，进而基于该目标对象的对象信息判断目标对象的对象信息是否符合预设年龄条件，该预设年龄条件可以为小于18周岁等。当基于目标对象的对象信息确定目标对象符合预设年龄条件，也即是该目标对象可能为未成年用户，服务器还将基于预设文本类别标签，对该推荐文本信息进行筛选。其中，预设文本类别标签为允许目标对象查看的文本信息对应的文本类别标签，该预设文本类别标签可以为动物科普、植物科普等。当文本类类别标签属于预设文本类别标签，服务器将执行步骤304；当文本类别标签不属于预设文本类别标签，服务器不再将该待推荐信息推荐给目标对象。
91.以下有三点需要说明的：
92.第一点，当服务器确定目标对象的对象信息符合预设年龄条件，即便文本类别标签不属于预设文本类别标签，对于是否向该目标对象推荐该待推荐文本信息，还取决于目标对象，如果目标对象在文本信息获取应用中开启了相应的保护模式，例如未成年用户保护模式，则在文本类别标签不属于预设文本类别标签时，不再向该目标对象推荐该待推荐文本信息；如果目标对象在文本信息获取应用中未开启相应的保护模式，则在文本类别标签不属于预设文本类别标签时，可继续向该目标对象推荐该待推荐文本信息。
93.第二点，上述文本类别标签包括第一级文本类别标签和第二级文本类别标签，服务器在判断该文本类别标签是否属于预设文本类别标签时，可将该第一级文本类别标签与该预设文本类别标签进行匹配，也可将第二级文本类别标签与该预设文本类别标签进行匹配，当该第一级文本类别标签或第二级文本类别标签与该预设文本类别标签相同，或者该第一级文本类别标签或第二级文本类别标签为该预设文本类别标签的子标签时，可确定该文本类别标签属于该预设文本类别标签。
94.第三点，上述在获取到待推荐信息对应的文本类别标签之后，生成待推荐文本信息对应的封面信息之前，判断目标对象的对象信息是否符合预设年龄条件，从而在待推荐文本信息的文本类别标签不属于预设类别标签时，不再获取与待推荐文本信息的内容相关联的图片，当然，服务器还可在生成待推荐文本信息对应的封面信息后，将待封面信息推荐给目标对象推荐给目标对象之前，判断目标对象的对象信息是否符合预设年龄条件，本公开实施例对此不作具体的限定。
95.304.服务器根据文本类别标签，获取与待推荐文本信息的内容相关联的图片。
96.基于待推荐文本信息对应的文本类别标签，服务器获取与待推荐文本信息的内容相关联的图片。具体地，包括以下步骤：
97.3041.服务器根据文本类别标签，获取与文本信息的内容相关联的至少一张关联图片。
98.服务器获取技术人员基于python编程语言编写的scrapy框架爬虫，进而基于文本类别标签，使用python的goose31库对搜索引擎发起查询请求，使得搜索引擎能够基于该查询请求查询图片，以向服务器返回查询到的与该推荐文本信息的内容相关联的至少一张关联图片。其中，goose31为基于java语言编写的文章提取器，用于获取新闻文章或文章类型的网页，进而提取文章的主体以及所有元数据和图片。
99.由于文本类别标签包括第一级文本类别标签和第二级文本类别标签，针对不同级别的文本类别标签，服务器获取的与文本信息的内容相关联的至少一张关联图片也是不同的。
100.在一种可能的实现方式中，当文本类别标签为第一级文本类别标签，服务器获取包含第一级文本类别标签指示的内容的图片，得到至少一张关联图片，该至少一张关联图片中的对象属于同一第一级文本类别标签，但是不一定为同一对象。例如，第一级文本类别标签为动物科普，则基于第一级文本类别标签获取到的可能为老虎图片，也可能是狮子图片。
101.在另一种可能的实现方式中，当文本类别标签为第二级文本类别标签，服务器获取包含第二级文本类别标签指示的内容的图片，得到至少一张关联图片，该至少一张关联图片中的对象属于同一第二级文本类别标签，但是也不一定为同一对象。例如，第二级文本类别标签为老虎，则基于第二级文本类别标签获取到的可能为华南虎图片，也可能是东北虎图片。
102.为了更为精准地反映出待推荐文本信息中的内容，本公开实施例中文本类别标签还可以包括第三级文本类别标签，该第三级文本类别标签为第二级文本类别标签的子标签，基于该第三级文本类别标签，服务器获取包含第三级文本类别标签指示的内容的图片，得到至少一张关联图片，该至少一张关联图片中的对象属于同一第三级文本类别标签，且为同一对象。例如，第二级文本类别标签为熊，第三级文本类别标签为北极熊，则基于第三级文本类别标签获取到均是北极熊的图片。
103.3042.服务器从至少一张关联图片中识别出包含敏感信息的敏感图片。
104.考虑到网络上的图片中可能会含有广告、网址、不文明用语等敏感信息，为避免这些敏感信息干扰目标对象查看对待推荐文本信息，服务器在获取到至少一张关联图片之后，还将识别至少一张关联图片是否为包含敏感信息的敏感图片。对于至少一张关联图片中的人一张关联图片，服务器在识别该关联图片是否为敏感图片时，可采用如下几种方式：
105.第一种方式，服务器可基于ocr技术，识别该关联图片是否包含预设字符，当关联图片中包含预设字符，服务器识别该关联图片为敏感图片。该预设字符可以为广告字样、网址字符、不文明用语文字等。例如，图4中所示的六张图片，第一张图片、第二张图片、第三张图片上包含“广告”字样，则确定该第一张图片、第二张图片及第三张图片为敏感图片
106.第二种方式，服务器获取该关联图片的图片参数，进而在图片参数与敏感图片的图片参数相匹配的情况下，识别该关联图片为敏感图片。
107.3043.服务器删除敏感图片。
108.当识别出任一张关联图片为敏感图片，服务器删除该敏感图片，以降低敏感图片对用户的干扰，提高用户对文本信息的阅读体验。
109.3044.服务器根据剩余的关联图片的属性信息，从剩余的关联图片中，获取图片。
110.其中，属性信息包括尺寸、大小、对比度、清晰度等。服务器根据剩余的关联图片的属性信息中的至少一项，对剩余的关联图片进行排序，从中选取高质量关联图片作为与该推荐文本信息的内容相关联的图片。
111.305.服务器获取待推荐文本信息对应的文本要素。
112.在本公开实施例中，服务器中安装并运行文本要素生成模型，该文本要素生成模型用于为任一文本信息生成对应的文本要素，基于该文本要素生成模型，服务器能够获取待推荐文本信息对应的文本要素。具体地，包括以下步骤：
113.第一步，服务器从待推荐文本信息中提取文本要素特征。
114.其中，文本要素特征用于标识文本信息的文本要素的特征。
115.第二步，服务器调用文本要素生成模型，对文本要素特征进行处理，得到文本要素。
116.根据文本要素及待推荐文本信息，服务器调用文本要素生成模型，对文本要素特征进行处理，得到文本要素时，包括以下几种情况：
117.第一种情况、当文本要素包括文本标题，如果待推荐文本信息中不包含文本标题，则服务器调用文本要素生成模型，对该文本要素特征进行处理，得到待推荐文本信息对应的文本标题。
118.第二种情况、当文本要素包括文本摘要，如果待推荐文本信息中不包含文本摘要，则服务器调用文本要素生成模型，对该文本要素特征进行处理，得到待推荐文本信息对应的文本摘要。
119.第三种情况、当文本要素包括文本标题和文本摘要，如果待推荐文本信息包含文本标题但不包含文本摘要，则服务器调用文本要素生成模型，对该文本要素特征进行处理，得到待推荐文本信息对应的文本摘要；如果待推荐文本信息包括不包含文本标题但包含文本摘要，服务器调用文本要素生成模型，对该文本要素特征进行处理，得到待推荐文本信息对应的文本标题；如果待推荐文本信息不包含文本标题也不包含文本摘要，服务器调用文本要素生产模型，对该文本要素特征进行处理，得到待推荐文本信息对应的文本标题和文本摘要。
120.需要说明的是，上述获取与待推荐文本信息的内容相关联的图片的过程，以及获取待推荐的文本信息对应的文本标题和文本摘要的过程可以先后执行，也可同步执行，本公开实施例不对上述两个过程的执行顺序进行限定。
121.306.基于图片和文本要素，服务器生成待推荐文本信息对应的封面信息。
122.在本公开实施例中，文本要素包括文本标题或文本摘要中至少一项，针对文本要素所包括的不同内容，服务器基于与待推荐文本信息的内容相关联的图片及文本要素，生成待推荐文本信息对应的封面信息时，包括以下几种情况：
123.第一种情况、文本要素包括文本标题。
124.针对该种情况，服务器根据文本标题的文字特征和与待推荐文本信息的内容相关
联的图片的图片特征，在该图片上确定用于添加文本标题的指定位置，进而将该文本标题添加至该图片的指定位置上，得到封面信息。
125.第二种情况、文本要素包括文本摘要。
126.针对该种情况，服务器确定该图片和文本摘要在待生成的封面信息上的显示区域，进而将该图片和文本摘要分别添加至对应的显示区域上，得到封面信息。
127.第三种情况、文本要素包括文本标题和文本摘要。
128.针对该种情况，服务器确定该图片和文本摘要在待生成的封面信息上的显示区域，进而将图片和文本摘要分别添加至对应的显示区域上，然后，服务器根据文本标题的文字特征和该图片的图片特征，在该图片上确定用于添加文本标题的指定位置，进而将文本标题添加至该图片的指定位置上，得到封面信息。
129.图5示出了上述封面信息的生成过程，参见图5，服务器获取待推荐文本信息，提取该待推荐文本信息的文本类别特征，进而调用文本类别识别模型，对该文本类别特征进行处理，得到该待推荐文本信息的文本类别标签。服务器提取该待推荐文本信息的文本要素特征，进而调用文本要素生成模型，对该文本要素特征进行处理，得到待推荐文本信息的文本要素。然后，服务器基于该文本类别标签，获取与待推荐文本信息的内容相关联的图片，进而将该图片和文本要素组合生成待推荐文本信息对应的封面信息。例如，待推荐文本信息的标题为“动物科普：食腐不中毒秃鹫有诀窍”，识别出该待推荐文本信息的文本类别标签为“秃鹫”，基于该文本类别标签获取到一张秃鹫图片，为该待推荐文本信息生成的文本摘要为“秃鹫是隼形目鹰科秃鹫属的猛禽，分布于非洲西北部、欧洲南部、亚洲中部、南部和东部，冬季也到泰国、缅甸等地”，基于获取到的秃鹫图片、文本标题及文本摘要，服务器通过将文本标题“动物科普：食腐不中毒秃鹫有诀窍”添加到秃鹫图片上，并将添加文本标题的秃鹫图片及文本摘要添加到对应的显示区域，最终生成图5右下角所示的封面信息。
130.307.服务器将封面信息推荐给目标对象。
131.服务器将封面信息推荐给目标对象时，可根据待推荐信息的关注信息或发布时间中至少一项，确定封面信息的推荐顺序，进而按照推荐顺序，将封面信息推荐给目标对象。其中，关注信息包括点赞数量、分享数量、转发数量、点击率等。
132.在一种可能的实现方式中，服务器可根据关注信息，确定封面信息的推荐顺序。例如，服务器可按照点赞数量由高到低的顺序，确定封面信息的推荐顺序；服务器还可按照分享数量由高到低的顺序，确定封面信息的推荐顺序；服务器还可按照转发数量由高到低的顺序，确定封面信息的推荐顺序；服务器还可按照点击率由高到低的顺序确定封面信息的推荐顺序，当然，服务器还可基于点赞数量、分享数量、转发数量、点击率中至少两项，确定封面信息的推荐顺序，此处不再赘述。
133.在另一种可能的实现方式中，服务器可根据发布时间，确定封面信息的推荐顺序。例如，服务器可按照发布时间由近到远的顺序，确定封面信息的推荐顺序。
134.在另一种可能的实现方式中，服务器可根据关注信息和发布时间，确定封面信息的推荐顺序。例如，服务器可为关注信息中包含的每一项信息及发布时间设置权重值，基于所设置的权重值，计算每个待推荐文本信息的推荐分数，进而按照推荐分数由高到低的顺序，确定该推荐文本信息对应的封面信息的推荐顺序。
135.图6示出了相关技术所推荐的信息的展示效果，图7示出了本公开实施例推荐的封
面信息的展示效果，通过对比图6和图7可以看出，本公开实施例推荐的封面信息为图文结合的形式，可阅读性及趣味性更强。
136.本公开实施例提供的方法，基于待推荐信息的文本类别标签获取与该待推荐文本信息的内容相关联的图片，该与待推荐文本信息的内容相关联的图片能够直观、形象地向用户展示该待推荐文本信息所描述的对象的外在表现，接着，获取该推荐文本信息对应的文本要素，该文本要素包括待推荐文本信息的文本标题或文本摘要中至少一项，能够简要地向用户展示该待推荐信息的核心内容，进而通过将与待推荐文本信息的内容相关联的图片和文本要素组合生成图文形式的封面信息，该封面信息相比于单一文本形式的信息，信息形式更丰富、趣味性更强，大大提高了用户查看该文本信息的概率。
137.另外，针对未成年用户，本公开实施例提供的方法，基于预设文本类别标签和待推荐信息的文本类别标签，对所获取的待推荐信息进行筛选，从中筛选出适宜未成年用户观看的文本内容，降低了未成年用户接触网络不良信息、受到犯罪行为侵害的风险，为未成年用户营造了良好的网络环境。
138.本公开实施例提供了一种文本类别识别模型的训练方法，以服务器执行本公开实施为例，该服务器可以为图1所示的服务器，此时图1所示的服务器将执行模型训练和文本信息推荐两个过程，该服务器还可以为图1所示的服务器以外的其他服务器，此时图1所示的服务器执行文本信息推荐过程，而模型训练过程由其他服务器执行。参见图8，本公开实施例提供的方法流程包括：
139.801.服务器获取多个样本文本信息。
140.其中，样本文本信息包括短文本信息，例如，句子、文本标题、商品评论等，还包括长文本信息，例如，文章等。每个样本文本信息标注有样本文本类别标签，该文本类别标签可由技术人员进行设置，例如，技术人员可根据对象信息符合预设年龄条件的对象能够查看的文本信息的类别进行设置。该样本文本类别标签包括第一级样本文本类别标签和第二级样本文本类别标签，该第一级样本文本类别标签包括动物科普、植物科普、游戏、情感等，该第二级样本文本类别标签为第一级样本文本类别标签的子标签，例如，该动物科普下的第二级样本文本类别标签包括老虎、狮子、熊、猫头鹰等；又例如，植物科普下的第二级样本文本类别标签包括蒲公英、桑树、含羞草等。对于样本文本信息的文本类别标注结构可参见图9。
141.当获取的样本文本信息的数量积累到模型训练所需要满足的样本量级时，服务器将执行步骤802开始训练文本类别识别模型。
142.802.服务器提取多个样本文本信息的样本文本类别特征，得到多个样本文本类别特征。
143.服务器提取多个样本文本信息的样本文本类别特征，得到多个样本文本类别特征时，包括以下步骤：
144.第一步、服务器对多个样本文本信息进行预处理，以去除多个样本文本信息中的无意义信息。
145.第二步，服务器对多个预处理后的样本文本信息进行分词处理，得到多个分词后的样本文本信息。
146.第三步，服务器从多个分词后的样本文本信息中提取多个样本文本类别特征。
147.803.基于多个样本文本类别特征，服务器对初始文本类别识别模型进行训练，得到文本类别识别模型。
148.服务器为初始文本类别识别模型设置初始模型参数，并将多个样本文本类别特征输入到初始文本类别识别模型中，输出对多个样本文本信息的识别结果。服务器将多个样本文本信息的识别结果及其标注的样本文本标注标签，输入到预先构建的目标损失函数中，得到目标损失函数的函数值。当该目标损失函数的函数值不满足阈值条件，服务器不断调整文本类别识别模型的模型参数，直至目标损失函数的函数值满足阈值条件。服务器获取满足阈值条件时的模型参数，进而将该模型参数对应的文本类别识别模型，作为训练好的文本类别识别模型。其中，阈值条件可根据服务器的处理精度设定。
149.进一步地，当文本类别识别模型训练完成后，服务器还将自行测试该文本类别识别模型的精准度和覆盖率，当该文本类别识别模型的精准度和覆盖率达到设定指标，服务器通过启动开关即可将上线该文本类别识别模型；当该文本类别识别模型的精准度和覆盖率未达到设定指标，服务器需要继续训练该的精准度和覆盖率，直至该文本类别识别模型的精准度和覆盖率达到设定指标。
150.本公开实施例通过对文本类别识别模型进行预训练，从而在文本信息的推荐场景下，能够基于训练好的文本类别识别模型快速识别出待推荐文本信息的文本类别标签，进而一方面能够基于文本类别标签，对待推荐文本信息进行筛选，另一方面能够基于该文本类别标签，生成待推荐文本信息对应的封面信息，提高了封面信息的生成速度，增强了封面信息与待推荐文本信息的贴合度。
151.对于本公开实施例提供的文本信息的推荐过程，下面将以图10为例进行详述。
152.参见图10，服务器预先基于标注的样本文本信息，预训练文本类别识别模型。当接收到用户发送的信息获取请求获取到待推荐文本信息后，服务器提取该待推荐文本信息的文本类别特征，进而调用该文本类别识别模型，对该文本类别特征进行处理，得到该待推荐文本信息对应的文本类别标签，如果该文本类别标签不属于不推荐标签(即不属于预设文本类别标签)，则服务器不再推荐该待推荐文本信息；如果该文本类别标签属于推荐标签(即属于预设文本类别标签)，则服务器根据该文本类别标签，获取与该待推荐文本信息的内容相关联的关联图片，对获取到的关联图片进行过滤，删除包括广告等敏感信息的敏感图片，然后按照剩余的关联图片的属性信息，对剩余的关联图片进行排序，从中获取到质量较好的图片。服务器还检测该待推荐文本信息中是否包含文本标题，如果该待推荐文本信息中包含文本标题，则调用文本要素生成模型，为该待推荐文本信息生成文本摘要；如果该该待推荐文本信息中包含文本标题，则调用文本要素生成模型，为该待推荐文本信息生成文本摘要。然后，服务器基于所获取的图片、文本摘要及文本标题，生成智能的信息封面，进而将该信息封面推荐给用户。
153.参见图11，本公开实施例提供了一种文本信息的推荐装置，该装置可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等各种场景。该装置包括：
154.第一获取模块1101，用于响应于目标对象的信息获取请求，获取待推荐文本信息；
155.第一获取模块1101，还用于获取待推荐文本信息对应的文本类别标签；
156.第一获取模块1101，还用于根据文本类别标签，获取与待推荐文本信息的内容相关联的图片；
157.第一获取模块1101，还用于获取待推荐文本信息对应的文本要素，该文本要素包括文本标题或文本摘要中至少一项；
158.生成模块1102，用于基于图片和文本要素，生成待推荐文本信息对应的封面信息；
159.推荐模块1103，用于将封面信息推荐给目标对象。
160.在本公开的另一个实施例中，第一获取模块301，用于从待推荐文本信息中提取文本类别特征；调用文本类别识别模型，对文本类别特征进行处理，得到文本类别标签，该文本类别识别模型用于识别出任一文本信息对应的文本类别标签。
161.在本公开的另一个实施例中，用于训练文本类别识别模型的装置包括：
162.第二获取模块，用于获取多个样本文本信息，多个样本文本信息均标注有样本文本类别标签；
163.提取模块，用于提取多个样本文本信息的样本文本类别特征，得到多个样本文本类别特征；
164.训练模块，用于基于多个样本文本类别特征，对初始文本类别识别模型进行训练，得到文本类别识别模型。
165.在本公开的另一个实施例中，用于训练文本类别识别模型的装置还包括：
166.预处理模块，用于对多个样本文本信息进行预处理，以去除多个样本文本信息中的无意义信息；
167.分词模块，用于对多个预处理后的样本文本信息进行分词处理，得到多个分词后的样本文本信息；
168.提取模块，用于从多个分词后的样本文本信息中提取多个样本文本类别特征。
169.在本公开的另一个实施例中，第一获取模块1101，用于根据文本类别标签，获取与文本信息的内容相关联的至少一张关联图片；从至少一张关联图片中识别出包含敏感信息的敏感图片；删除敏感图片；根据剩余的关联图片的属性信息，从剩余的关联图片中，获取该图片。
170.在本公开的另一个实施例中，文本类别标签包括第一级文本类别标签和第二级文本类别标签，第一获取模块1101，用于获取包含第一级文本类别标签指示的内容的图片，得到至少一张关联图片；或者，
171.第一获取模块1101，用于获取包含第二级文本类别标签指示的内容的图片，得到至少一张关联图片。
172.在本公开的另一个实施例中，第一获取模块1101，用于对于至少一张关联图片中的任一张关联图片，在关联图片中包含预设字符的情况下，识别关联图片为敏感图片；或者，
173.第一获取模块1101，用于获取关联图片的图片参数，在图片参数与敏感图片的图片参数相匹配的情况下，识别关联图片为敏感图片。
174.在本公开的另一个实施例中，第一获取模块1101，还用于获取目标对象的对象信息；
175.第一获取模块1101，还用于在目标对象的对象信息符合预设年龄条件，且文本类别标签属于预设文本类别标签的情况下，根据文本类别标签，获取与待推荐文本信息的内容相关联的图片，该预设文本类别标签为允许目标对象查看的文本信息对应的文本类别标
签。
176.在本公开的另一个实施例中，第一获取模块1101，用于从待推荐文本信息中提取文本要素特征；调用文本要素生成模型，对文本要素特征进行处理，得到文本要素，该文本要素生成模型用于为任一文本信息生成对应的文本要素。
177.在本公开的另一个实施例中，生成模块1102，用于当文本要素包括文本标题，将文本标题添加至图片的指定位置上，得到封面信息，指定位置根据文本标题的文字特征及图片的图片特征确定；或者，
178.生成模块1102，用于当文本要素包括文本摘要，确定图片和文本摘要在待生成的封面信息上的显示区域，将图片和文本摘要分别添加至对应的显示区域上，得到封面信息；或者，
179.生成模块1102，用于当文本要素包括文本标题和文本摘要，确定图片和文本摘要在待生成的封面信息上的显示区域，将图片和文本摘要分别添加至对应的显示区域上，并将文本标题添加至图片的指定位置上，得到封面信息。
180.在本公开的另一个实施例中，推荐模块1103，用于根据待推荐信息的关注信息或发布时间中至少一项，确定封面信息的推荐顺序；按照推荐顺序，将封面信息推荐给目标对象。
181.在本公开的另一个实施例中，在目标对象的对象信息符合预设年龄条件的情况下，第一获取模块1101，还用于获取文本类别标签所属的标签类型；
182.推荐模块1103，还用于在文本类别标签属于预设文本类别标签的情况下，将封面信息推荐给目标对象，该预设文本类别标签为允许目标对象查看的文本信息对应的文本类别标签。
183.综上所述，本公开实施例提供的装置，基于待推荐信息的文本类别标签获取与该待推荐文本信息的内容相关联的图片，该与待推荐文本信息的内容相关联的图片能够直观、形象地向用户展示该待推荐文本信息所描述的对象的外在表现，接着，获取该推荐文本信息对应的文本要素，该文本要素包括待推荐文本信息的文本标题或文本摘要中至少一项，能够简要地向用户展示该待推荐信息的核心内容，进而通过将与待推荐文本信息的内容相关联的图片和文本要素组合生成图文形式的封面信息，该封面信息相比于单一文本形式的信息，信息形式更丰富、趣味性更强，大大提高了用户查看该文本信息的概率。
184.另外，针对未成年用户，本公开实施例提供的方法，基于预设文本类别标签和待推荐信息的文本类别标签，对所获取的待推荐信息进行筛选，从中筛选出适宜未成年用户观看的文本内容，降低了未成年用户接触网络不良信息、受到犯罪行为侵害的风险，为未成年用户营造了良好的网络环境。
185.图12是根据一示例性实施例示出的一种用于文本信息的推荐的服务器。参照图12，服务器1200包括处理组件1222，其进一步包括一个或多个处理器，以及由存储器1232所代表的存储器资源，用于存储可由处理组件1222的执行的指令，例如应用程序。存储器1232中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1222被配置为执行指令，以执行上述文本信息的推荐方法中服务器所执行的功能。
186.服务器1200还可以包括一个电源组件1226被配置为执行服务器1200的电源管理，一个有线或无线网络接口1250被配置为将服务器1200连接到网络，和一个输入输出(i/o)
接口1258。服务器1200可以操作基于存储在存储器1232的操作系统，例如windows server
tm
，mac os x
tm
，unix
tm
,linux
tm
，freebsd
tm
或类似。
187.本公开实施例提供了一种计算机可读存储介质，该存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现文本信息的推荐方法。该计算机可读存储介质可以是非暂态的。例如，该计算机可读存储介质可以是只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、cd-rom、磁带、软盘和光数据存储设备等。
188.本公开实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，服务器的处理器从计算机可读存储介质读取计算机程序代码，处理器执行计算机程序代码，使得服务器执行文本信息的推荐方法。
189.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
190.以上所述仅为本公开的可选实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：获取访问数据的方法、计算设备和介质与流程

文本信息的推荐方法、装置、服务器及存储介质与流程

相关文献

最热文献