企业名单信息获取方法、装置、存储介质和电子设备与流程

2022-11-19 16:12:14 来源：中国专利 TAG：

1.本发明涉及计算机技术领域，具体涉及一种企业名单信息获取方法、装置、存储介质、电子设备和计算机程序产品。

背景技术：

2.目前，每天都会有大量的新闻舆情产生，其中又有许多新闻舆情和黑名单相关。许多用户希望从大量的舆情信息中得到黑名单相关的舆情，同时能快速得知黑名单的列入时间、发布机关、黑名单企业和惩戒类型等。这些信息不仅可以帮助用户快速地发现有关企业的重要动态，更能辅助用户及时做出决策。但由于新闻舆情的数量庞大以及内容繁杂，导致用户无法直接从中获取相关信息。
3.现有技术大多直接通过人工构建抽取规则或者人工浏览筛选的方式来获取黑名单的相关信息，并且由于舆情的格式复杂，单纯采用抽取规则无法覆盖所有情况，导致抽取的结果准确性较低；而使用人工进行浏览筛选则耗费人力且低效。
4.因此，如何对新闻舆情中的黑名单的舆情信息进行获取是待解决的技术问题。

技术实现要素：

5.基于此，针对现有技术中无法有效地对新闻舆情中的企业名单相关的舆情信息进行获取的问题，本发明提供了一种企业名单信息获取方法、装置、存储介质、电子设备和计算机程序产品。
6.第一方面，本发明实施例提供了一种企业名单信息获取方法，该方法包括：获取舆情数据的标题，判断所述标题中是否存在预设关键词信息，若是，则对所述舆情数据的舆情正文进行预处理；根据标题和预处理后的舆情正文获取目标数据，所述目标数据包括：列入负面企业名单的企业、名单发布机构、列入名单时间和惩戒类型中的一项或多项；将获取的所述目标数据作为企业名单信息。
7.可选的，所述预设关键词信息包括预设的对应于负面企业名单的负面关键词信息和预设的对应于正面企业名单的正面关键词信息，所述根据标题和预处理后的舆情正文获取目标数据，包括：遍历预处理后的舆情正文中的各个语句，并在其中提取出包含负面关键词信息且不包含正面关键词信息的第一类目标语句；从第一类目标语句中提取企业实体信息，基于提取到的企业实体信息确定列入负面企业名单的企业。
8.可选的，若未能提取出第一类目标语句，或第一类目标语句中未能提取出企业实体信息，则执行以下步骤：在预处理后的舆情正文中，分别确定正面关键词信息、负面关键词信息和企业实体的定位信息；
将所述正面关键词信息、所述负面关键词信息和所述企业实体各自的定位信息从前向后进行排序，得到目标数组；根据所述目标数组中的负面关键词信息的定位信息与所述企业实体的行为信息的相对位置，确定列入负面企业名单的企业。
9.可选的，所述在预处理后的舆情正文中，分别确定正面关键词信息、负面关键词信息和企业实体的定位信息，将所述正面关键词信息、所述负面关键词信息和所述企业实体各自的定位信息从前向后进行排序，得到目标数组，包括：分别确定正面关键词的首字符和负面关键词的首字符在预处理后的舆情正文中的第一类定位信息，将各个所述第一类定位信息从前到后进行排序，得到初始数组；对所述预处理后的舆情正文进行实体识别，得到其中包含的企业实体；分别确定各个所述企业实体的首字符在预处理后的舆情正文中的第二类定位信息；将所述第二类定位信息插入所述初始数组中，使所述初始数组中的各个定位信息从前到后排序，得到目标数组。
10.可选的，所述根据标题和预处理后的舆情正文获取目标数据，包括：在所述舆情正文的开头的第一预设数量个字符和末尾的第二预设数量个字符中，使用命名实体识别的方式提取其中的日期实体和机构实体，分别作为所述列入名单时间和所述名单发布机构。
11.可选的，所述根据标题和预处理后的舆情正文获取目标数据，包括：将所述标题和所述舆情正文的开头的第三预设数量个字符输入预先训练的分类模型中，基于所述分类模型的输出结果确定所述目标数据中的惩戒类型。
12.可选的，若使用命名实体识别的方式未能提取到其中的日期实体和机构实体，则执行以下步骤：从所述舆情数据中提取出所述舆情数据的来源数据地址；从所述来源数据地址采集原始正文，从所述原始正文中提取日期实体和机构实体，分别作为所述列入名单时间和所述名单发布机构。
13.可选的，所述从所述舆情数据中提取出所述舆情数据的来源数据地址，包括：根据第一预设匹配规则，提取所述舆情数据中的所有链接；遍历所提取出的链接，解析出每个链接对应的链接数据的链接数据标题；筛选出大于或者等于预设标题字符数量的链接数据标题作为第一相似标题；获取所述舆情数据的标题，并根据所述舆情数据的标题和第一相似标题，从第一相似标题中筛选出第二相似标题，并将其对应的链接数据作为相似数据；获取所述舆情数据的文本内容以及相似数据的文本内容，计算所述舆情数据的文本内容与相似数据的文本内容的文本相似度，并将文本相似度最高的相似数据的地址作为所述舆情数据的来源数据地址。
14.可选的，若所述舆情数据中不存在所述链接，或者所述链接数据中不存在所述相似数据，所述方法还包括：若不存在，确定所述舆情数据不存在所述来源数据地址；或者，若不存在，将所述舆情数据的标题转发至目标搜索引擎进行搜索操作，得到
至少一个搜索结果链接；获取所述搜索结果链接对应的链接数据的文本内容，计算所述舆情数据的文本内容与所述链接数据的文本内容的文本相似度，并将文本相似度最高的链接数据的地址作为所述舆情数据的来源数据地址。
15.第二方面，本发明实施例提供了一种企业名单信息获取装置，该装置包括：预处理模块，用于获取舆情数据的标题，判断所述标题中是否存在预设关键词信息，若是，则对所述舆情数据的舆情正文进行预处理；目标数据获取模块，用于根据标题和预处理后的舆情正文获取目标数据，所述目标数据包括：列入负面企业名单的企业、名单发布机构、列入名单时间和惩戒类型中的一项或多项；企业名单信息获取模块，用于将获取的所述目标数据作为企业名单信息。
16.可选的，所述预设关键词信息包括预设的对应于负面企业名单的负面关键词信息和预设的对应于正面企业名单的正面关键词信息，所述目标数据获取模块，在根据标题和预处理后的舆情正文获取目标数据时，具体用于：遍历预处理后的舆情正文中的各个语句，并在其中提取出包含负面关键词信息且不包含正面关键词信息的第一类目标语句；从第一类目标语句中提取企业实体信息，基于提取到的企业实体信息确定列入负面企业名单的企业。
17.可选的，所述目标数据获取模块，在未能提取出第一类目标语句，或第一类目标语句中未能提取出企业实体信息时，具体用于：在预处理后的舆情正文中，分别确定正面关键词信息、负面关键词信息和企业实体的定位信息；将所述正面关键词信息、所述负面关键词信息和所述企业实体各自的定位信息从前向后进行排序，得到目标数组；根据所述目标数组中的负面关键词信息的定位信息与所述企业实体的定位信息的相对位置，确定列入负面企业名单的企业。
18.可选的，所述目标数据获取模块，在预处理后的舆情正文中，分别确定正面关键词信息、负面关键词信息和企业实体的定位信息，将所述正面关键词信息、所述负面关键词信息和所述企业实体各自的定位信息从前向后进行排序，得到目标数组时，具体用于：分别确定正面关键词的首字符和负面关键词的首字符在预处理后的舆情正文中的第一类定位信息，将各个所述第一类定位信息从前到后进行排序，得到初始数组；对所述预处理后的舆情正文进行实体识别，得到其中包含的企业实体；分别确定各个所述企业实体的首字符在预处理后的舆情正文中的第二类定位信息；将所述第二类定位信息插入所述初始数组中，使所述初始数组中的各个定位信息从前到后排序，得到目标数组。
19.可选的，所述目标数据获取模块，在根据标题和预处理后的舆情正文获取目标数据，具体用于：
在所述舆情正文的开头的第一预设数量个字符和末尾的第二预设数量个字符中，使用命名实体识别的方式提取其中的日期实体和机构实体，分别作为所述列入名单时间和所述名单发布机构。
20.可选的，所述目标数据获取模块，在所述根据标题和预处理后的舆情正文获取目标数据时，具体用于：将所述标题和所述舆情正文的开头的第三预设数量个字符输入预先训练的分类模型中，基于所述分类模型的输出结果确定所述目标数据中的惩戒类型。
21.第三方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序用于执行上述方法的步骤。
22.第四方面，本发明实施例提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述方法的步骤。
23.本发明提供了一种企业名单信息获取方法、装置、存储介质和电子设备，其中，该方法包括：获取舆情数据的标题，判断所述标题中是否存在预设关键词信息，若是，则对所述舆情数据的舆情正文进行预处理；根据标题和预处理后的舆情正文获取目标数据，所述目标数据包括：列入负面企业名单的企业、名单发布机构、列入名单时间和惩戒类型中的一项或多项；将获取的所述目标数据作为企业名单信息。通过使用上述步骤对舆情数据中的企业名单信息进行抽取，可以有效地过滤掉无效信息，并获得企业名单关键的四个维度信息：时间、机构、公司和类型，直接提供给用户结构化的信息，降低了用户对于繁杂的舆情数据的阅读成本。同时，方案基本采用正则表达式结合模型抽取的方式进行信息抽取，这保证了较高的处理性能，对于海量的舆情数据来说，可以较快的进行工作，节省了人力和物力。
附图说明
24.通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。
25.图1为根据本发明一示例性实施例提供的企业名单信息获取方法的流程图；图2为根据本发明一示例性实施例提供的企业名单信息获取方法装置的结构示意图；图3示出了本发明一示例性实施例提供的一种电子设备的示意图；图4示出了本发明一示例性实施例提供的一种计算机可读介质的示意图。
具体实施方式
26.下面将参照附图更详细地描述本发明的示例性实施方式。虽然附图中显示了本发明的示例性实施方式，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。
27.需要注意的是，除非另有说明，本发明使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
28.另外，术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
29.本发明实施例提供一种企业名单信息获取方法、装置、存储介质和电子设备，下面结合附图进行说明。
30.图1为根据本发明一示例性实施例提供的企业名单信息获取方法的流程图，如图1所示，该方法包括以下步骤：步骤s101：获取舆情数据的标题，判断标题中是否存在预设关键词信息，若是，则对舆情数据的舆情正文进行预处理。
31.在获取到舆情数据后，根据获取到的舆情数据，判断舆情数据的标题中是否存在预设关键词信息。预设关键词信息为预先选定的关键词，包括预设的对应于负面企业名单的负面关键词信息和预设的对应于正面企业名单的正面关键词信息。负面关键词信息例如可以是“黑榜”、“黑名单”等关键词，正面关键词例如可以是“红榜”、“红名单”等关键词。以下以关键词“黑名单”为例进行说明。
32.由于企业名单类的舆情数据的标题往往存在“黑名单”等关键词信息，因此通过判断舆情数据的标题是否存在“黑名单”等关键词来将舆情数据划分为可能含企业名单信息的舆情数据和不含企业名单信息的舆情数据两种。
33.针对可能含有企业信息的舆情数据，通过对舆情数据的标题进行初步判断，能够准确地识别出含有企业名单信息的舆情数据。
34.同时，在判断舆情数据的标题中含有关键词信息“黑名单”后，则对该舆情数据执行后续操作；若判断舆情数据的标题中不含有关键词信息”黑名单”时，则将该舆情数据去除，不对该舆情数据执行后续操作。
35.在判断舆情数据的标题中含有关键词信息”黑名单”后，获取该舆情数据的舆情正文，对获取的舆情正文进行预处理。
36.由于舆情正文是html格式数据，因此在进行后续步骤前，首先对舆情数据进行预处理步骤。
37.具体地，预处理步骤包括：将html格式数据中的html标签替换为空格或者空字符，将回车替换为空格，将多余空格符去掉，将部分英文符号替换为中文符号等。同时，在将多余空格符去掉时，还将html标签替换的空格，以及回车替换的空格进行去除。
38.比如在获取到如下舆情正文时：“《div》
·
↵
·
《span》#2机组进相试验项目等的采购（肇庆）项目采购《/span》
·
↵
·
《div》
↵
···
结果公告
·”其中“·”表示空格，
“↵”
表示回车符，上述舆情正文的处理过程为：首先将html标签和回车符替换为空格：“·····
#2机组进相试验项目等的采购（肇庆）项目采购
·········
结果公告
·”；
然后将多余空格去掉，最终结果为“·
#2机组进相试验项目等的采购（肇庆）项目采购
·
结果公告
·”。
39.通过对舆情正文进行预处理后，不仅能够获取文本中的关键词信息，还能够有效地降低数据量。
40.在实际应用场景中，在对舆情正文进行预处理时，还可以根据实际情况进行预处理方式的选取与设定，此处不作限定。
41.步骤s102：根据标题和预处理后的舆情正文获取目标数据，所述目标数据包括：列入负面企业名单的企业、名单发布机构、列入名单时间和惩戒类型中的一项或多项。
42.将一篇舆情正文经过上述步骤进行预处理后，根据该篇舆情数据的标题和舆情正文挖掘出企业名单的四个维度中一个或多个维度的信息：列入负面企业名单的企业、名单发布机构、列入名单时间和惩戒类型。
43.步骤s103：将获取的所述目标数据作为企业名单信息。
44.在一种可选的实现方式中，在根据标题和预处理后的舆情正文获取目标数据时，包括以下步骤：步骤s1021，遍历预处理后的舆情正文中的各个语句，并在其中提取出包含负面关键词信息且不包含正面关键词信息的第一类目标语句；步骤s1022，从第一类目标语句中提取企业实体信息，基于提取到的企业实体信息确定列入负面企业名单的企业。
45.具体而言，可以在舆情正文中取出包含“黑榜”及“黑名单”等负面关键词的所有句子，针对每一条句子，判断句子中是否只出现负面关键词而没有出现正面关键词（例如“红榜”、“红名单”），如果是，则将这条语句作为第一类目标语句。在同一篇舆情正文中，第一类目标语句可能有0条、1条或多条。
46.在得到第一类目标语句后，提取目标语句中包含的企业实体。如果提取到企业，则返回结果。
47.可选的，若未能提取出第一类目标语句，或第一类目标语句中未能提取出企业信息，则执行以下步骤：步骤s1023，在预处理后的舆情正文中，分别确定正面关键词信息、负面关键词信息和企业实体的定位信息；步骤s1024，将所述正面关键词信息、所述负面关键词信息和所述企业实体各自的定位信息从前向后进行排序，得到目标数组；步骤s1025，根据所述目标数组中的负面关键词信息的定位信息与所述企业实体的定位信息的相对位置，确定列入负面企业名单的企业。
48.具体而言，可以先分别确定正面关键词的首字符和负面关键词的首字符在预处理后的舆情正文中的第一类定位信息，将各个所述第一类定位信息从前到后进行排序，得到初始数组；然后对所述预处理后的舆情正文进行实体识别，得到其中包含的企业实体；再分别确定各个所述企业实体的首字符在预处理后的舆情正文中的第二类定位信息；最后将所述第二类定位信息插入所述初始数组中，使所述初始数组中的各个定位信息从前到后排序，得到目标数组。
49.首先将“黑榜”、“黑名单”、“红榜”和“红名单”等关键词在舆情正文文本中的位置
按照从前到后进行排序，得到初始数组。通过例如舆情打内链的服务，获得正文文本的所有企业实体。然后遍历每个企业实体，查找其在正文中所在的位置，通过插入排序的方式找到该企业位置所在初始数组的排序位置。根据其前一个位置判断该企业是否为“黑名单企业”。如果前一个位置为“黑榜”或“黑名单”等负面关键词所在位置，则判断其为黑名单企业；否则不为黑名单企业。
50.举例说明：正文为“xx网2月25日讯（记者洪xx 通讯员赵xx）为进一步落实运输公司的交通安全管理工作，xx交警部门于日前公布2021年2月份全市客货运运输公司、网约车平台“红黑榜”。红榜（交通安全主体责任落实较好公司）：福建省xx集团有限公司xx分公司；xx县xx汽车运输有限公司。黑榜（交通安全高风险公司）：福建xx有限公司；福建省xx市xx石油气有限公司；xx市xx区xx有限公司。交警提醒：客货运、旅游客运及危化品运输交通安全风险较高，道路交通安全问题不容忽视。交警部门提醒广大驾驶员朋友们严守交通法规、安全文明驾驶！”。
51.首先定位“黑榜”和“红榜”的位置，文中“黑榜”的首字符位置为75和131，“红榜”的首字符位置为79，按照位置从小到大排序，得到数组a为[75，79，131]。
[0052]
然后通过例如打内链服务获得正文中公司实体及其位置，得到结果如下：福建省xx集团有限公司xx分公司，首字符位置为98；xx县xx汽车运输有限公司，首字符位置为117。福建xx有限公司，首字符位置为145；福建省xx市xx石油气有限公司，首字符位置为156；xx市xx区xx有限公司，首字符位置为174。
[0053]
得到公司的位置之后，依次将公司的首字符位置插入的数组a中，比如“福建省xx集团有限公司xx分公司”位置为98，插入到数组a中后，得到[75，79，98，131]，98的前一个位置是79，79对应的“红榜”，所以“福建省xx集团有限公司xx分公司”为红榜公司；“福建xx有限公司”的位置为145，插入数组a有[75，79，131，145]，前一个位置为131，131对应的“黑榜”，所以“福建xx有限公司”为黑榜公司。依次类推得到所有公司的标签。
[0054]
在一种可选的实现方式中，在根据标题和预处理后的舆情正文获取目标数据时，包括以下步骤：在所述舆情正文的开头的第一预设数量个字符和末尾的第二预设数量个字符中，使用命名实体识别的方式提取其中的日期实体和机构实体，分别作为所述列入名单时间和所述名单发布机构。
[0055]
由于发布机构和发布时间往往出现在舆情正文文本的头部或者尾部。因此，可以在舆情正文的文本中，选取开头和末尾的各150个字符，一共300个字符作为待抽取文本。即，从正文开头的第一个字符开始，向后选取直到选取到150个字符，以及，从正文末尾的最后一个字符开始，向前选取直到选取到150个字符。可选的，如果向前/向后选取的150字符处截断了完整的语句，则可以继续选取直到将完整的语句囊括进来。
[0056]
同时，上述150个字符的选取方式为优选的字符数量选取值，也可以是选取50、100或200个字符，字符的选取数量可根据实际情况进行设置，在此只为示例性说明，并非具体限定。
[0057]
在使用命名实体识别的方式提取其中的日期实体和机构实体时，可以通过如下方式：模型构建：使用批量标注数据进行模型训练，其中模型采用可以采用ernie模型。
ernie模型是由百度提出的，基于bert的思想，同时加入了知识图谱的知识信息来构建的预训练语言模型。相比bert模型，ernie模型更能捕捉文本中词汇之间的语义信息。其训练方法和bert类似，同样是使用有标注的数据对ernie进行微调构建得到特定任务的模型。
[0058]
将中文维基百科的文本数据作为预训练语料输入到模型中，以使模型学习预训练语料中字与其上下文的关联关系，得到预训练后的模型。
[0059]
将xx日报的公开数据集中的人名信息、企业信息、机构信息进行人工标注，得到训练数据集。将训练数据集输入预训练后的模型进行模型微调训练。
[0060]
训练好模型之后，通过将待预测句子输入到模型中，即可得到结果。如“1月24日，xx市物业监督管理办公室正式发布了诚信等级评定结果，其中xx公司、xx公司等22家诚信等级评定为不合格，进入黑榜并公示。”输入到模型中，模型输出：“b-timei-timei-timei-timei-timeob-orgi-orgi-orgi-orgi-orgi-orgi-orgi-orgi-orgi-orgi-orgi-orgoooooooooooooooob-comi-comi-comi-comob-comi-comi-comi-comooooooooooooooooooooooo”。其中o代表无标记；b-org代表机构类实体的第一个字符标记，i-org代表机构类实体的非第一个字符标记；b-com代表公司类实体的第一个字符标记，i-com代表公司类实体的非第一个字符标记；b-time代表时间类实体的第一个字符标记，i-time代表时间类实体的非第一个字符标记。通过将输出中的所有b-org和i-org标记的文本取出，即得到机构类实体；将输出中的所有b-time和i-time标记的文本取出，即得到时间类实体。
[0061]
在一种可选的实现方式中，在根据标题和预处理后的舆情正文获取目标数据时，包括以下步骤：将所述标题和所述舆情正文的开头的第三预设数量个字符输入预先训练的分类模型中，基于所述分类模型的输出结果确定所述目标数据中的惩戒类型。
[0062]
惩戒类型可以分为7种：产品质量/交通安全/拖欠工资/违法违规/文旅/信用/其他。惩戒类型通过使用批量标注数据进行模型训练，构建分类模型进行处理，其中分类模型使用预训练模型ernie进行构建。在模型预测时，使用标题正文文本的前512字符输入到模型中，模型输出其对应的惩戒类型。
[0063]
在一种可选的实现方式中，若使用命名实体识别的方式未能提取到其中的日期实体和机构实体，则执行以下步骤：从所述舆情数据中提取出所述舆情数据的来源数据地址；从所述来源数据地址采集原始正文，从所述原始正文中提取日期实体和机构实体，分别作为所述列入名单时间和所述名单发布机构。
[0064]
在一种可选的实现方式中，在从所述舆情数据中提取出所述舆情数据的来源数据地址时，包括以下步骤：根据第一预设匹配规则，提取所述舆情数据中的所有链接；遍历所提取出的链接，解析出每个链接对应的链接数据的链接数据标题；筛选出大于或者等于预设标题字符数量的链接数据标题作为第一相似标题；获取所述舆情数据的标题，并根据所述舆情数据的标题和第一相似标题，从第一相似标题中筛选出第二相似标题，并将其对应的链接数据作为相似数据；获取所述舆情数据的文本内容以及相似数据的文本内容，计算所述舆情数据的文本内容与相似数据的文本内容的文本相似度，并将文本相似度最高的相似数据的地址作
为所述舆情数据的来源数据地址。
[0065]
在一种可选的实现方式中，若所述舆情数据中不存在所述链接，或者所述链接数据中不存在所述相似数据，则还可执行以下步骤：若不存在，确定所述舆情数据不存在所述来源数据地址；或者，若不存在，将所述舆情数据的标题转发至目标搜索引擎进行搜索操作，得到至少一个搜索结果链接；获取所述搜索结果链接对应的链接数据的文本内容，计算所述舆情数据的文本内容与所述链接数据的文本内容的文本相似度，并将文本相似度最高的链接数据的地址作为所述舆情数据的来源数据地址。
[0066]
其中，目标搜索引擎可以为百度搜索引擎、谷歌搜索引擎、360搜索引擎等，本领域技术人员可以根据实际需要灵活设置，此处不做限定。
[0067]
需要说明的是，当通过目标搜索引擎搜索到多个搜索文档链接时，可以提取前p个搜索文档链接进行后续操作，其中，p为正整数。
[0068]
可选地，若最高的文本相似度对应的相似文档的数量为多个，该方法还包括：获取多个相似文档的网页源代码；响应于对每个网页源代码中的时间属性标签的查找操作，获取多个相似文档的发文时间；将多个相似文档的发文时间按照时间先后顺序进行排序，将最靠前的发文时间对应的相似文档作为溯源文档的源文档。
[0069]
具体地，以相似文档为html网页为例，在获取到多个html网页源代码后，可以查找html网页源代码中的time标签（时间属性标签），以获取time标签后的相似文档的发文时间。
[0070]
图2为根据本发明一示例性实施例提供的企业名单信息获取方法装置的结构示意图。如图2所示，该装置包括：预处理模块201，用于获取舆情数据的标题，判断所述标题中是否存在预设关键词信息，若是，则对所述舆情数据的舆情正文进行预处理；目标数据获取模块202，用于根据标题和预处理后的舆情正文获取目标数据，所述目标数据包括：列入负面企业名单的企业、名单发布机构、列入名单时间和惩戒类型中的一项或多项；企业名单信息获取模块203，用于将获取的所述目标数据作为企业名单信息。
[0071]
可选的，所述预设关键词信息包括预设的对应于负面企业名单的负面关键词信息和预设的对应于正面企业名单的正面关键词信息，所述目标数据获取模块，在根据标题和预处理后的舆情正文获取目标数据时，具体用于：遍历预处理后的舆情正文中的各个语句，并在其中提取出包含负面关键词信息且不包含正面关键词信息的第一类目标语句；从第一类目标语句中提取企业实体信息，基于提取到的企业实体信息确定列入负面企业名单的企业。
[0072]
可选的，所述目标数据获取模块，在未能提取出第一类目标语句，或第一类目标语句中未能提取出企业信息时，具体用于：在预处理后的舆情正文中，分别确定正面关键词信息、负面关键词信息和企业实体的定位信息；
将所述正面关键词信息、所述负面关键词信息和所述企业实体各自的定位信息从前向后进行排序，得到目标数组；根据所述目标数组中的负面关键词信息的定位信息与所述企业实体的定位信息的相对位置，确定列入负面企业名单的企业。
[0073]
可选的，所述目标数据获取模块，在预处理后的舆情正文中，分别确定正面关键词信息、负面关键词信息和企业实体的定位信息，将所述正面关键词信息、所述负面关键词信息和所述企业实体各自的定位信息从前向后进行排序，得到目标数组时，具体用于：分别确定正面关键词的首字符和负面关键词的首字符在预处理后的舆情正文中的第一类定位信息，将各个所述第一类定位信息从前到后进行排序，得到初始数组；对所述预处理后的舆情正文进行实体识别，得到其中包含的企业实体；分别确定各个所述企业实体的首字符在预处理后的舆情正文中的第二类定位信息；将所述第二类定位信息插入所述初始数组中，使所述初始数组中的各个定位信息从前到后排序，得到目标数组。
[0074]
可选的，所述目标数据获取模块，在根据标题和预处理后的舆情正文获取目标数据，具体用于：在所述舆情正文的开头的第一预设数量个字符和末尾的第二预设数量个字符中，使用命名实体识别的方式提取其中的日期实体和机构实体，分别作为所述列入名单时间和所述名单发布机构。
[0075]
可选的，所述目标数据获取模块，在所述根据标题和预处理后的舆情正文获取目标数据时，具体用于：将所述标题和所述舆情正文的开头的第三预设数量个字符输入预先训练的分类模型中，基于所述分类模型的输出结果确定所述目标数据中的惩戒类型。
[0076]
由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
[0077]
在本发明实施例的一些实施方式中本发明实施例提供的企业名单信息获取装置，与本发明前述实施例提供的企业名单信息获取方法出于相同的发明构思，具有相同的有益效果。
[0078]
本发明实施方式还提供一种与前述实施方式所提供的企业名单信息获取方法对应的电子设备，所述电子设备可以是用于服务端的电子设备，例如服务器，包括独立的服务器和分布式服务器集群等，以执行上述企业名单信息获取方法；所述电子设备也可以是用于客户端的电子设备，例如手机、笔记本电脑、平板电脑、台式机电脑等，以执行上述企业名单信息获取方法。
[0079]
图3示出了本发明一示例性实施例提供的一种电子设备的示意图，如图3所示，所述电子设备40包括：处理器400，存储器401，总线402和通信接口403，所述处理器400、通信接口403和存储器401通过总线402连接；所述存储器401中存储有可在所述处理器400上运行的计算机程序，所述处理器400运行所述计算机程序时执行本发明企业名单信息获取方法。
[0080]
其中，存储器401可能包含高速随机存取存储器（ram：random access memory），也
可能还包括非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。通过至少一个通信接口403（可以是有线或者无线）实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。
[0081]
总线402可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器401用于存储程序，所述处理器400在接收到执行指令后，执行所述程序，前述本发明实施例任一实施方式揭示的企业名单信息获取方法可以应用于处理器400中，或者由处理器400实现。
[0082]
处理器400可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器400中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器400可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器401，处理器400读取存储器401中的信息，结合其硬件完成上述方法的步骤。
[0083]
本发明实施例提供的电子设备与本发明实施例提供的企业名单信息获取方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。
[0084]
本发明实施方式还提供一种与前述实施方式所提供的企业名单信息获取方法对应的计算机可读介质，请参考图4，其示出的计算机可读存储介质为光盘50，其上存储有计算机程序（即程序产品），所述计算机程序在被处理器运行时，会执行前述企业名单信息获取方法。
[0085]
需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存 (pram)、静态随机存取存储器 (sram)、动态随机存取存储器 (dram)、其他类型的随机存取存储器 (ram)、只读存储器 (rom)、电可擦除可编程只读存储器 (eeprom)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。
[0086]
本发明的上述实施例提供的计算机可读存储介质与本发明实施例提供的企业名单信息获取方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
[0087]
需要说明的是，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组
合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0088]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0089]
在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0090]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0091]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
[0092]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器（rom，read-only memory）、随机存取存储器（ram，random access memory）、磁碟或者光盘等各种可以存储程序代码的介质。
[0093]
最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于区块链的事务处理方法、装置、电子设备及介质与流程

企业名单信息获取方法、装置、存储介质和电子设备与流程

相关文献

最热文献