用于法院舆情语料提取的数据处理的方法和装置与流程

2021-11-06 06:47:00 来源：中国专利 TAG：

1.本技术涉及计算机领域，具体而言，涉及一种用于法院舆情语料提取的数据处理方法和装置。

背景技术：

2.舆情是“舆论情况”的简称，是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。
3.随着信息技术的不断发展，互联网成为信息传播的主要途径，互联网使社会舆情呈现源头多元化、传播扁平化、观点评价多样化、热点形成迅速化的特点，由于法院还是法律执行的完成节点，较易在涉法舆情中成为舆情热点部门，社交媒体中往往存在很多针对法院的言论，这些言论中有些过于偏激，如果法院不及时处理往往会给法院的工作造成不利影响。
4.通过训练舆情分类模型实现对网略舆情的实时监控，实现模型的效果通过训练数据集要对模型进行训练，互联网上舆情更新非常迅速，为了提高模型的效果，需要不断更新模型训练数据集以对舆情分类模型进行训练，现有技术中主要中的模型训练数据集大多是人工进行标注获得，耗费大量人力资源，且效率较低。
5.因此，现有技术中法院舆情语料提取存在效率较低的问题。

技术实现要素：

6.本技术的主要目的在于提供一种用于法院舆情语料提取的数据处理方法和装置，以提高训练舆情分类模型所需的法院舆情语料的获取效率，从而提高训练舆情分类模型的效率。
7.为了实现上述目的，本技术提出了一种用于法院舆情语料提取的数据处理方法。
8.根据本技术的第二方面，提出了一种用于法院舆情语料提取的数据处理装置。
9.根据本技术的第三方面，提出了一种计算机可读存储介质。
10.根据本技术的第四方面，提出一种电子设备。
11.有鉴于此，根据本技术的第一方面，提出了一种用于法院舆情语料提取的数据处理方法，包括：基于预设法院机构词数据库，爬取互联网获得第一舆情数据，其中，所述第一舆情数据为法院机构相关的舆情数据，所述预设法院机构词数据库为法院机构词的数据库；基于预设行业词抽取规则，对所述第一舆情数据执行行业关键词抽取操作，获得法院行业词数据集；基于预设语料生成规则，对所述第一舆情数据执行语料生成处理，获得目标舆情语料数据集。
12.进一步地，基于预设行业关键词抽取规则，对所述第一舆情数据执行行业关键词抽取操作，获得法院行业词数据集，包括：识别所述第一舆情数据中的多个第一舆情文本，对所述多个第一舆情文本执行句法依存树构建操作，获得多个第一文本句法依存树，其中所述第一文本句法依存树与所述第一舆情文本对应；基于关键词抽取规则，对所述多个第一文本句法依存树执行抽取操作，获得候选词集；对所述候选词集执行筛选处理，获得所述法院行业词数据集。
13.进一步地，基于预设语料生成规则，对所述第一舆情数据执行语料生成处理，获得目标舆情语料数据集，包括：获取第二舆情数据，其中所述第二舆情数据为经人工标注后的法院机构相关的舆情数据；基于所述第二舆情数据，对预先建立的舆情分类模型执行模型训练操作，获得过程舆情分类模型；基于所述过程舆情分类模型，对所述第一舆情数据进行舆情分类标注处理，获得分类标注结果数据；对所述分类标注结果数据进行筛选，若所述分类标注结果数据满足预设条件，获得目标舆情语料数据集。
14.进一步地，基于关键词抽取规则，对所述多个第一文本句法依存树执行抽取操作，获得候选词集，包括：基于预设第一关键词抽取规则，遍历所述多个第一文本句法依存树，获得第一候选词集，其中，所述第一候选词集为含有定中关系的名词性短语集；基于预设第二关键词抽取规则，遍历所述多个第一文本句法依存树，获得第二候选词集，其中，所述第二候选词集为含有前置宾语的名词性短语集；基于预设第三关键词抽取规则，遍历所述多个第一文本句法依存树，获得第三候选词集，其中，所述第三候选词集为以谓语为核心的关键词。
15.进一步地，基于所述第二舆情数据，对预先建立的舆情分类模型执行模型训练操作，获得过程舆情分类模型，包括：基于预设数据集构建规则，对所述第二舆情数据执行数据集构建操作，获得多个训练子数据集；基于所述多个训练子数据集，对预先建立的舆情分类模型执行模型训练操作，获得所述多个过程舆情分类模型，其中，所述训练子数据集与所述过程舆情分类模型一一对应。
16.进一步地，对所述分类标注结果数据进行筛选，若所述分类标注结果数据满足预设条件，获得目标舆情语料数据集，包括：若所述分类标注结果数据满足第一预设条件，更新所述第二舆情数据，获得第二过程舆情数据，其中，所述第二过程舆情数据包括所述第二舆情数据和满足所述第一预设条件的分类标注结果数据；基于所述第二过程舆情数据，对预先建立的舆情分类模型执行模型训练迭代操
作，获得迭代分类标注结果数据；若所述迭代分类标注结果数据满足第二预设条件，获得目标舆情语料数据集，其中，所述目标舆情语料数据集包括满足所述第二预设条件的迭代分类标注结果数据和所述第二舆情数据。
17.根据本技术的第二方面，提出了一种用于法院舆情语料提取的数据处理装置，包括：数据采集模块，基于预设法院机构词数据库，爬取互联网获得第一舆情数据，其中，所述第一舆情数据为法院机构相关的舆情数据，所述预设法院机构词数据库为法院机构词的数据库；行业词抽取模块，基于预设行业词抽取规则，对所述第一舆情数据执行行业关键词抽取操作，获得法院行业词数据集；语料生成模块，基于预设语料生成规则，对所述第一舆情数据执行语料生成处理，获得目标舆情语料数据集。
18.进一步地，行业词抽取模块，包括：句法依存树构建模块，用于识别所述第一舆情数据中的多个第一舆情文本，对所述多个第一舆情文本执行句法依存树构建操作，获得多个第一文本句法依存树，其中所述第一文本句法依存树与所述第一舆情文本对应；抽取模块，基于关键词抽取规则，对所述多个第一文本句法依存树执行抽取操作，获得候选词集；筛选模块，用于对所述候选词集执行筛选处理，获得所述法院行业词数据集。
19.根据本技术的第三方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行上述的用于法院舆情语料提取的数据处理方法。
20.根据本技术的第四方面，提出了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行上述的用于法院舆情语料提取的数据处理方法。
21.本技术的实施例提供的技术方案可以包括以下有益效果：在本技术中，通过对爬取的法院舆情数据进行行业词抽取，通过构建句法依存树及预设关键词抽取规则，获得法院行业关键词数据集，通过部分经人工标注的舆情数据训练过程舆情分类模型，通过过程舆情分类模型对爬取得到的未标注舆情数据进行标注，得到训练目标舆情分类模型的目标舆情语料数据集，解决了现有技术中模型训练需要大量人工标注的数据导致的标注效率较低的技术问题，从而有利于提高法院舆情语料提取效率，提高模型训练的效率。
附图说明
22.构成本技术的一部分的附图用来提供对本技术的进一步理解，使得本技术的其它特征、目的和优点变得更明显。本技术的示意性实施例附图及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
图1为本技术提供的一种用于法院舆情语料提取的数据处理方法的流程示意图；图2为本技术提供的一种用于法院舆情语料提取的数据处理方法的流程示意图；图3为本技术提供的一种用于法院舆情语料提取的数据处理方法的流程示意图；图4为本技术提供的一种用于法院舆情语料提取的数据处理装置的结构示意图；图5为本技术提供的另一种用于法院舆情语料提取的数据处理装置的结构示意图。
具体实施方式
23.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
24.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
25.在本技术中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本技术及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。
26.并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本技术中的具体含义。
27.此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，“连接”可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本技术中的具体含义。
28.图1为本技术提供的一种用于法院舆情语料提取的数据处理方法的流程示意图，如图1所示，该方法包括以下步骤：s101：基于预设法院机构词数据库，爬取互联网获得第一舆情数据；其中，第一舆情数据为法院机构相关的舆情数据，预设法院机构词数据库为法院机构词的数据库，如广东高院、深圳中院等，通过法院机构词，在互联网上爬取法院与法院机构相关的舆情数据。
29.s102：基于预设行业词抽取规则，对所述第一舆情数据执行行业关键词抽取操作，获得法院行业词数据集；
图2为本技术提供的一种用于法院舆情语料提取的数据处理方法的流程示意图，如图2所示，该方法包括以下步骤：s201：识别所述第一舆情数据中的多个第一舆情文本，对所述多个第一舆情文本执行句法依存树构建操作，获得多个第一文本句法依存树；第一文本句法依存树与第一舆情文本一一对应，其中，基于预设依存句法模型，对第一舆情文本进行分析，获得第一文本句法依存树，表示句子中各个词语之间的依存关系，便于对舆情文本通过关键词抽取规则，抽取获得法院行业词数据集。
30.s202：基于关键词抽取规则，对所述多个第一文本句法依存树执行抽取操作，获得候选词集；基于预设第一关键词抽取规则，遍历所述多个第一文本句法依存树，获得第一候选词集，其中，所述第一候选词集为含有定中关系的名词性短语集；依次遍历句子中的所有节点，以该节点为叶子节点，查找它的父节点，如果该节点和它的父节点具有定中(att)关系，则把当前节点和它的父节点加入候选短语词集；继续查找该父节点的父节点，如果该父节点和它的父节点也有定中关系，则把该父节点的父节点加入候选短语词集，一直向上遍历父节点，直至找到没有定中关系的节点，最后，将候选短语词集拼接得到名词性短语。
31.基于预设第二关键词抽取规则，遍历所述多个第一文本句法依存树，获得第二候选词集，其中，所述第二候选词集为含有前置宾语的名词性短语集；依次遍历句子中的所有节点，以该节点为叶子节点，查找它的父节点，如果该节点是它父节点的前置宾语(fob)，并且该父节点和它的父节点具有定中关系，则把当前节点、它的父节点和父节点的父节点加入候选短语词集；最后将候选短语词集拼接得到名词性短语。
32.基于预设第三关键词抽取规则，遍历所述多个第一文本句法依存树，获得第三候选词集，其中，所述第三候选词集为以谓语为核心的关键词。
33.a. 如果当前单词的子节点单词中，存在和当前单词有主谓关系（sbv）和动宾关系（vob），则把具有主谓关系和动宾关系的节点词语分别加入候选词集。
34.b. 如果当前单词的子节点单词中，存在和当前单词有状中关系（adv）和动宾关系（vob），则把具有状中关系的节点词语加入候选词集。
35.c. 如果当前单词的子节点单词中，存在和当前单词有主谓关系（sbv）和动补关系（cmp），则取动补关系的节点，然后，如果含有动补关系的子节点中具有介宾关系（pob），则把当前单词的子节点中含有主谓关系的词语加入候选词集，当前单词子节点中含有动补关系的子节点中的介宾关系的词语加入候选词集。
36.d. 如果当前词是定中关系，并且在它子节点中存在动补关系，则把具有动补关系词扩展：如果具有动补关系词的子节点中存在定中关系，则把这些词拼接，得到候选词的前半部分。如果具有动补关系词是动词：如果动补关系孩子节点中存在动补关系词，则把这些词拼接，得到候选词后半部分。如果动补关系子节点中存在主谓关系词，则把这些词和候选词前半部分拼接。如果动补关系孩子节点中存在状中关系词，则把候选词前半部分和这些词拼接。最后，将当前词前半部分、当前词和当前词后半部分拼接，得到最终候选词集。
37.s203：对所述候选词集执行筛选处理，获得所述法院行业词数据集。
38.对得到的候选词进行去重，剔除无效的词，如带有数字的无关词等，获得法院行业词数据集。
39.s103：基于预设语料生成规则，对所述第一舆情数据执行语料生成处理，获得目标舆情语料数据集。
40.图3为本技术提供的一种用于法院舆情语料提取的数据处理方法的流程示意图，如图3所示，该方法包括以下步骤：s301：获取第二舆情数据；其中，第二舆情数据为经人工标注后的法院机构相关的舆情数据；第二舆情数据为部分第一舆情数据经人工标注后得到的，第二舆情数据中标注有标签为0、1，标记为0的数据表示该数据是非负面的，标记为1的数据表示该数据是负面的。
41.s302：基于所述第二舆情数据，对预先建立的舆情分类模型执行模型训练操作，获得过程舆情分类模型；第二舆情数据用k
‑
fold（k折）的方法切分成k个子数据集，其中，k可以人为设定，如，k为10，将数据集划分成10个不相交子集d=[d1,d2,d3,d4,d5,d6,d7,d8,d9,d10]，每个数据集中的数据个数相同且不重复，取其中9个子集并合并作为最终的数据集之一d1=[d1,d2,d3,d4,d5,d6,d7,d8,d9]，重复上述操作依次在10个子数据集中取9个作为最终的数据集之一，保证每次采样的分布不同，最终我们可以得到10个子数据集d1，d2，d3，d4，d5，d6，d7，d8，d9，d10。
[0042]
本发明的数据集组织格式没有限定，包括但不限定使用常见的句逗分隔符文件 (csv)格式组织，数据集以csv格式展示如：文本内容，机构词，行业词，标签；文本内容，
…
，机构词1、机构词2
…
，行业词1、行业词2
…
，0/1。
[0043]
基于k个子数据集对预先建立的舆情分类模型进行训练，获得k个过程舆情分类模型。
[0044]
s303：基于所述过程舆情分类模型，对所述第一舆情数据进行舆情分类标注处理，获得分类标注结果数据；根据训练得到的k个过程舆情分类模型，对第一舆情数据中的未标注分类的舆情数据进行分类标注处理，获得分类标注结果数据，包括k个过程舆情分类模型识别得到的k个分类标注结果数据，分类标注结果数据中包括第一舆情数据的舆情正负向标签与标签置信度。
[0045]
s304：对所述分类标注结果数据进行筛选，若所述分类标注结果数据满足预设条件，获得目标舆情语料数据集。
[0046]
若分类结果数据满足第一预设条件，更新第二舆情数据，获得第二过程舆情数据，其中，所述第二过程舆情数据包括所述第二舆情数据和满足第一预设条件的分类标注结果数据；若第一舆情数据中的某一条舆情数据被n个过程舆情分类模型识别且标签置信度满足预设条件，其中n为正整数且小于k，n可以根据人为设定，如k=10，n=8，某一条舆情数据用10个过程舆情分类模型进行分类标注，若该条舆情数据同时被8个过程舆情分类模型识别标签且标签执行度大于预设条件，将该条舆情数据及分类标注结果数据作为新的数据更新至第二舆情数据中，获得第二过程舆情数据，第二过程舆情数据包括人工标注的舆情数
据与过程分类模型标注的舆情数据，即第二舆情数据与分类标注结果数据。
[0047]
基于所述第二过程舆情数据，对预先建立的舆情分类模型执行模型训练迭代操作，获得迭代分类标注结果数据；根据第二过程舆情数据，分割子数据集，训练过程舆情分类模型，循环上述过程，获得迭代分类标注结果数据。
[0048]
若所述迭代分类标注结果数据满足第二预设条件，获得目标舆情语料数据集，其中，所述目标舆情语料数据集包括满足所述第二预设条件的迭代分类标注结果数据和所述第二舆情数据。
[0049]
迭代分类标注结果数据中包括每次循环获得的通过过程分类模型标注的舆情数据，当每次循环所产生的满足预设条件的分类标注结果数据占比满足第二预设条件时，停止上述迭代过程，获得目标舆情语料数据集。其中，通过人工标注部分训练舆情数据，通过在线学习不断产生新数据更新、迭代、优化模型，通过不断更新目标舆情语料数据集，实现舆情分类模型的不断训练、迭代、优化，解决了现有技术中训练舆情分类模型需要人工标注导致语料数据集提取效率较低的技术问题。
[0050]
图4为本技术提供的一种用于法院舆情语料提取的数据处理装置的结构示意图，如图4所述，该装置包括：数据采集模块41，基于预设法院机构词数据库，爬取互联网获得第一舆情数据，其中，所述第一舆情数据为法院机构相关的舆情数据，所述预设法院机构词数据库为法院机构词的数据库；行业词抽取模块42，基于预设行业词抽取规则，对所述第一舆情数据执行行业关键词抽取操作，获得法院行业词数据集；语料生成模块43，基于预设语料生成规则，对所述第一舆情数据执行语料生成处理，获得目标舆情语料数据集。
[0051]
图5为本技术提供的另一种用于法院舆情语料提取的数据处理装置的结构示意图，如图5所述，该装置包括：句法依存树构建模块51，用于识别所述第一舆情数据中的多个第一舆情文本，对所述多个第一舆情文本执行句法依存树构建操作，获得多个第一文本句法依存树，其中所述第一文本句法依存树与所述第一舆情文本对应；抽取模块52，基于关键词抽取规则，对所述多个第一文本句法依存树执行抽取操作，获得候选词集；筛选模块53，用于对所述候选词集执行筛选处理，获得所述法院行业词数据集。
[0052]
关于上述实施例中各单元的执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
[0053]
综上所述，在本技术中，通过对爬取的法院舆情数据进行行业词抽取，通过构建句法依存树及预设关键词抽取规则，获得法院行业关键词数据集，通过部分经人工标注的舆情数据训练过程舆情分类模型，通过过程舆情分类模型对爬取得到的未标注舆情数据进行标注，得到训练目标舆情分类模型的目标舆情语料数据集，解决了现有技术中模型训练需要大量人工标注的数据导致的标注效率较低的技术问题，从而有利于提高法院舆情语料提取效率，提高模型训练的效率。
[0054]
需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
[0055]
显然，本领域的技术人员应该明白，上述的本技术的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本技术不限制于任何特定的硬件和软件结合。
[0056]
以上所述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：关系图的展示方法、装置、电子设备及介质与流程

用于法院舆情语料提取的数据处理的方法和装置与流程

相关文献

最热文献