一种基于正则表达式建立文本抽取模型的方法及设备与流程

2021-10-24 07:21:00 来源：中国专利 TAG：自然语言抽取模型文本建立

1.本发明涉及一种基于正则表达式建立文本抽取模型的方法及设备，属于自然语言处理领域。

背景技术：

2.正则表达式是对字符串规则的一种描述方法，通常被用来检索、替换那些符合某个规则的文本。例如，提取电子邮件的正则表达式为：/^(\w) (\.\w )*@(\w) ((\.\w{2,3}){1,3})$/，其中的\w代表任意字符，{2,3}代表出现两次或三次，该正则表达式可以识别出xxxx@xxxx.xxx格式的电子邮件地址。正则表达式表达灵活，可以匹配几乎任何模式的文字。但应用正则表达式的前提是，对拟提取的信息的“模式”或“规则”要非常明确。因此不适用于没有明显规则的文本中的关键信息提取。
3.有监督文本抽取模型的建立过程中，迭代训练占据了大量的时间，所使用的训练数据在一定程度上决定了模型的性能，而大量训练数据又需要人工进行标注。
4.条件随机场模型(crf模型)是属于有监督文本抽取模型中的一种，常用于标注语料中词语的词性(比如说，标注出语料中的命名实体或动词、名词等)。crf模型对于没有明显模式(人工很难观察到特定规则)的关键信息具有较强的抽取能力。但crf模型的准确率不由其本身决定，而主要取决于用以训练的标注语料是否和目标测试语料比较一致，需要事先准备较多的人工标注语料，且抽取效果不稳定、准确性难以预估，不适用于对抽取准确性有比较严格要求的场景。
5.公开号为cn201910455064.3的专利《关键词语料标注训练提取工具》公开了一种可降低人工标注过程繁复度，并能提高海量关键词语料标注效率和准确率的标注训练工具。步骤如下：关键词语料标注准备模块对不同来源的海量语料数据进行区分，半自动化语料关键词标注模块创建关键词标注任务，自主选择适配算法并开展基于算法模型的自动标注，通过集成chi、lda、textrank、tfidf中至少一种关键词抽取算法，对待标注文本语料数据进行预标注处理，并对多种算法标注结果进行融合，当标注任务完成后，反馈式关键词标注模型学习训练模块对关键词标注算法模型进行训练；关键词标注模型效果评估模块对模型指标量化标注效果进行自动评估。

技术实现要素：

6.为了解决上述现有技术中存在的问题，本发明提供一种基于正则表达式建立文本抽取模型的方法，通过编写少量正则表达式代替人工标注，有效减少建立有监督文本抽取模型所需要的人力成本及时间。
7.本发明的技术方案如下：
8.技术方案一：
9.一种基于正则表达式建立文本抽取模型的方法，包括如下步骤：
10.s1、编写若干个正则表达式；
11.s2、根据所述正则表达式，在语料库中抽取语料集；
12.s3、将所述语料集分割为训练集与验证集；
13.s4、构建文本抽取模型；
14.s5、将训练集输入至文本抽取模型，训练文本抽取模型；
15.s6、将验证集输入训练好的文本抽取模型，对训练好的文本抽取模型进行验证。
16.进一步的，所述文本抽取模型为crf模型。
17.进一步的，步骤s6中还设置有一阈值；若验证模型的正确率低于所述阈值，则跳转至步骤s1。
18.技术方案二：
19.一种基于正则表达式的文本抽取模型建立设备，包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行以下步骤：
20.s1、编写若干个正则表达式；
21.s2、根据所述正则表达式，在语料库中抽取语料集；
22.s3、将所述语料集分割为训练集与验证集；
23.s4、构建文本抽取模型；
24.s5、将训练集输入至文本抽取模型，训练文本抽取模型；
25.s6、将验证集输入训练好的文本抽取模型，对训练好的文本抽取模型进行验证。
26.进一步的，所述文本抽取模型为crf模型。
27.进一步的，步骤s6中还设置有一阈值；若验证模型的正确率低于所述阈值，则跳转至步骤s1。
28.本发明具有如下有益效果：
29.1、本发明通过编写少量正则表达式代替人工标注，有效减少建立模型所需要的人力成本及时间。
30.2、本发明结合正则表达式与crf模型的优点，能够高效率、精确地提取文本中的关键信息，具体体现在：
31.基于正则表达式的特性，本发明在处理带固定模板的文本领域效果更佳，比如审计领域、专利领域。同时将文本抽取模型作为最终文本信息抽取的执行器，不受限于待抽取信息是否具有严格的模版，抽取范围远高于纯粹基于“正则表达式”的方法，从而确保本发明能适用于各领域。
32.3、本发明增加少量正则表达式，再重复执行步骤s1至s6，以重新训练crf模型。即可有效提升crf模型抽取效果，前期编写的规则也不会被废弃。
附图说明
33.图1为本发明的流程图；
34.图2为实施例四的流程图。
具体实施方式
35.下面结合附图和具体实施例来对本发明进行详细的说明。
36.实施例一
37.参见图1，一种基于正则表达式建立文本抽取模型的方法，包括如下步骤：
38.s1、编写若干个正则表达式；
39.s2、根据所述正则表达式，在语料库中抽取语料集；
40.s3、将所述语料集分割为训练集(80％)与验证集(20％)；
41.s4、构建文本抽取模型；
42.s5、将训练集输入至文本抽取模型，训练文本抽取模型；
43.s6、将验证集输入训练好的文本抽取模型，对训练好的文本抽取模型进行验证。
44.本实施例的有益效果在于通过编写少量正则表达式代替人工标注，有效减少建立模型所需要的人力成本及时间。
45.实施例二
46.进一步的，所述文本抽取模型为crf模型。
47.在本实施例中，利用开源的“python
‑
crfsuite”开发包构建crf模型。
48.本实施例的进步之处在于，结合正则表达式与crf模型的优点，能够高效率、精确地提取文本中的关键信息，具体体现在：
49.基于正则表达式的特性，本发明在处理带固定模板的文本领域效果更佳，比如审计领域、专利领域。同时将文本抽取模型作为最终文本信息抽取的执行器，不受限于待抽取信息是否具有严格的模版，抽取范围远高于纯粹基于“正则表达式”的方法，从而确保本发明能适用于各领域。
50.实施例三
51.进一步的，crf模型还设置有一阈值(在本实施例中，设阈值为90％)，若所述模型准确率低于90％，则跳转至步骤s1。
52.本实施例的进步之处在于，增加少量正则表达式，再重复执行步骤s1至s6，以重新训练crf模型。即可有效提升crf模型抽取效果，前期编写的规则也不会被废弃。
53.实施例四
54.如图2所示，以某企业招标说明书为例。
55.设定提取目标为：现场支付费用地址。
56.根据该提取目标，编写正则表达式：/现场支付费用地址:(.*？)$/。此正则表达式可以匹配语料中具备同样“模式”的文本，即：“现场支付费用地址:xxxxx”。
57.执行正则表达式抽取，在语料库中抽取语料集。语料集包含匹配文本及匹配文本中的关键字段信息。将所述语料集分割为训练集(80％)与验证集(20％)，并构建文本抽取模型。
58.将训练集中的关键字段信息、该关键字段信息前后30个字(从匹配文本中获取)，一并输入至crf模型进行训练。并通过验证集进行验证。
59.最后得到的crf模型，不仅能够抽取含有“现场支付费用地址:xxxxx”的文本，还能抽取如“投标地址：xxxxx”这样的不符合编写的正则表达式的句子。这是因为crf算法能够根据上下文信息(输入的前后30个字就是上下文)进行判断，弥补正则表达式的不足。
60.实施例五
61.一种基于正则表达式的文本抽取模型建立设备，包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行以下步骤：
62.参见图1，一种基于正则表达式建立文本抽取模型的方法，包括如下步骤：
63.s1、编写若干个正则表达式；
64.s2、根据所述正则表达式，在语料库中抽取语料集；
65.s3、将所述语料集分割为训练集(80％)与验证集(20％)；
66.s4、构建文本抽取模型；
67.s5、将训练集输入至文本抽取模型，训练文本抽取模型；
68.s6、将验证集输入训练好的文本抽取模型，对训练好的文本抽取模型进行验证。
69.本实施例的有益效果在于通过编写少量正则表达式代替人工标注，有效减少建立模型所需要的人力成本及时间。
70.实施例六
71.进一步的，所述文本抽取模型为crf模型。
72.在本实施例中，利用开源的“python
‑
crfsuite”开发包构建crf模型。
73.本实施例的进步之处在于，结合正则表达式与crf模型的优点，能够高效率、精确地提取文本中的关键信息，具体体现在：
74.基于正则表达式的特性，本发明在处理带固定模板的文本领域效果更佳，比如审计领域、专利领域。同时将文本抽取模型作为最终文本信息抽取的执行器，不受限于待抽取信息是否具有严格的模版，抽取范围远高于纯粹基于“正则表达式”的方法，从而确保本发明能适用于各领域。
75.实施例七
76.进一步的，crf模型还设置有一阈值(在本实施例中，设阈值为90％)，若所述模型准确率低于90％，则跳转至步骤s1。
77.本实施例的进步之处在于，增加少量正则表达式，再重复执行步骤s1至s6，以重新训练crf模型。即可有效提升crf模型抽取效果，前期编写的规则也不会被废弃。
78.实施例八
79.如图2所示，以某企业招标说明书为例。
80.设定提取目标为：现场支付费用地址。
81.根据该提取目标，编写正则表达式：/现场支付费用地址:(.*？)$/。此正则表达式可以匹配语料中具备同样“模式”的文本，即：“现场支付费用地址:xxxxx”。
82.执行正则表达式抽取，在语料库中抽取语料集。语料集包含匹配文本及匹配文本中的关键字段信息。将所述语料集分割为训练集(80％)与验证集(20％)，并构建文本抽取模型。
83.将训练集中的关键字段信息、该关键字段信息前后30个字(从匹配文本中获取)，一并输入至crf模型进行训练。并通过验证集进行验证。
84.最后得到的crf模型，不仅能够抽取含有“现场支付费用地址:xxxxx”的文本，还能抽取如“投标地址：xxxxx”这样的不符合编写的正则表达式的句子。这是因为crf算法能够根据上下文信息(输入的前后30个字就是上下文)进行判断，弥补正则表达式的不足。
85.以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于正则表达式建立文本抽取模型的方法及设备与流程

相关文献

最热文献