场所开闭公告的主语抽取方法、电子设备及介质与流程

2022-07-31 04:54:28 来源：中国专利 TAG：

1.本发明属于自然语言处理技术领域，具体涉及一种场所开闭公告的主语抽取方法、电子设备及介质。

背景技术：

2.主语抽取是一项人工智能领域中较为成熟的自然语言处理技术，通过深度学习模型，从非结构化文本中抽取出有效的主语信息，避免阅读冗长的文本，减少人工操作时间和精力。由于疫情、天气、设备维修等因素，很多场所如景区、医院、商场等会频繁发布与场所开闭相关的信息，而在现有的主语抽取技术中，仅针对场所主语进行抽取，这些主语中的相当一部分并不涉及场所开闭信息，因此，会存在很多误筛的情形，精准度较低，使得结果不准确，需要人工对主语抽取结果进行重复筛查，在信息量较大的情况下，不但费时费力，而且常会发生错误和遗漏。

技术实现要素：

3.本发明要解决的技术问题是为了克服现有的场所开闭公告主语抽取技术的精准度低，效率差的缺陷，提供一种场所开闭公告的主语抽取方法、电子设备和介质，开闭公告包括有效公告及无效公告，有效公告为与场所开闭真实有关的公告，无效公告为与真实的场所开闭信息无关的公告，在提升效率的同时保证了主语的精确度。
4.本发明是通过下述技术方案来解决上述技术问题：
5.s11、提取场所开闭公告的文本信息；
6.s12、利用预训练模型对文本信息提取特征向量；
7.s13、基于特征向量对第一原始模型进行训练以得到文本二分类模型，基于特征向量对第二原始模型进行训练以得到主语抽取模型，文本二分类模型能够将公告分为有效公告与无效公告、主语抽取模型能够抽取场所主语；
8.s14、基于文本二分类模型识别特征向量的类型，当特征向量的类型对应为有效公告时，主语抽取模型从文本信息中抽取场所主语并作为主语抽取结果，当特征向量的类型对应为无效公告时，则不将主语抽取模型从文本信息中抽取的场所主语作为主语抽取结果。
9.较佳地，步骤s12包括将文本信息转化为适合进行主语抽取的固定格式的文本序列，并向文本序列提取特征向量，具体地：
10.将英文字母进行大小写转化；
11.将中文字体繁体转化为中文简体；
12.将英文标点符号转化为中文标签符号；
13.去除无意义于提取特征向量的符号；
14.将文本信息进行截断以得到文本序列，使文本序列的文本长度在预训练模型的预设长度范围内；
15.将文本信息截断包括使多个文本序列之间存在重复文本的情形；
16.文本序列包括有效标记、无效标记以及场所主语标记。
17.较佳地，将文本信息截断的步骤包括：
18.搜索文本信息中与场所开闭信息相对应的关键词，截断后的文本序列包括关键词的上下文；对于不包含关键词的文本序列，经过截断后成为固定的长度。
19.较佳地，文本二分类模型的输出端设置有第一评估指标，主语抽取模型的输出端设置有第二评估指标，特征向量包括测试向量，步骤s13具体包括：
20.当文本二分类模型、主语抽取模型经过特征向量的训练后，利用测试向量对文本二分类模型、主语抽取模型进行测试，经过测试后，若文本二分类模型的测试结果没有达到第一评估指标，或主语抽取模型的测试结果没有达到第二评估指标，则调整未达标模型的参数，对未达标模型进行再训练；
21.若文本二分类模型的测试结果达到第一评估指标，则判定文本二分类模型能够将公告分为有效公告与无效公告；若主语抽取模型的测试结果达到第二评估指标，则判定主语抽取模型能够抽取场所主语。
22.较佳地，步骤s14的具体步骤包括：
23.s51、将文本二分类模型与主语抽取模型联合成为文本二分类、主语抽取联合模型，联合模型包括文本二分类输出端、语义输出端与场所主语输出端；
24.s52、联合模型通过判断特征向量所对应的文本信息是否为有效公告并在文本二分类输出端输出一个数值位于x与y之间的分类结果，使有效公告对应的分类结果相对于无效公告所对应的分类结果更靠近x；
25.联合模型对特征向量所对应的文本信息进行逐字识别，使每一个字符在场所主语输出端都对应输出至少一个数值位于x与y之间的语义输出结果，使与场所主语的字符相对应的语义输出结果相对于与场所主语无关的字符所对应的语义输出结果更靠近x；
26.s53、主语抽取结果为每个所述语义输出结果与对应的分类结果的乘积；
27.s54、场所主语输出端设置有阈值，当主语抽取结果大于或小于阈值时，主语抽取结果对应的文本为有效公告的场所主语。
28.较佳地，设定阈值的具体步骤包括：
29.s61、设定一个数值位于x与y之间的初始阈值，记载主语抽取结果，对主语抽取结果与对应的文本序列进行比较以得到误差，记载误差对应的主语抽取结果为误差结果；
30.s62、当误差结果的平均数与初始阈值相比更靠近y时，则将阈值的数值调整至相较初始阈值更为靠近y；当误差结果的平均数与初始阈值相比更靠近x时，则将阈值的数值调整至相较初始阈值更为靠近x；
31.步骤s62包括将阈值直接调整至误差结果中最大或最小的数值，还包括将阈值在数值x与y的范围内进行任意的调整。
32.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现本发明的信道估计方法。
33.本发明还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本发明的信道估计方法的步骤。
34.本发明的积极进步效果在于：
35.通过文本二分类模型，筛选出哪些文本信息真实的与场所开闭信息相关，通过主语抽取模型，提取场所的主语信息，并通过联合文本二分类模型与主语抽取模型，使得主语抽取结果既隶属于真实存在开闭信息的主语，又能对场所主语的位置进行准确定位，大大地提升了工作效率以及结果的精确度；并且，通过对场所主语输出端设定阈值，使主语抽取结果超过或低于阈值时所对应的位置为场所主语，可以主动对结果的精确度进行调控。
附图说明
36.图1为本发明的实施例1的主语抽取方法流程图。
37.图2为本发明的实施例3的电子设备的结构示意图。
具体实施方式
38.下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。
39.实施例1
40.如图1所示，本实施例基于场所开闭公告的主语抽取方法包括：
41.步骤s1，通过场所的官网、微信公众号等途径收取场所发布的公告，并提取公告当中的文本信息，场所可以包括医院、景区、超市、商场等。
42.步骤s2，将文本信息转变成文本序列，首先将文本信息的长度进行截断，使截断后的文本信息长度不超过预训练模型的最大长度，并且将截断后的每一段文本信息进行人工标注，以此得到文本序列，文本序列包括有效标记、无效标记以及主语标记，具体地，对于真实存在场所开闭信息的文本序列标注为有效，不真实存在场所开闭信息的文本序列标注为无效，标注字段为label(标签)；对于设置有效标注的文本序列，若存在场所主语，还需标注出场所主语，标注字段为subject(主语)。
43.步骤s3，构建预训练模型，预训练模型可选用中文的bert模型等，将文本序列输入至预训练模型，提取文本序列的特征向量。
44.步骤s4，构建文本二分类模型、主语抽取模型，利用特征向量分别对文本二分类模型、主语抽取模型进行训练，直至文本二分类模型可以识别输入的文本序列为有效的文本序列还是无效的文本序列，主语抽取模型可以识别文本序列中的场所主语。
45.步骤s5，将文本二分类模型与主语抽取模型相联合，使得最终的主语抽取结果可以综合文本二分类模型的输出与主语抽取模型的输出，即在输入一段文本序列时，文本二分类模型对应的输出若为有效，主语抽取模型所抽取出的场所主语为主语抽取结果；文本二分类模型对应的输出若为无效，主语抽取结果为没有场所主语。
46.步骤s6，将联合的文本二分类模型与主语抽取模型部署上线，对场所公告进行主语抽取。
47.实施例2
48.本实施例的主语抽取方法是对实施例1的进一步限定，具体地：
49.步骤s2包括：
50.步骤s21,进行文本预处理，将文本信息加工成为预训练模型支持的文本格式，具体包括：将英文的大写字母转化为小写字母；将中文繁体转化为中文简体；将英文标点符号
转化为中文标签符号；去除文本中的无用符号，如空格、换行符、制表符等。
51.步骤s22，将经过s21步骤的文本信息进行截断，截断为预训练模型所支持的最大文本长度以内的长度，具体地，首先对文本进行按句切分，选取含有开闭园关键词的句子，截取关键词的上下文作为训练样本，即将关键词置于截断后的文本序列的中间位置，从而得到文本序列；对于不包含关键词的句子，则将文本信息默认截断为固定的文本长度以得到文本序列。开闭园关键词包括：临时关闭、恢复开园等可用作表述场所开闭动态的相关词汇。
52.步骤s3包括：
53.步骤s31，利用预训练模型从文本序列中提取出对应的特征向量{h0,h1,
…
,hn},其中h0为cls对应特征向量，hn为sep对应特征向量。
54.步骤s32，将每一段文本序列所对应的特征向量随机分为训练集与测试集，训练集的特征向量在此称为训练向量，测试集的特征向量在此称为测试向量，训练集与测试集的比例可以为8:2。
55.步骤s4包括：
56.步骤s41，构建文本二分类模型时，选用h0用于文本二分类模型的构建，后接单个神经元，激活函数采用sigmoid函数，损失函数采用binary entropy loss。
57.文本二分类模型根据特征向量对应输出一个数值范围在0与1之间的分类结果，当分类结果接近1，则代表特征向量所对应的文本真实与场所开闭信息有关；若输出结果接近0，则代表特征向量所对应的文本不存在真实的场所开闭信息。
58.步骤s42，构建主语抽取模型时，使用特征向量序列{h0,h1,
…
,hn}作为主语抽取模型的输入，后接两层长度为n的神经元，第一层作为主语头部预测序列，第二层作为主语尾部预测序列，激活函数采用sigmoid函数，损失函数采用category entropy loss。
59.主语抽取模型根据特征向量对应输出数值范围在0与1之间的语义抽取结果，主语头部预测序列中的某位语义抽取结果接近1，则代表对应位置为场所主语的头部，主语头部预测序列中的某位语义抽取结果接近0，则代表对应位置不是场所主语的头部，主语尾部预测序列中的某位语义抽取结果接近1，则代表对应位置为场所主语的尾部，主语尾部预测序列中的某位语义抽取结果接近0，则代表对应位置不是场所主语的尾部。
60.步骤s43，利用训练向量对文本二分类模型与主语抽取模型进行训练。
61.步骤s44，利用测试向量对文本二分类模型与主语抽取模型进行测试，具体地，为文本二分类模型设置第一评估指标，为主语抽取模型设置第二评估指标，第一评估指标与第二评估指标均采用f1值。
62.经过测试后，若文本二分类模型的测试结果没有达到第一评估指标，或主语抽取模型的测试结果没有达到第二评估指标，则调整未达标模型的超参数，回到步骤s43；
63.若文本二分类模型的测试结果达到第一评估指标，主语抽取模型的测试结果达到第二评估指标，则判定文本二分类模型可以将公告分为有效公告与无效公告，主语抽取模型可以抽取场所主语。
64.步骤s5包括：
65.步骤s51，联合文本二分类模型与主语抽取模型，联合后的模型包括三个输出端，分别为文本二分类输出端、语义输出端与场所主语输出端，文本二分类输出端输出分类结
果，语义输出端输出语义抽取结果，文本二分类输出端输出主语抽取结果，主语抽取结果为对应的分类结果与语义抽取结果的乘积，分为主语头部抽取序列与主语尾部抽取序列，与语义输出结果相对应。
66.步骤s52，为场所主语输出端设定初始阈值0.5，因分类结果与语义抽取结果的数值均位于0与1之间，主语抽取结果的数值也位于0与1之间。当主语抽取结果的数值大于初始阈值时，若位于主语头部抽取序列则属于场所主语的头部，代表对应位置的文本为场所主语的头部或尾部，若位于主语主语尾部抽取序列则属于场所主语的尾部，代表对应位置的文本为场所主语的尾部，根据场所主语的头尾可以提取场所主语，且该场所主语真实发布了开闭信息。
67.步骤s53，记录主语抽取结果，对主语抽取结果与对应的文本序列进行比较以得到误差，记载误差对应的主语抽取结果为误差结果。
68.步骤s54，统计全部误差结果，若误差结果的整体趋势偏向于1，则将阈值由0.5向靠近1调整，若误差结果的整体趋势偏向于0，则将阈值由0.5向靠近0调整。误差结果的整体趋势可指全部误差结果的众数、平均数等，调整阈值包括根据需要对阈值进行微调，也包括将阈值直接调整至误差结果中最大或最小的数值。
69.实施例3
70.图2为本实施例提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例1或实施例2的信道估计方法。图2显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
71.如图2所示，电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
72.总线33包括数据总线、地址总线和控制总线。
73.存储器32可以包括易失性存储器，例如随机存取存储器(ram)321和/或高速缓存存储器322，还可以进一步包括只读存储器(rom)323。
74.存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
75.处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1或实施例2的信道估计方法。
76.电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
77.应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模
块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
78.实施例4
79.本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1或实施例2的信道估计方法的步骤。
80.其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
81.在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1或实施例2的信道估计方法的步骤。
82.其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
83.虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。
84.虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种结构化医疗数据生成方法及装置与流程

场所开闭公告的主语抽取方法、电子设备及介质与流程

相关文献

最热文献