一种数据处理方法、装置、电子设备及存储介质与流程

2022-09-03 16:13:31 来源：中国专利 TAG：

1.本发明涉及计算机处理技术领域，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术：

2.随着医学领域中医疗数据不断增长，医疗数据通常存在大量的非结构化文本数据，非结构化文本数据中通常存在书写错误、数据缺失、术语不一致等问题，但是这些数据中又包含了大量的有用信息，在提取有用信息时，通常会将非结构化数据转化为结构化数据，从结构化数据中可以有效提取需要的信息。
3.目前，将非结构化数据转化为结构化数据的方法通常是通过模板匹配，将非结构化数据与预设结构化中的特征词进行匹配，填入到相应特征词位置，以得到结构化数据，这种方法以模板中标头词为主要信息，需要非结构化数据中特征词去适配标头词，不仅处理效率低，而且匹配准确性低，导致结构化数据确定准确性低、效果差的问题。

技术实现要素：

4.本发明提供了一种数据处理方法、装置、电子设备及存储介质，以实现提高结构化数据的确定的效率和准确性。
5.根据本发明的一方面，提供了一种数据处理方法，该方法包括：
6.获取非结构化的待处理文本；
7.若所述待处理文本为电子文档格式，则确定与每个文字相对应的目标分类结果和相应的分类属性值；
8.基于各目标分类结果和相应的分类属性值，确定与所述待处理文本相对应的至少一个特征语句和相应的特征属性值；
9.基于各特征属性值，从所述至少一个特征语句中确定出第一结构化数据。
10.根据本发明的另一方面，提供了一种数据处理装置，该装置包括：
11.待处理文本获取模块，用于获取非结构化的待处理文本；
12.目标分类结果确定模块，用于若所述待处理文本为电子文档格式，则确定与每个文字相对应的目标分类结果和相应的分类属性值；
13.特征语句确定模块，用于基于各目标分类结果和相应的分类属性值，确定与所述待处理文本相对应的至少一个特征语句和相应的特征属性值；
14.第一结构化数据模块，用于基于各特征属性值，从所述至少一个特征语句中确定出第一结构化数据。
15.根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：
16.至少一个处理器；以及
17.与所述至少一个处理器通信连接的存储器；其中，
18.所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序
被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的数据处理方法。
19.根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的数据处理方法。
20.本发明实施例的技术方案，通过获取非结构化的待处理文本；若待处理文本为电子文档格式，则确定与每个文字相对应的目标分类结果和相应的分类属性值；基于各目标分类结果和相应的分类属性值，确定与待处理文本相对应的至少一个特征语句和相应的特征属性值；基于各特征属性值，从至少一个特征语句中确定出第一结构化数据，解决了现有技术中基于模板匹配的方法，将非结构化数据转化为结构化数据，导致结构化数据确定准确性低、效果差的问题，实现了通过根据待处理文本中每个文字所对应的目标分类结果和相应的分类属性值，确定至少一个特征语句，提高特征语句确定的准确性，并基于各特征语句和相应的特征属性值，从至少一个特征语句中确定出第一结构化数据，提高结构化数据的生成效率和准确性。
21.应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
22.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
23.图1是根据本发明实施例一提供的一种数据处理方法的流程图；
24.图2是根据本发明实施例二提供的一种数据处理方法的流程图；
25.图3是根据本发明实施例三所适用的非结构化数据转化为结构化数据的示意图；
26.图4是根据本发明实施例三所适用的拆分语句示意图；
27.图5是根据本发明实施例四提供的一种数据处理装置的结构示意图；
28.图6是实现本发明实施例的数据处理方法的电子设备的结构示意图。
具体实施方式
29.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
30.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆
盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
31.实施例一
32.图1是根据本发明实施例一提供的一种数据处理方法的流程图，本实施例可适用于数据处理情况，该方法可以由数据处理装置来执行，该数据处理装置可以采用硬件和/或软件的形式实现，该数据处理装置可配置于计算设备中。如图1所示，该方法包括：
33.s110、获取非结构化的待处理文本。
34.其中，待处理文本可以理解为需要转化成结构化数据的文本，可选的，待处理文本可以是来自于网络爬虫的网页或word文档等非结构化的文本数据，非结构化文本数据是指数据结构不规则或不完整，没有固定格式的数据。固定格式包括但不限于文本段落格式，文字格式、缩进格式和间距格式等。例如，在非结构化的待处理文本可包含但不限于各种医疗药品的配方或者疾病治疗说明等，
35.在实际应用中，可以当将用户导入的非结构化文本作为待处理文本，例如，在医疗领域中，可以将检验科室上传医生开具的检验单作为非结构化文本。在接收到非结构化文本时，可以对非结构化文本中数据进行数据预处理，如数据清洗，例如，将非结构化文本中空格删除等，可以将处理过的非结构化文本作为待处理文本，以使后续可以基于待处理文本得到结构化数据，此种方式的好处在于：减少数据处理量，提高数据处理的效率。
36.s120、若所述待处理文本为电子文档格式，则确定与每个文字相对应的目标分类结果和相应的分类属性值。
37.其中，电子文档格式中可包括但不限于doc、ppt、txt等格式。
38.在实际应用中，可以对待处理文本进行格式判断，当检测到待处理文本为电子文档格式时，可以对待处理文本中的文字进行识别，得到每个文字所对应的识别结果和识别结果所对应的概率值，可以将识别结果作为目标分类结果，相应的概率值作为分类属性值，例如，待处理文本中包含有心脏病等文字，“心”所对应的目标分类结果为病症、相应的分类属性值为0.3；“脏”所对应的目标分类结果为病症、相应的分类属性值为0.4；“病”所对应的目标分类结果为病症、相应的分类属性值为0.7。
39.需要说明的是，为了提高分类结果确定的准确性，在检测到待处理文本为电子文档格式，可以将待处理文本中的文本数据转换成可识别的信息，如将文字以向量表示，利用文字识别算法对各文字所对应的向量进行识别，得到与每个文字相对应的识别结果。
40.可选的，若待处理文本为电子文档格式，则确定与每个文字相对应的目标分类结果和相应的分类属性值，包括：当检测到待处理文本为电子文档格式时，基于待匹配文字与待选择向量之间的映射关系，从预设的字典库中调取与每个文字相对应的待使用向量；对各待使用向量进行特征处理，得到与每个文字相对应的待使用编码；将各待使用编码输入至预设的文字分类模型中，得到与每个文字相对应的目标分类结果和相应的分类属性值。
41.其中，字典库中存储有多个文字以及与各文字所对应的向量表示，如“病”所对应的向量表示为1，“症”所对应的向量表示为2，“诊”所对应的向量表示为0。每个文字有与之唯一对应的向量表示。文字分类模型可以为预设的，用于文字分类的模型。
42.在实际应用中，可以通过将从待处理文本读取的文字与字典库中的文字进行分析
匹配，根据基础元素库中待匹配文字与待选择向量之间的映射关系，从字典库中调取与待处理文本中每个文字相对应的向量，作为待使用向量。可以得到与待处理文本相应的向量集，如向量集e＝[w
i,1
；w
i,2
；
…
；w
i,m
]，w
i,1
表征文字的向量。进一步的，可以利用特征处理模型对各待使用向量进行特征处理，得到与每个文字相对应的高维度向量标识，作为待使用编码。例如，特征处理模型可以为big bird变换器，big bird变换器支持更长的文本输入，如可以将e＝[w
i,1
；w
i,2
；
…
；w
i,m
]输入至big bird变换器中学习语义信息，得到与待处理文本相应的高维度编码信息[h
i,1
；h
i,2
；
…
；h
i,m
]，h
i,1
表征文字的编码信息。进一步的，可以将各文字相对应的待使用编码输入至文字分类模型中，得到与每个文字相对应的目标分类结果和相应的分类属性值。
[0043]
s130、基于各目标分类结果和相应的分类属性值，确定与所述待处理文本相对应的至少一个特征语句和相应的特征属性值。
[0044]
其中，特征语句中包括文本名称和文本内容。
[0045]
在实际应用中，可以基于各目标分类结果，按照分类结果对整篇待处理文本进行语句拆分，如可以将目标分类结果相似或一致的连续的若干个文字作为一个特征语句，例如，“针灸推拿科”五个字所对应的目标分类结果均为科室，可以将针灸推拿科作为一个特征语句，或者“针灸”和“拿科”中文字的目标分类结果为科室，“推”的目标分类结果为病症，也可以将“针灸推拿科”作为一个特征语句。相应的，可以基于针灸推拿科分别对应的分类属性值，确定特征语句的特征属性值，如可以将各分类属性值的均值作为“针灸推拿科”所对应的特征属性值。相应的，可以得到待处理文本中多个特征语句和相应的特征属性值。
[0046]
需要说明的是，为了进一步提高分类结果确定的准确性，防止因某个文字的分类结果，影响特征语句的确定精度，可以在基于各目标分类结果和相应的分类属性值，确定与待处理文本相对应的至少一个特征语句和相应的特征属性值时，对包含若干个相同目标分类结果的文字的语句中与该目标分类结果不同的分类结果进行修正，以基于修正后的分类结果，确定特征语句。
[0047]
可选的，基于各目标分类结果和相应的分类属性值，确定与待处理文本相对应的至少一个特征语句和相应的特征属性值，包括：通过条件随机场从各目标分类结果中确定至少一个待修正分类结果，并对至少一个待修正分类结果进行修正，得到与每个文字相对应的待使用分类结果；基于各待使用分类结果和相应的分类属性值，确定与待处理文本相对应的至少一个特征语句和相应的特征属性值。
[0048]
在实际应用中，可以通过条件随机场(crf)对基于文字分类模型得到的与每个文字相对应的目标分类结果进行处理，得到修正后的每个字的分类结果，作为待使用分类结果。例如，“针灸推拿科”在待处理文本中是五个连续的文字，“针灸”和“拿科”中文字的目标分类结果为科室，“推”的目标分类结果为病症，可以将“推”的目标分类结果作为待修正分类结果，并将“推”的分类结果修正为科室，此时“针灸推拿科”五个字所对应的分类结果均为科室。可以基于待处理文本中每个文字所对应的待使用分类结果和相应的分类属性值，确定至少一个特征语句和相应的特征属性值。
[0049]
s140、基于各特征属性值，从所述至少一个特征语句中确定出第一结构化数据。
[0050]
在实际应用中，在得到至少一个特征语句之后，可以基于得到的各特征语句判断此次拆分是否满足所需的拆分需求，如，当未对待处理文本中所有数据进行拆分时，可以认
为不满足拆分需求。可以在满足预设的拆分需求的情况下，将得到的各特征语句进行规整处理，得到规则化的结构化数据，作为第一结构化数据，如科室：针灸推拿科-地址-主治医生；药品：药品名称-注意事项等。也可以将特征属性值大于预设阈值的特征语句进行规整处理，得到第一结构化数据。
[0051]
需要说明的是，在确定拆分后的特征语句是否满足所需的拆分需求时，还可以基于各特征语句所对应的特征属性值进行确定。例如，若某个特征属性值太小，则可以表征该特征属性值所对应的特征语句可能存在拆分不准确的问题，可以认为不满足拆分需求。还需要说明的是，特征语句是否满足所需的拆分需求还可以根据实际工作情况进行确定。
[0052]
可选的，基于各特征属性值，从至少一个特征语句中确定出第一结构化数据，包括：确定特征属性值大于预设属性阈值的数量；若数量大于第一数量阈值，则对至少一个特征语句进行排列，得到第一结构化数据；或，若数量不大于第一数量阈值，则基于预设的标题识别模型对与待处理文本相对应的至少一个拆分语句进行处理，得到与待处理文本相对应的至少一个目标类别词和相应的类别属性值，并基于各类别属性值，从至少一个目标类别词和相应的类别内容中确定出第一结构化数据。
[0053]
其中，标题识别模型可以为预设的、用于识别文本中标题的模型。拆分语句中包括参与预测语句和上下文重复语句。参与预测语句可以理解为参与模型识别的语句。上下文重复语句可以同参与预测语句一同输入模型，但模型不对其进行识别，起到增强上下文的作用。
[0054]
在实际应用中，可以当特征属性值大于预设属性阈值的数量大于第一数量阈值时，认为得到的特征语句满足所需的拆分需求。当特征语句满足所需的拆分需求时，可以对各特征语句进行排列，得到规整化的第一结构化数据。当拆分的特征语句未满足所需的拆分需求时，可以基于标题识别模型对与待处理文本相对应的至少一个拆分语句进行处理，可选的，处理方式可以是：对待处理文本进行语句拆分，得到至少一个拆分语句；将至少一个拆分语句输入至标题识别模型中，得到至少一个目标类别词和相应的类别属性值。例如，可以基于标点符号或词句语义对待处理文本进行拆分，拆分得到至少一个拆分语句。需要说明的是，在拆解文本，确定拆分语句的过程中，为了增强输入文本的上下文表征信息，减少标头词被恰好切开，造成目标类别词确定准确性低的情况。还可以在拆解文本时，使每条拆分语句中携带有可以增强上下文信息，但不参与模型预测的语句，如在将“1234，567890，32434”进行拆分时，可以得到123456、34567890、78903243、9032434等，在123456中1234为参与预测语句，56为上下文重复语句；在34567890中5678为参与预测语句，34和90为上下文重复语句；在78903243中9032为参与预测语句，78和43为上下文重复语句；在9032434中3243为参与预测语句，90和4为上下文重复语句。进一步的，可以将各拆分语句输入标题识别模型中，模型可以对拆分语句中的参与预测语句进行预测，确定参与预测语句中的标头词作为目标类别词，以及与目标类别词相应的类别属性值。如目标类别词可以为科室、药品、医生等等。在得到目标类别词之后，可以将类别属性值大于预设阈值的目标类别词和相应的文本内容进行规整处理，得到规则化的结构化数据，作为第一结构化数据，如科室：针灸推拿科-文本内容；药品：药品名称-文本内容等。还可以基于得到的各目标类别词以及相应的类别属性值判断此次拆分是否满足所需的拆分需求，可以在满足预设的拆分需求的情况下，将得到的各目标类别词以及相应的文本内容进行规整处理，得到第一结构化数据。
[0055]
需要说明的是，在确定得到的目标类别词是否满足所需的拆分需求时，可以基于各目标类别词所对应的类别属性值进行确定。例如，若某个特征属性值太小，则可以表征该类别属性值所对应的目标类别词可能存在确定不准确的问题，可以认为不满足拆分需求。还需要说明的是，目标类别词是否满足所需的拆分需求还可以根据实际工作情况进行确定。
[0056]
可选的，基于各类别属性值，从至少一个目标类别词和相应的类别内容中确定出第一结构化数据，包括：若类别属性值大于预设属性值的数量，大于第二数量阈值，则将相邻两个目标类别词之间的文本内容，作为前一个目标类别词的类别内容，并基于各目标类别词和相应的类别内容，确定第一结构化数据；或，若类别属性值大于预设属性值的数量，不大于第二数量阈值，则基于预设拆分规则对所述待处理文本进行拆分，得到至少一个结构化内容，并基于各结构化内容确定第一结构化数据。
[0057]
其中，预设拆分规则可以为正则匹配，也可以为xml解析或者特征选取算法等。
[0058]
在实际应用中，可以当类别属性值大于预设属性值的数量大于第二数量阈值时，认为得到的目标类别词满足所需的拆分需求。当目标类别词满足所需的拆分需求时，可以确定各目标类别词所对应的文本内容，即类别内容，可选的，可以将相邻两个目标类别词之间的文本内容，作为前一个目标类别词的类别内容，例如，目标类别词科室和医生，可以将科室和医生中间的文本内容作为科室的类别内容。进一步的，可以将目标类别词和相应的文本内容作为一条结构化语句，相应的得到多条结构化语句，可以将各条结构化语句进行整合得到第一结构化数据。当目标类别词不满足所需的拆分需求时，可以利用预设拆分规则对待处理文本进行自定义规则拆分，得到至少一个结构化内容，可以将各结构化内容进行规整，得到与待处理文本相对应的第一结构化数据。
[0059]
本实施例的技术方案，通过获取非结构化的待处理文本；若待处理文本为电子文档格式，则确定与每个文字相对应的目标分类结果和相应的分类属性值；基于各目标分类结果和相应的分类属性值，确定与待处理文本相对应的至少一个特征语句和相应的特征属性值；基于各特征属性值，从至少一个特征语句中确定出第一结构化数据，解决了现有技术中基于模板匹配的方法，将非结构化数据转化为结构化数据，导致结构化数据确定准确性低、效果差的问题，实现了通过根据待处理文本中每个文字所对应的目标分类结果和相应的分类属性值，确定至少一个特征语句，提高特征语句确定的准确性，并基于各特征语句和相应的特征属性值，从至少一个特征语句中确定出第一结构化数据，提高结构化数据的生成效率和准确性。
[0060]
实施例二
[0061]
图2是根据本发明实施例二提供的一种数据处理方法的流程图，在前述实施例的基础上，当检测出待处理文本为网页格式时，可以确定至少一个预设标题词与待处理文本中各标签词之间的相似度，以基于各相似度确定出与待处理文本相对应的第二结构化数据。其具体的实施方式可以参见本实施例技术方案。其中，与上述实施例相同或者相应的技术术语在此不再赘述。
[0062]
如图2所示，该方法具体包括如下步骤：
[0063]
s210、获取非结构化的待处理文本。
[0064]
s220、若所述待处理文本为网页格式，则分别确定至少一个预设标题词与所述待
处理文本中各标签词之间的相似度，得到相似度矩阵。
[0065]
其中，网页格式可以理解为xml格式。相似度矩阵中每个相似度可以表征一个标题词与一个标签词之间的相似度。
[0066]
在实际应用中，可以对待处理文本进行格式判断，当检测到待处理文本为网页格式时，对待处理文本进行xml自动解析，如，可以将待处理文本中各标签词与预定义模板中各标题词进行匹配分析，计算各标签词与各标题词之间的语义相似度，为了提高相似度确定的准确性，可以利用相应标签词所对应的文本内容增强该标签词的语义，例如，可以获取待处理文本中每个标签词的名称和内容，基于名称和内容表征标签词，进而通过算法计算预定义模板中标题词与每个标签词的相似度，得到相似度矩阵。
[0067]
s230、基于所述相似度矩阵，确定各标签词所对应的待使用分类结果和相应的目标相似度。
[0068]
其中，待使用分类结果与预设标题词相对应.
[0069]
在实际应用中，根据相似度矩阵，可以将与某个标签词相关联的最大相似度所对应的标题词作为该标签词的分类结果，即待使用分类结果。相应的，可以得到与各标签词所对应的待使用分类结果和相应的相似度，此相似度作为目标相似度。
[0070]
s240、基于各目标相似度，从所述各标签词、以及各标签词所对应的待使用分类结果和标签内容中确定出第二结构化数据。
[0071]
在实际应用中，在得到各标签词所对应的待使用分类结果和相应的目标相似度之后，可以将目标相似度大于预设阈值的标签词和相应待使用分类结果和标签内容进行规整处理，得到第二结构化数据。如科室：针灸推拿科-标签内容；药品：药品名称-标签内容等。还可以基于得到的各目标相似度判断此次拆分是否满足所需的拆分需求，可以在满足预设的拆分需求的情况下，将得到的各标签词和相应待使用分类结果和标签内容进行规整处理，得到规则化的结构化数据，作为第一结构化数据。
[0072]
需要说明的是，在确定得到的各标签词的待使用分类结果是否满足所需的拆分需求时，可以基于各使用分类结果所对应的目标相似度进行确定。例如，若某个目标相似度太小，则可以表征该目标相似度所对应的标签词的待使用分类结果可能存在确定不准确的问题，可以认为不满足拆分需求。还需要说明的是，标签词的待使用分类结果是否满足所需的拆分需求还可以根据实际工作情况进行确定。
[0073]
可选的，基于各目标相似度，从各标签词、以及各标签词所对应的待使用分类结果和标签内容中确定出第二结构化数据，包括：确定目标相似度大于预设相似度的数量值；若数量值大于第三数量阈值，则将各标签词与相应的待使用分类结果和标签内容进行关联，得到第二结构化数据；或，若数量值不大于第三数量阈值，则基于预设拆分规则对待处理文本进行拆分，得到至少一个结构化语句，并基于各结构化语句确定第二结构化数据。
[0074]
在实际应用中，可以当目标相似度大于预设相似度的数量值大于第三数量阈值时，认为得到的标签词以及所对应的待使用分类结果满足所需的拆分需求。当满足所需的拆分需求时，可以将各标签词与相应的待使用分类结果和标签内容进行关联，例如，可以将某个标签词和相应的待使用分类结果、标签内容作为一条结构化语句，相应的得到多条结构化语句，可以将各条结构化语句进行整合得到第二结构化数据。当不满足所需的拆分需求时，可以利用预设拆分规则对待处理文本进行自定义规则拆分，得到至少一个结构化语
句，可以将各结构化语句进行规整，得到与待处理文本相对应的第二结构化数据。
[0075]
本实施例的技术方案，通过获取非结构化的待处理文本，若待处理文本为网页格式，则分别确定至少一个预设标题词与所述待处理文本中各标签词之间的相似度，得到相似度矩阵；基于相似度矩阵，确定各标签词所对应的待使用分类结果和相应的目标相似度；基于各目标相似度，从各标签词、以及各标签词所对应的待使用分类结果和标签内容中确定出第二结构化数据。实现了通过根据与待处理文本相对应的相似度矩阵，从各标签词、以及各标签词所对应的待使用分类结果和标签内容中确定出第二结构化数据，提高结构化数据的生成效率和准确性。
[0076]
实施例三
[0077]
作为上述实施例的一可选实施例，图3是根据本发明实施例三所适用的非结构化数据转化为结构化数据的示意图。具体的，可以参见下述具体内容。
[0078]
示例性的，参见图3，首先可以连接数据库，从数据库中获取待治理的非结构化的待处理文本，进而可以对待处理文本进行预处理，得到预处理后的待处理文本，可以将预处理后的待处理文本输入至段落拆分模型中进行处理，处理方式可以参见图3中的框1。首先判断待处理文本是否为网页格式，即是否为xml格式，若是网页格式，则自动解析分析得到待处理文本至少一个标签词，例如，解析为xml格式的待处理文本，可以获取待处理文本中每个标签词的名称和内容，通过机器学习的方法计算预定义模板中标题词与每个标签词的相似度，得到相似度矩阵，可以将与各标签词所对应的相似度最大值对应的标题词作为待使用分类结果。若自动解析拆分不符合所需拆分需求，则根据拆分模板判断各标签词是否满足拆分需求，若不符合要求，则利用预设拆分规则对对待处理文本进行拆分，得到至少一个结构化语句，并基于各结构化语句确定第二结构化数据。预设拆分规则是指通过人工的方式添加规则，如正则匹配，xml解析，特征选取等。若自动解析拆分符合所需拆分需求，则将各标签词与相应的待使用分类结果和标签内容进行关联，得到第二结构化数据，并将第二结构化数据送入质检库中进行抽检。
[0079]
在上述方案的基础上，若待处理文本为电子文档格式，即不网页格式，则将预处理后的待处理文本通过预定义的字典映射为向量，得到与待处理文本相对应的向量集，如e＝[w
i,1
；w
i,2
；
…
；w
i,m
]，w
i,1
表征文字的向量。进一步的，可以利用特征处理模型(如bigbird预训练模型)对各待使用向量进行特征处理，得到与每个文字相对应的高维度向量标识，作为待使用编码，如得到与待处理文本相对应的编码集[h
i,1
；h
i,2
；
…
；h
i,m
]，h
i,1
表征文字的编码信息。其中，bigbird模型支持的最大长度为4096，是普通bert的4倍。为了减少模型参数量，bigbird模型增加所支持输入的文本长度，采用基于random attention,window attention以及global attention合并的注意力机制,其所需要的时间及空间复杂度退化为o(n)。进一步的，可以将与待处理文本相对应的编码信息输入至文字分类模型中，得到与每个文字相对应的目标分类结果和相应的分类属性值。将得到的目标分类结果基于条件随机场(crf)进行修正处理，得到修正后的与每个文字所对应的分类结果，进而按照分类结果对整篇待处理文本的拆分。若拆分的结果无法满足拆分需求时，可以对待处理文本中语句进行拆分，得到至少一个拆分语句，例如，在拆解文本的过程中，为了增强输入文本的上下文表征信息，减少标头词被恰好切开的情况。可以采用滑动窗口算法来实现，参见图4，图中黑色部分为添加的上下文表征信息，不参与结果预测，作为上下文重复语句，白色部分为实际模
型预测的文本，作为参与预测语句。可以将拆分后的拆分语句输入至标题识别模型中，标题识别模型用于识别模型的标题部分。基于标题识别模型预测拆分语句中的类别词，预测完成后，得到至少一个目标类别词和相应的类别属性值，可以将识别相邻的两个目标类别词间的中间内容作为前一个目标类别词的类别内容。进一步的若得到的目标类别词满足预设拆分需求，则基于各目标类别词和相应的类别内容，确定第一结构化数据。若得到的目标类别词不满足预设拆分需求，则基于各目标类别词和相应的类别内容，确定第一结构化数据。基于预设拆分规则对所述待处理文本进行拆分，得到至少一个结构化内容，并基于各结构化内容确定第一结构化数据。可以将拆分后的结构化数据送入质检库。若不符合入库标准，可以将结构化数据经人工处理重新进行入库处理，若符合入库标准，则对待处理文本的数据格式进行调整，并将结构化数据与预设业务标题进行映射，并将映射处理后的结构化数据送入数据库，以使可以基于结构化数据进行数据分析。
[0080]
本实施例的技术方案，通过获取非结构化的待处理文本；若待处理文本为电子文档格式，则确定与每个文字相对应的目标分类结果和相应的分类属性值；基于各目标分类结果和相应的分类属性值，确定与待处理文本相对应的至少一个特征语句和相应的特征属性值；基于各特征属性值，从至少一个特征语句中确定出第一结构化数据，解决了现有技术中基于模板匹配的方法，将非结构化数据转化为结构化数据，导致结构化数据确定准确性低、效果差的问题，实现了通过根据待处理文本中每个文字所对应的目标分类结果和相应的分类属性值，确定至少一个特征语句，提高特征语句确定的准确性，并基于各特征语句和相应的特征属性值，从至少一个特征语句中确定出第一结构化数据，提高结构化数据的生成效率和准确性。
[0081]
实施例四
[0082]
图5是根据本发明实施例四提供的一种数据处理装置的结构示意图。如图5所示，该装置包括：待处理文本获取模块510、目标分类结果确定模块520、特征语句确定模块530和第一结构化数据模块540。
[0083]
其中，待处理文本获取模块510，用于获取非结构化的待处理文本；目标分类结果确定模块520，用于若所述待处理文本为电子文档格式，则确定与每个文字相对应的目标分类结果和相应的分类属性值；特征语句确定模块530，用于基于各目标分类结果和相应的分类属性值，确定与所述待处理文本相对应的至少一个特征语句和相应的特征属性值；第一结构化数据模块540，用于基于各特征属性值，从所述至少一个特征语句中确定出第一结构化数据。
[0084]
本实施例的技术方案，通过获取非结构化的待处理文本；若待处理文本为电子文档格式，则确定与每个文字相对应的目标分类结果和相应的分类属性值；基于各目标分类结果和相应的分类属性值，确定与待处理文本相对应的至少一个特征语句和相应的特征属性值；基于各特征属性值，从至少一个特征语句中确定出第一结构化数据，解决了现有技术中基于模板匹配的方法，将非结构化数据转化为结构化数据，导致结构化数据确定准确性低、效果差的问题，实现了通过根据待处理文本中每个文字所对应的目标分类结果和相应的分类属性值，确定至少一个特征语句，提高特征语句确定的准确性，并基于各特征语句和相应的特征属性值，从至少一个特征语句中确定出第一结构化数据，提高结构化数据的生成效率和准确性。
[0085]
在上述装置的基础上，可选的，所述目标分类结果确定模块520，包括待使用向量确定单元、待使用编码确定单元和目标分类结果确定单元。
[0086]
待使用向量确定单元，用于当检测到所述待处理文本为电子文档格式时，基于待匹配文字与待选择向量之间的映射关系，从预设的字典库中调取与每个文字相对应的待使用向量；
[0087]
待使用编码确定单元，用于对各待使用向量进行特征处理，得到与每个文字相对应的待使用编码；
[0088]
目标分类结果确定单元，用于将各待使用编码输入至预设的文字分类模型中，得到与每个文字相对应的目标分类结果和相应的分类属性值。
[0089]
在上述装置的基础上，可选的，所述特征语句确定模块530，包括待使用分类结果确定单元和特征语句确定单元。
[0090]
待使用分类结果确定单元，用于通过条件随机场从各目标分类结果中确定至少一个待修正分类结果，并对所述至少一个待修正分类结果进行修正，得到与每个文字相对应的待使用分类结果；
[0091]
特征语句确定单元，用于基于各待使用分类结果和相应的分类属性值，确定与所述待处理文本相对应的至少一个特征语句和相应的特征属性值。
[0092]
在上述装置的基础上，可选的，所述第一结构化数据模块540，包括数量确定单元和第一结构化数据确定单元。
[0093]
数量确定单元，用于确定特征属性值大于预设属性阈值的数量；
[0094]
第一结构化数据确定第单元，用于若所述数量大于第一数量阈值，则对所述至少一个特征语句进行排列，得到所述第一结构化数据；或，
[0095]
若所述数量不大于第一数量阈值，则基于预设的标题识别模型对与所述待处理文本相对应的至少一个拆分语句进行处理，得到与所述待处理文本相对应的至少一个目标类别词和相应的类别属性值，并基于各类别属性值，从所述至少一个目标类别词和相应的类别内容中确定出第一结构化数据。
[0096]
在上述装置的基础上，可选的，所述第一结构化数据确定单元，包括拆分语句确定子单元和目标类别词确定子单元。
[0097]
拆分语句确定子单元，用于对所述待处理文本进行语句拆分，得到至少一个拆分语句；其中，所述拆分语句中包括参与预测语句和上下文重复语句；
[0098]
目标类别词确定子单元，用于将所述至少一个拆分语句输入至所述标题识别模型中，得到所述至少一个目标类别词和相应的类别属性值。
[0099]
在上述装置的基础上，可选的，所述第一结构化数据确定单元，包括第一结构化数据确定子单元。
[0100]
第一结构化数据确定子单元，用于若类别属性值大于预设属性值的数量，大于第二数量阈值，则将相邻两个目标类别词之间的文本内容，作为前一个目标类别词的类别内容，并基于各目标类别词和相应的类别内容，确定第一结构化数据；或，
[0101]
若类别属性值大于预设属性值的数量，不大于第二数量阈值，则基于预设拆分规则对所述待处理文本进行拆分，得到至少一个结构化内容，并基于各结构化内容确定第一结构化数据。
[0102]
在上述装置的基础上，可选的，所述装置还包括第二结构化数据确定模块，所述第二结构化数据确定模块包括相似度矩阵确定单元、目标相似度确定单元和第二结构化数据确定单元。
[0103]
相似度矩阵确定单元，用于若所述待处理文本为网页格式，则分别确定至少一个预设标题词与所述待处理文本中各标签词之间的相似度，得到相似度矩阵；
[0104]
目标相似度确定单元，用于基于所述相似度矩阵，确定各标签词所对应的待使用分类结果和相应的目标相似度；其中，所述待使用分类结果与预设标题词相对应；
[0105]
第二结构化数据确定单元，用于基于各目标相似度，从所述各标签词、以及各标签词所对应的待使用分类结果和标签内容中确定出第二结构化数据。
[0106]
在上述装置的基础上，可选的，所述第二结构化数据确定单元包括数量值确定子单元和第二结构化数据确定子单元。
[0107]
数量值确定子单元，用于确定目标相似度大于预设相似度的数量值；
[0108]
第二结构化数据确定子单元，用于若所述数量值大于第三数量阈值，则将各标签词与相应的待使用分类结果和标签内容进行关联，得到第二结构化数据；或，
[0109]
若所述数量值不大于第三数量阈值，则基于预设拆分规则对待处理文本进行拆分，得到至少一个结构化语句，并基于各结构化语句确定第二结构化数据。
[0110]
本发明实施例所提供的数据处理装置可执行本发明任意实施例所提供的数据处理方法，具备执行方法相应的功能模块和有益效果。
[0111]
实施例五
[0112]
图6是实现本发明实施例的数据处理方法的电子设备的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。
[0113]
如图6所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(rom)12、随机访问存储器(ram)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(rom)12中的计算机程序或者从存储单元18加载到随机访问存储器(ram)13中的计算机程序，来执行各种适当的动作和处理。在ram 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、rom 12以及ram 13通过总线14彼此相连。输入/输出(i/o)接口15也连接至总线14。
[0114]
电子设备10中的多个部件连接至i/o接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0115]
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如数据
处理方法。
[0116]
在一些实施例中，数据处理方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由rom 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到ram 13并由处理器11执行时，可以执行上文描述的数据处理方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据处理方法。
[0117]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0118]
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0119]
在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0120]
为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0121]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)、区块链网络和互联网。
[0122]
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务中，存在的管理难度大，业务扩展性弱的缺陷。
[0123]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。
[0124]
上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种应用程序操作方法、装置、电子设备和可读存储介质与流程

一种数据处理方法、装置、电子设备及存储介质与流程

相关文献

最热文献