基于机器学习的实体识别的制作方法

2023-03-06 05:03:49 来源：中国专利 TAG：

技术特征：
1.一种系统，包括：存储器，被配置为存储用于识别引擎的处理器可执行指令；以及至少一个处理器，被耦合到所述存储器，并且被配置为执行所述处理器可执行以使得所述系统：由所述识别引擎定义要从工作流中的一个或多个文档中被标识的多个基线实体；由所述识别引擎数字化所述一个或多个文档以生成一个或多个对应的文档对象模型；由所述识别引擎通过使用所述一个或多个对应的文档对象模型和带标签文件作为输入来训练模型；以及由所述识别引擎使用所述模型从一个或多个目标文档确定多个目标实体。2.根据权利要求1所述的系统，其中所述识别引擎的一个或多个机器人过程自动化定义所述多个基线实体、数字化所述一个或多个文档、训练所述模型或确定所述多个目标实体。3.根据权利要求1所述的系统，其中所述处理器可执行还使得所述系统：接收所述一个或多个对应的文档对象模型内的感兴趣实体的标记，以获得所述带标签文件。4.根据权利要求3所述的系统，其中所述标记由机器人过程自动化或用户输入提供。5.根据权利要求1所述的系统，其中所述模型实现以特征增强算法构建的自定义命名实体识别框架。6.根据权利要求1所述的系统，其中所述识别引擎通过从一个或多个目标文档中提取或预测所述多个目标实体来确定所述多个目标实体。7.根据权利要求6所述的系统，其中置信度度量被生成以用于提取或预测的实体以触发审查或验证。8.根据权利要求1所述的系统，其中所述识别的特征增强算法或机器人过程自动化实现所述模型的所述训练。9.根据权利要求1所述的系统，其中所述多个目标实体被提供以用于在所述识别引擎的反馈回路中进一步训练所述模型。10.根据权利要求1所述的系统，其中所述一个或多个文档的所述数字化包括标识针对所述一个或多个文档的所述实体的至少行号、字体大小和语言。11.一种方法，包括：由作为由至少一个处理器执行的处理器可执行指令而被存储在存储器上的识别引擎定义要从工作流中的一个或多个文档中被标识的多个基线实体；由所述识别引擎数字化所述一个或多个文档以生成一个或多个对应的文档对象模型；由所述识别引擎通过使用所述一个或多个对应的文档对象模型和带标签文件作为输入来训练模型；以及由所述识别引擎使用所述模型从一个或多个目标文档确定多个目标实体。12.根据权利要求11所述的方法，其中所述识别引擎的一个或多个机器人过程自动化定义所述多个基线实体、数字化所述一个或多个文档、训练所述模型或确定所述多个目标实体。13.根据权利要求11的方法，其中所述方法还包括：
接收所述一个或多个对应的文档对象模型内的感兴趣实体的标记，以获得所述带标签文件。14.根据权利要求13所述的方法，其中所述标记由机器人过程自动化或用户输入提供。15.根据权利要求11所述的方法，其中所述模型实现以特征增强算法构建的自定义命名实体识别框架。16.根据权利要求11所述的方法，其中所述识别引擎通过从一个或多个目标文档中提取或预测所述多个目标实体来确定所述多个目标实体。17.根据权利要求16所述的方法，其中置信度度量被生成以用于提取或预测的实体以触发审查或验证。18.根据权利要求11所述的方法，其中所述识别的特征增强算法或机器人过程自动化实现所述模型的所述训练。19.根据权利要求11所述的方法，其中所述多个目标实体被提供以用于在所述识别引擎的反馈回路中进一步训练所述模型。20.根据权利要求11所述的方法，其中所述一个或多个文档的所述数字化包括标识针对所述一个或多个文档的所述实体的至少行号、字体大小和语言。

技术总结
本文的部分实施例涉及基于机器学习的实体识别。本文公开了一种系统。该系统包括存储器和处理器。存储器存储用于识别引擎的处理器可执行指令。处理器被耦合到存储器。处理器执行处理器可执行以使系统定义要从工作流中的文档中被标识的多个基线实体，并数字化一个或多个文档以生成对应的文档对象模型。识别引擎还使系统通过使用对应的文档对象模型和带标签文件作为输入来训练模型，并使用该模型从目标文档确定多个目标实体。标文档确定多个目标实体。标文档确定多个目标实体。

技术研发人员：R
受保护的技术使用者：尤帕斯公司
技术研发日：2022.08.01
技术公布日：2023/2/6

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：控制方法、追踪系统以及非暂态电脑可读取介质与流程

基于机器学习的实体识别的制作方法

相关文献

最热文献