一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于优化中文分词的系统及方法与流程

2022-04-27 07:25:26 来源:中国专利 TAG:


1.本发明涉及数据处理技术领域,并且更具体地,涉及一种用于优化中文分词的系统及方法。


背景技术:

2.ikanalyzer是一个开源的,基于java语言开发的轻量级的中文分词语言包,只能实现简单的支持简单的分词排歧义处理和数量词合并输出,面对复杂中文信息,实际分词结果很不理想,很多词组无法正确识别分词,导致结果不能有效应用。
3.英文字母、数字、其他字符不能进行有效区分;尤其是中英文词组等多字符类型组合情况,无法进行有效分词。
4.本发明就是要屏蔽现有技术的缺点,按照中文特性,增加中文分词优化工具组件和辅助词典技术,强化了中文语义分析、中文分词、中文检索等功能、自主设计和改进,增强/增加了中文识别、中英混合识别、简称识别、歧义识别等等,提升中文信息智能分词的准确性、完整性和有效性。


技术实现要素:

5.本发明的目的在于屏蔽现有技术的缺点,按照中文特性,增加分词时中文分词优化工具组件和辅助词典技术,强化中文语义分析、中文分词、中文检索等功能、自主设计和改进,增强/增加了中文识别、中英混合识别、简称识别、歧义识别等分词能力,提升中文信息智能分词的准确性、完整性和有效性,而提出了一种用于优化中文分词的系统,包括:
6.辅助词典模块,所述辅助词典模块基于核心词典,并根据业务需求建立辅助词典,通过所述辅助词典对业务中的待识别的词句进行识别,获取识别结果;
7.中文分词优化模块,所述中文分词优化模块,对所述识别结果进行分词。
8.可选的,中文分词优化模块,包括:
9.歧义裁决器以及歧义词元链优化器,所述歧义裁决器以及歧义词元链优化器用于对歧义词句进行分词;
10.英文字符分词优化器,所述英文字符分词优化器用于对所述英文词句进行分词;
11.数字分词优化器,所述数字分词优化器用于对数字词句进行分词;
12.简写分词优化器,所述简写分词优化器用于对简写词句进行分词;
13.特殊格式优化器,所述特殊格式优化器用于对特殊格式词句进行分词。
14.可选的,辅助词典模块包括:
15.核心识别能力扩展单元,所述核心识别能力扩展单元基于核心词典,并根据业务需求建立辅助词典;
16.词典管理工具单元,用于对辅助词典管理;
17.所述管理包括:
18.批量增加、批量删除、主词典管理、停止词典管理、量词词典管理、新增词条、屏蔽
词条、词典检索以及自定义词典。
19.本发明还提出了一种优化中文分词的方法,包括:
20.通过辅助词典模块基于核心词典,并根据业务需求建立辅助词典,通过所述辅助词典对业务中的待识别的词句进行识别,获取识别结果;
21.使用中文分词优化模块,对所述识别结果进行分词。
22.可选的,对所述识别结果进行分词具体包括:
23.通过歧义裁决器以及歧义词元链优化器用于对歧义词句进行分词;
24.通过英文字符分词优化器用于对所述英文词句进行分词;
25.通过数字分词优化器用于对数字词句进行分词;
26.通过简写分词优化器用于对简写词句进行分词;
27.通过特殊格式优化器用于对特殊格式词句进行分词。
28.可选的,方法还包括:
29.通过核心识别能力扩展单元基于核心词典,并根据业务需求建立辅助词典;
30.通过词典管理工具单元对辅助词典管理;
31.所述管理包括:
32.批量增加、批量删除、主词典管理、停止词典管理、量词词典管理、新增词条、屏蔽词条、词典检索以及自定义词典。
33.本发明具有如下优点:
34.1、闭源的中文分词优化算法规则,可根据业务场景实现线性扩展。
35.2、破除了原有技术只有一个核心词典的技术瓶颈,实现多个、不同的辅助词典的自由定制。
36.3、相关组件低耦合性封装,对集成系统没有环境要求。
37.本发明弥补了现有中文分词工具多方面的不足,通过中文分词优化算法规则,辅助词典技术,以及按场景的线性动态配置定制,提升了中文分词准确性、完整性和有效性的同时增强了相关组件工具的配置扩展性,为中文分词操作提供一种安全可靠的通用解决方案/方法。
附图说明
38.图1为本发明系统的结构图;
39.图2为本发明方法的流程图。
具体实施方式
40.现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
41.除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其
71.真歧义:真歧义是最难以区分的,包括我们人类若没有上下文语境的判断和知识积累,也很难正确的分词。例如“武汉市长江大桥”就可以分为“武汉_市长_江大桥”或者“武汉市_长江大桥”。
72.分词颗粒问题:“中国人民解放军”可以是一个词,也可以是“中国人民解放军”在不同的应用情景下,分词颗粒度是完全不同的。分词颗粒度的不同,造成语义的完全不同。
73.分词具有领域性:在医药、化工领域的中文表达方式和文字特点与其他领域完全不同,互联网网友的用词方式跟其他领域完全不同。
74.总的来说要想完美解决所有问题,那么需要海量词库才能解决,我们站在业务和应用的角度上出发来解决此事要简单得多。
75.因此,我们只需要以各业务词库为依据按中文从左到右的方式为基准,来进行复合识别。
76.英文字符分词优化器;
77.此项优化器主要针对英文字符,在原工具的基础上对英文字符分词进行优化,增加“忽略大小写”、“允许少量错误字母”、“多空格分隔”、“无空格衔接”等等的分词优化和识别能力。
78.数字分词优化器;
79.此项优化器主要针对阿拉伯数字,在原工具的基础上对数字字符分词进行优化,增加“中文 数字”、“英文 数字”、“简写 数字”、“xx 空格 数字”等等的分词优化和识别能力。
80.简写分词优化器;
81.此项主要针对简写分词进行优化和识别,此项为新增项。
82.增加对“ip(iphone)”、“喜大普奔(喜出望外、大快人心、普天同庆、奔走相告)”诸如此类的简写支持。
83.特殊格式优化器;
84.此项主要针对特殊格式的分词进行优化和识别,此项为新增项。
85.在没有此优化器的情况下,特殊格式的分词会被拆分成很散且无意义的分词,例如:“三星galaxys4”,分词会被拆分成“三星”、“galaxys”、“4”,而正确的分词应该是:“三星”、“galaxy”、“s4”。
86.辅助词典模块,具体功能如下:
87.此项为对原核心词典的扩展,在原开源工具中,核心词典只能有一个,这不符合业务特性和系统要求,对分业务精确分类产生了困扰。
88.因此本功能是在核心词典的基础上进行扩展,使得各个业务能拥有自己的核心词典、辅助词典、过滤词典等。
89.并且辅助词典的内容能自动丰富原核心词典,用来提升核心识别能力。
90.核心识别能力扩展单元,具体功能如下;
91.辅助词典的内容能自动丰富原核心词典,用来提升核心识别能力。
92.词典管理工具单元,具体功能如下;
93.对词典增加部分常用api,用来管理词典。例如:批量增加、批量删除、主词典管理、停止词典管理、量词词典管理、新增词条、屏蔽词条、词典检索、自定义词典等等。
94.本发明还提出了一种优化中文分词的方法,如图2所示,包括:
95.通过辅助词典模块基于核心词典,并根据业务需求建立辅助词典,通过所述辅助词典对业务中的待识别的词句进行识别,获取识别结果;
96.使用中文分词优化模块,对所述识别结果进行分词。
97.其中,对所述识别结果进行分词具体包括:
98.通过歧义裁决器以及歧义词元链优化器用于对歧义词句进行分词;
99.通过英文字符分词优化器用于对所述英文词句进行分词;
100.通过数字分词优化器用于对数字词句进行分词;
101.通过简写分词优化器用于对简写词句进行分词;
102.通过特殊格式优化器用于对特殊格式词句进行分词。
103.其中,通过核心识别能力扩展单元基于核心词典,并根据业务需求建立辅助词典;
104.通过词典管理工具单元对辅助词典管理;
105.所述管理包括:
106.批量增加、批量删除、主词典管理、停止词典管理、量词词典管理、新增词条、屏蔽词条、词典检索以及自定义词典。
107.本发明具有如下优点:
108.1、闭源的中文分词优化算法规则,可根据业务场景实现线性扩展。
109.2、破除了原有技术只有一个核心词典的技术瓶颈,实现多个、不同的辅助词典的自由定制。
110.3、相关组件低耦合性封装,对集成系统没有环境要求。
111.本发明弥补了现有中文分词工具多方面的不足,通过中文分词优化算法规则,辅助词典技术,以及按场景的线性动态配置定制,提升了中文分词准确性、完整性和有效性的同时增强了相关组件工具的配置扩展性,为中文分词操作提供一种安全可靠的通用解决方案/方法。
112.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言java和直译式脚本语言javascript等。
113.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
114.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或
多个方框中指定的功能。
115.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
116.尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
117.显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献