通讯录已有联系人的人名抽取方法与流程

2022-07-23 09:57:06 来源：中国专利 TAG：

1.本发明涉及通信技术领域，具体为通讯录已有联系人的人名抽取方法。

背景技术：

2.通讯录是互联网用户管理联系人信息的基本工具，当今的通讯录可以涵盖多项内容。如：姓名、电话号码、单位电话、移动电话、传真号、电子邮件、qq、msn、个人主页、公司、街道、邮编、生日、大头贴、车牌、银行账号、俱乐部名称、爱好等等。通讯录中的联系人姓名，是一种应用广泛的基础数据，可用于自动抽取人名、自动搜索人名、收发消息自动生成姓名等领域。但用户保存通讯录联系人信息的时候，往往输入不规范、不标准的联系人姓名，导致自动提取人名不精准。因此需要一种通讯录已有联系人的人名抽取方法。

技术实现要素：

3.本发明的目的在于提供了通讯录已有联系人的人名抽取方法，达到解决上述背景技术中提出的问题的目的。
4.为实现上述目的，本发明提供如下技术方案：通讯录已有联系人的人名抽取方法，包括以下步骤：
5.s1：先创建信息抽取系统；
6.s2：向信息抽取系统内录入相关信息；
7.s3：识别姓氏；
8.s4：抽取姓氏后，进行检验；
9.s5：输出结果。
10.优选的，所述信息抽取系统内包括存储单元、采集单元、选取单元、抽取单元，存储单元包括创建模块、录入模块、存储模块，创建模块的信号输出端与录入模块的信号接收端连接，录入模块的信号输出端与存储模块的信号接收端连接。
11.优选的，所述采集单元包括收集模块、分类模块、复查模块，收集模块的信号输出端与分类模块的信号接收端连接，分类模块的信号输出端与复查模块的信号接收端连接。
12.优选的，所述选取单元包括识别模块一、识别模块二、识别模块三，识别模块一的信号输出端与识别模块二的信号接收端连接，识别模块二的信号输出端与识别模块三的信号接收端连接。
13.优选的，所述抽取单元包括抽取模块、检测模块、数据反馈，抽取模块的信号输出端与检测模块的信号接收端连接，检测模块的信号输出端与数据反馈的信号接收端连接。
14.优选的，所述收集模块是对通讯录联系人的名字文本进行收集，通讯录包括手机通讯录、邮箱通讯录、即时通讯软件通讯录、客户关系管理系统通讯录，分类模块是对收集模块中收集的名字文本中的单字进行分词，复查模块是对分类模块中分词过后的结果进行复核。
15.优选的，所述识别模块一是对不可单独成词的连体多个姓数据集、不可单独成词
的单个姓数据集进行识别，识别模块二是对可单独成词的连体多个姓数据集、可单独成词的单个姓数据集进行识别，识别模块三用于对混合连体多个姓数据集进行识别。
16.优选的，所述抽取模块是对选取单元中的结果进行抽取，检测模块是对抽取模块的结果进行再次检验是否正确，数据反馈是将检测过后的结果进行输出。
17.本发明提供了通讯录已有联系人的人名抽取方法。具备以下有益效果：本发明在抽取单元中，由抽取模块对选取单元中的结果进行抽取，然后通过检测模块对抽取模块的结果进行再次检验是否正确，正确的话由数据反馈将检测过后的结果进行输出，错误的话再由识别模块一、识别模块二、识别模块三进行重新识别，进一步保证了识别结果的正确性。
附图说明
18.图1为本发明的步骤图；
19.图2为本发明的系统图。
具体实施方式
20.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。
21.所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
22.在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。
23.在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。
24.如图1-2所示，本发明提供一种技术方案：通讯录已有联系人的人名抽取方法，包括以下步骤：
25.s1：先创建信息抽取系统；
26.s2：向信息抽取系统内录入相关信息；
27.s3：识别姓氏；
28.s4：抽取姓氏后，进行检验；
29.s5：输出结果。
30.信息抽取系统内包括存储单元、采集单元、选取单元、抽取单元，存储单元包括创建模块、录入模块、存储模块，创建模块的信号输出端与录入模块的信号接收端连接，录入
模块的信号输出端与存储模块的信号接收端连接，采集单元包括收集模块、分类模块、复查模块，收集模块的信号输出端与分类模块的信号接收端连接，分类模块的信号输出端与复查模块的信号接收端连接，选取单元包括识别模块一、识别模块二、识别模块三，识别模块一的信号输出端与识别模块二的信号接收端连接，识别模块二的信号输出端与识别模块三的信号接收端连接，抽取单元包括抽取模块、检测模块、数据反馈，抽取模块的信号输出端与检测模块的信号接收端连接，检测模块的信号输出端与数据反馈的信号接收端连接，收集模块是对通讯录联系人的名字文本进行收集，通讯录包括手机通讯录、邮箱通讯录、即时通讯软件通讯录、客户关系管理系统通讯录，分类模块是对收集模块中收集的名字文本中的单字进行分词，复查模块是对分类模块中分词过后的结果进行复核，识别模块一是对不可单独成词的连体多个姓数据集、不可单独成词的单个姓数据集进行识别，识别模块二是对可单独成词的连体多个姓数据集、可单独成词的单个姓数据集进行识别，识别模块三用于对混合连体多个姓数据集进行识别。
31.数据库群包括《姓氏词语库群》、《称呼库群》、《字词库群》、《包含姓氏的专用词库群》、《招呼问候礼貌用语库》。
32.《姓氏词语库群》包括《不可单独成词的姓氏数据库》、《可单独成词的姓氏数据库》、《不可作名字的禁忌词库》、《姓氏库》。
33.《称呼库群》包括《人名称呼库》、《职称职位职务称呼库》、《常规称呼库》、《web联系人名称库》、《联系人名称词数据库》、《联系人名称前缀后缀装饰词数据库》。
34.《字词库群》包括《姓氏判断动词库》、《姓氏连词库》、《非姓氏的单字库》、《非姓氏的常规字库》、《标点符号库》、《中文名词库》、《不可单独成词的单字库》。
35.《包含姓氏的专用词库群》包括《包含姓氏的姓名前缀词数据库》、《包含姓氏的姓名后缀词数据库》、《包含姓氏的机构名称库词语》、《包含姓氏的机构部门称呼词语数据库》、《包含姓氏的行业专业术语数据库》、《包含姓氏的特别字词数据库》、《包含姓氏的商标名称词语数据库》、《包含姓氏的企业名称词语数据库》、《包含姓氏的地名数据库》、《包含姓氏的短语库》、《包含姓氏的商品名数据库》、《包含姓氏的成语数据库》、《包含姓氏的俗语谚语数据库》、《包含姓氏的词语数据库》、《包含姓氏的诗词库》、《包含姓氏的文艺作品名称数据库》、《包含姓氏的方言口头禅词库》、《包含姓氏的网络热词库》、《包含姓氏的绰号外号数据库》、《名人姓名库》。
36.抽取分词数据集中的姓氏，获得姓氏数据集。具体方法如下：第㈠步：根据预先创建的专用数据库群中的《姓氏库》和《包含姓氏的专用词库》，从分词数据集中，检索匹配抽取并删除包含姓氏的专用词，检索匹配抽取分词数据集中剩余的姓氏，汇总成【第一姓氏数据集】。第㈡步：根据预先创建的专用数据库群中《姓氏词语库》中的《不可单独成词的姓氏数据库》和《可单独成词的姓氏数据库》，分别检索匹配抽取【第一姓氏数据集】中的不可单独成词的姓氏和可单独成词的姓氏，并分别汇总成【不可单独成词的姓氏数据集】和【可单独成词的姓氏数据集】。第㈢步：根据【不可单独成词的姓氏数据集】，检索匹配抽取文本中的【连体多个姓】，获得【不可单独成词的连体多个姓数据集】和【不可单独成词的单个姓数据集】；根据【可单独成词的姓氏数据集】，检索匹配抽取文本中的【连体多个姓】，获得【可单独成词的连体多个姓数据集】和【可单独成词的单个姓数据集】；根据【不可单独成词的姓氏数据集】和【可单独成词的姓氏数据集】、预先创建的专用数据库群中的《姓氏库》，检索匹配
抽取文本中同时包含【可单独成词的姓氏】和【不可单独成词的姓氏】的【连体多个姓】，获得【混合连体多个姓数据集】。所述【连体多个姓】是指：2个及2个以上姓氏文字序列的相连组合。所述姓氏文字字数的计算规则为，单字姓和超过一个字的复姓和多字姓，均算一个字。根据【不可单独成词的姓氏数据集】，检索匹配抽取文本中的【连体多个姓】，获得【不可单独成词的连体多个姓数据集】和【不可单独成词的单个姓数据集】。根据预先创建的专用数据库群中的《姓氏库》，检索匹配抽取文本中前后相连文字均为非姓氏文字的姓氏，汇总为【不可单独成词的单个姓数据集】。根据预先创建的专用数据库群中的《姓氏库》，检索匹配抽取文本中由2个及2个以上相连姓氏文字的文字组合，汇总为【不可单独成词的连体多个姓数据集】。根据【可单独成词的姓氏数据集】，检索匹配抽取文本中的【连体多个姓】，获得【可单独成词的连体多个姓数据集】和【可单独成词的单个姓数据集】。根据预先创建的专用数据库群中的《姓氏库》，检索匹配抽取文本中前后相连文字均为非姓氏文字的姓氏，汇总为【可单独成词的单个姓数据集】。根据预先创建的专用数据库群中的《姓氏库》，检索匹配抽取文本中由2个及2个以上相连姓氏文字的文字组合，汇总为【可单独成词的连体多个姓数据集】。根据【不可单独成词的姓氏数据集】和【可单独成词的姓氏数据集】、预先创建的专用数据库群中的《姓氏库》，检索匹配抽取文本中同时包含【可单独成词的姓氏】和【不可单独成词的姓氏】的【连体多个姓】，获得【混合连体多个姓数据集】。
37.根据【不可单独成词的单个姓数据集】，抽取文本中的人名。具体方法如下：第㈠步：根据预先创建的专用数据库群中的《不可作名字的禁忌词库》，遍历检测文本中不可单独成词的单个姓氏文字的后面，有无相连的【不可作名字的禁忌词】。有的，排除该姓氏加后面相连文字组合成名字；无的部分，进入到第㈡步。第㈡步:按照7个不可单独成词的单个姓的推理计算人名规则，循环推测计算出人名。规则一：遍历检测不可单独成词的单个姓氏文字的后面，是否只有相连的【1个或2个中文汉字】。如有，确定这些姓氏加上相连后面的1个或2个中文汉字，为人名。规则二：遍历检测不可单独成词的单个姓氏文字的后面，是否有相连的【1个或2个中文汉字】以及后面相连的【标点符号或表情符号或阿拉伯数字或英文或空格】。如有，确定这些姓氏加上相连后面的1个或2个中文汉字，为人名。规则三：遍历检测不可单独成词的单个姓氏文字后面相连的第2或第3个中文汉字中，是否有文字【的】，或文字【的】及其后面相连的【名词】。如有，确定这些姓氏加上姓氏和【的】之间的中文汉字，为人名。规则四：根据预先创建的专用数据库群中的《称呼库》和《招呼问候礼貌用语库》，遍历检测不可单独成词的单个姓氏文字后面相连的第2或第3个中文汉字，是否可以与其后面相连的中文汉字组合成【称呼】词组或【招呼问候礼貌】用语。如有，确定这些姓氏加上姓氏和【称呼】词组或【招呼问候礼貌用语】之间的中文汉字，为人名。规则五：根据预先创建的专用数据库群中的《姓氏判断动词库》和《姓氏连词库》，遍历检测不可单独成词的单个姓氏文字后面相连的第2或第3个中文汉字，是否【姓氏判断动词】或【姓氏连词】，或是否可以与其后面相连的中文汉字组合成【姓氏判断动词】或【姓氏连词】。如有，确定这些姓氏加上姓氏和【姓氏判断动词】或【姓氏连词】之间的中文汉字，为人名。规则六：根据预先创建的专用数据库群中的《不可单独成词的单字库》，遍历检测不可单独成词的单个姓氏文字后面相连的第1和第2个中文汉字，是否为【不可单独成词的单字】，或不可单独成词的单个姓氏文字后面相连的第1和第2个和第3个中文汉字，是否为【不可单独成词的单字】。如是，确定这些姓氏加上其后面相连的第1和第2个中文汉字，或这些姓氏加上其后面相连的第1和第2个和第3个
中文汉字，为人名。规则七：遍历检测不可单独成词的单个姓氏文字后面，是否相连超过2个中文汉字，且不符合规则一、规则二、规则三、规则四、规则五、规则六所述的文字组合模式。如是，首先抽取这些姓氏所在的单句；然后组合【姓氏加上相连后面的第一个中文汉字】和【姓氏加上相连后面的第一个及第二个中文汉字】和【姓氏加上相连后面的第一个及第二个中文汉字及第三个中文汉字】为三种假设人名，采用3个依存句法人名分析方法，遍历推测计算三种假设人名是否为人名。方法一：三种假设人名，如做主语，句子是否合法。如合法，确定为人名。方法二：三种假设人名，如做宾语，句子是否合法。如合法，确定为人名。方法三：三种假设人名，如做定语，句子是否合法。如合法，确定为人名。
38.根据【不可单独成词的连体多个姓数据集】，抽取文本中的人名。具体方法如下：如不可单独成词的连体多个姓为2个，确定第1个不可单独成词的姓为实际的姓，第2个不可单独成词的姓为名。如不可单独成词的连体多个姓为3个，确定第1个不可单独成词的姓为实际的姓，第2个和第3个不可单独成词的姓共同为名。如不可单独成词的连体多个姓为4个，默认为非法，不予处理。
39.根据【可单独成词的单个姓数据集】，抽取文本中的人名。具体方法如下：第㈠步：按照2个规则，删除【可单独成词的单个姓数据集】中不合法的姓氏。规则一：根据预先创建的专用数据库中的《不可作名字的禁忌词库》，遍历检测文本中可单独成词的单个姓氏文字的后面，有无相连的【不可作名字的禁忌词】。有的，排除该姓氏加后面相连文字组合成名字。规则二：根据预先创建的专用数据库中的《姓氏短语库》，遍历检测文本中可单独成词的单个姓氏文字的前后相连的中文汉字，是否可组成姓氏短语。如可以，排除该姓氏加后面相连文字组合成名字。
40.第㈡步:按照7个可单独成词的单个姓的推理计算人名规则，循环推测计算出人名。规则一：遍历检测可单独成词的单个姓氏文字的后面，是否只有相连的【1个或2个中文汉字】。如有，确定这些姓氏加上相连后面的1个或2个中文汉字，为人名。规则二：遍历检测可单独成词的单个姓氏文字的后面，是否有相连的【1个或2个中文汉字】以及后面相连的【标点符号或表情符号或阿拉伯数字或英文或空格】。如有，确定这些姓氏加上相连后面的1个或2个中文汉字，为人名。规则三：遍历检测可单独成词的单个姓氏文字后面相连的第2或第3个中文汉字中，是否有文字【的】，或文字【的】及其后面相连的【名词】。如有，确定这些姓氏加上姓氏和【的】之间的中文汉字，为人名。规则四：根据预先创建的专用数据库中的《称呼库》和《招呼问候礼貌用语库》，遍历检测可单独成词的单个姓氏文字后面相连的第2或第3个中文汉字，是否可以与其后面相连的中文汉字组合成【称呼】词组或【招呼问候礼貌】用语。如有，确定这些姓氏加上姓氏和【称呼】词组或【招呼问候礼貌】用语之间的中文汉字，为人名。规则五：根据预先创建的专用数据库中的《姓氏判断动词库》和《姓氏连词库》，遍历检测可单独成词的单个姓氏文字后面相连的第2或第3个中文汉字，是否【姓氏判断动词】或【姓氏连词】，或是否可以与其后面相连的中文汉字组合成【姓氏判断动词】或【姓氏连词】。如有，确定这些姓氏加上姓氏和【姓氏判断动词】或【姓氏连词】之间的中文汉字，为人名。规则六：根据预先创建的专用数据库中的《可单独成词的单字库》，遍历检测可单独成词的单个姓氏文字后面相连的第1和第2个中文汉字，是否为【不可单独成词的单字】，或可单独成词的单个姓氏文字后面相连的第1和第2个和第3个中文汉字，是否为【不可单独成词的单字】。如是，确定这些姓氏加上不后面相连的第1和第2个中文汉字，或这些姓氏加上其后面
相连的第1和第2个和第3个中文汉字，为人名。规则七：遍历检测可单独成词的单个姓氏文字后面，是否相连超过2个中文汉字，且不符合规则一、规则二、规则三、规则四、规则五、规则六所述的文字组合模式。如是，首先抽取这些姓氏所在的单句；然后组合【姓氏加上相连后面的第一个中文汉字】和【姓氏加上相连后面的第一个及第二个中文汉字】和【姓氏加上相连后面的第一个及第二个中文汉字及第三个中文汉字】为三种假设人名，采用3个依存句法人名分析方法，遍历推测计算三种假设人名是否为人名。方法一：三种假设人名，如做主语，句子是否合法。如合法，确定为人名。方法二：三种假设人名，如做宾语，句子是否合法。如合法，确定为人名。方法三：三种假设人名，如做定语，句子是否合法。如合法，确定为人名。
41.根据【可单独成词的连体多个姓数据集】，抽取文本中的人名。具体方法如下：如可单独成词的连体多个姓为2个，确定第1个可单独成词的姓为实际的姓，第2个可单独成词的姓为名。如可单独成词的连体多个姓为3个，确定第1个不可单独成词的姓为实际的姓，第2个和第3个可单独成词的姓共同为名。如可单独成词的连体多个姓为4个以上，按照【姓名加相连后面的1个姓】、【姓名加相连后面的2个姓】、【姓名加相连后面的3个姓】的规则，穷举组合，汇总为【假设人名数据集】。采用3个依存句法人名分析方法，遍历推测计算【假设人名数据集】中的所有假设人名是否为人名。方法一：三种假设人名，如做主语，句子是否合法。如合法，确定为人名。方法二：三种假设人名，如做宾语，句子是否合法。如合法，确定为人名。方法三：三种假设人名，如做定语，句子是否合法。如合法，确定为人名。
42.根据【混合连体多个姓数据集】，抽取文本中的人名。具体方法如下：如混合连体多个姓为2个，确定第1个姓为实际的姓，第2个姓为名。如混合连体多个姓为3个，确定第1个姓为实际的姓，第2个和第3个姓共同为名。如混合连体多个姓为4个以上，按照【姓名加相连后面的1个姓】、【姓名加相连后面的2个姓】、【姓名加相连后面的3个姓】的规则，穷举组合，汇总为【假设人名数据集】。采用3个依存句法人名分析方法，遍历推测计算【假设人名数据集】中的所有假设人名是否为人名。方法一：三种假设人名，如做主语，句子是否合法。如合法，确定为人名。方法二：三种假设人名，如做宾语，句子是否合法。如合法，确定为人名。方法三：三种假设人名，如做定语，句子是否合法。如合法，确定为人名。
43.在使用时，通过设置存储单元，通过创建模块进行创建专用数据库群，通过录入模块，将手机中具有通讯录的软件信息写入数据库群中，通过存储模块对这些数据进行存储，然后在采集单元中，通过收集模块对通讯录联系人的名字文本进行收集，通讯录包括手机通讯录、邮箱通讯录、即时通讯软件通讯录、客户关系管理系统通讯录，然后通过分类模块对收集模块中收集的名字文本中的单字进行分词，通过复查模块对分类模块中分词过后的结果进行复核，如若出现错误，由再次分类模块重新进行分词，从而方便对手机中的联系人进行抽取，通过设置选取单元，通过识别模块一对不可单独成词的连体多个姓数据集、不可单独成词的单个姓数据集进行识别，识别模块二对可单独成词的连体多个姓数据集、可单独成词的单个姓数据集进行识别，识别模块三对混合连体多个姓数据集，在抽取单元中，由抽取模块对选取单元中的结果进行抽取，然后通过检测模块对抽取模块的结果进行再次检验是否正确，正确的话由数据反馈将检测过后的结果进行输出，错误的话再由识别模块一、识别模块二、识别模块三进行重新识别，进一步保证了识别结果的正确性。
44.综上可得，尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员
而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于语义的夜光遥感影像高分辨率重建方法

通讯录已有联系人的人名抽取方法与流程

相关文献

最热文献