一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

中医药古籍分词方法、装置、计算机设备及存储介质

2022-11-09 22:43:58 来源:中国专利 TAG:


1.本技术涉及中文分词技术领域,特别是涉及一种中医药古籍分词方法、装置、计算机设备及存储介质。


背景技术:

2.中医药信息化是当前中医药研究的重要内容之一,信息技术是推动中医药信息化建设的坚实力量。在中医药领域,中文分词作为领域文本信息处理的基础,主要有两方面意义,一是为文本翻译、智能问答等任务的实现奠定基础;二是为理解和传播中医药文本提供支持。由于中医药古籍领域文本语言和行文结构的特殊性,中医药古籍文本分词效果整体较差。
3.中文分词是指将句子切分为多个词,即将长序列划分为连续的多个语义独立的短序列,切分规则由词性、用词习惯等多方面因素构成。在中医药领域,文本分词研究较少,如张帆等研究适用于中医医案的分词方案,发现引入中医药领域词典对医案分词有较大帮助,但相较于现代医案,古代医案自动分词性能提升较低;杨海丰等探索适用于中医药文献分词的分词工具,给出了中医药文献分词的较优选择;王莉军等研究适用于中医药古文分词的分词模型,研究发现,bilstm-crf模型的分词效果较优。
4.中医药古籍由古汉语写成,行文结构、语言语义等与现代汉语存在较大差异,加之文本中包含大量虚词、简写词、倒装词、专业术语等,增加了中医古籍分词的难度;同时,不同朝代、不同地域的语言差异还导致中医药古籍分词训练难度大、成本高。中文分词是中文信息处理的重要基础,由于中医药古籍文本语言及行文规则的特殊性,已有的成熟的分词工具无法满足中医药古籍文本信息处理研究的需求。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种中医药古籍分词方法、装置、计算机设备和存储介质。
6.一种中医药古籍分词方法,所述方法包括:
7.获取中医药古籍中待分词文本。
8.构建古今词义对照表、规则表、自定义术语库以及中医药领域术语词典。
9.根据所述古今词义对照表、所述规则表、所述自定义术语库以及所述中医药领域术语词典,采用基于规则的方法将所述待分词文本从古汉语转译为现代汉语,得到翻译后的文本;所述翻译后的文本包括:被翻译词的翻译信息、被翻译词的原始位置信息、被翻译词在古今词义对照表中的序号。
10.采用所述中医药领域术语词典辅助jieba分词工具对翻译后的文本进行分词处理,再利用隐马尔可夫模型解决未登录词问题,得到分词结果。
11.根据所述古今词义对照表和所述规则表将所述分词结果转译为原始文本,得到最终分词文本。
12.在其中一个实施例中,构建古今词义对照表、规则表、自定义术语库以及中医药领域术语词典,包括:
13.收集中医药古籍中关于中药、方剂、证型、疾病、症状、治法、药物炮制方法以及人体的术语,根据收集到的术语构建中医药领域术语词典;所述中医药古籍包括:《常用中药名及别名手册》、《中医临床常见症状术语规范》、《中医大辞典》以及《中医临床诊疗术语》。
14.根据中医药古籍现有译本中的高频译词及注释语,以及网络上的古汉语字词及其翻译和文言虚词及其翻译,构建古今词义对照表;所述古今词义对照表包括:中医药领域术语词典内术语和中医药领域固定词汇。
15.将需要多义词修改的古汉语词汇收录到规则表中,多义词翻译规则为:若需翻译的古汉语的前/后字中出现关键字,则按照关键字对应行的现代汉语进行翻译;若该古汉语的前/后字中未出现关键字,则按该古汉语在所述古今词义对照表中的释义进行翻译;所述关键字源于原始语料。
16.根据所述中医药领域术语词典、书籍名、人名、朝代名以及常用词汇,构建中医药自定义术语库;所述书籍名、所述人名以及所述朝代名是从网络上收集的;所述常用词汇是采用beautifulsoup爬取百度词汇的方式获得的,爬取的内容是需部分修改的汉字的相关组词。
17.在其中一个实施例中,根据所述古今词义对照表、所述规则表、所述自定义术语库以及所述中医药领域术语词典,采用基于规则的方法将所述待分词文本从古汉语转译为现代汉语,包括:
18.根据所述中医药领域术语词典中术语字符串长度从大到小进行排序,得到排序后的中医药领域术语词典。
19.在所述古今词义对照表和排序后的中医药领域术语词典中提取所述待分词文本中需要翻译的词汇及对应位置信息。
20.根据所述古今词义对照表、所述规则表以及所述自定义术语库对提取的需要翻译的词汇进行翻译,得到翻译后的文本;所述翻译后的文本包括:被翻译词的翻译信息、被翻译词的原始位置信息、被翻译词在古今词义对照表中的序号。
21.在其中一个实施例中,根据所述古今词义对照表、所述规则表以及所述自定义术语库对提取的需要翻译的词汇进行翻译,得到翻译后的文本,包括:
22.根据所述古今词义对照表中的古汉语初选需要翻译的词汇。
23.根据所述自定义术语库判断所述需要翻译的词汇是否需要翻译,得到判断结果。
24.若判断结果为不需要翻译时,则不作翻译。
25.若判断结果为需要翻译时,当提取的需要翻译的词汇为需修改的词汇时,如果为多义词修改,则根据所述自定义术语规则表和所述古今词义对照表对提取的需要翻译的词汇进行翻译,得到翻译后的文本;如果为部分修改,则修改不在自定义输入库中的词汇,得到翻译后的文本。
26.在其中一个实施例中,根据所述古今词义对照表和所述规则表将所述分词结果转译为原始文本,得到最终分词文本,包括:
27.当所述分词结果中的翻译词为原词时,则得到最终分词文本;
28.当所述分词结果中的翻译词不为原词时:
29.若翻译词被切分,则去除分割符,再根据所述古今词义对照表和所述规则表对所述分词结果中的翻译词进行转译,得到最终分词文本;
30.若翻译词未被切分,则根据所述古今词义对照表和所述规则表对所述分词结果中的翻译词进行转译,得到最终分词文本。
31.一种中医药古籍分词装置,所述装置包括:
32.数据获取模块,用于获取中医药古籍中待分词文本。
33.翻译用的数据表及规则构建模块,用于构建古今词义对照表、规则表、自定义术语库以及中医药领域术语词典。
34.局部翻译模块,用于根据所述古今词义对照表、所述规则表、所述自定义术语库以及所述中医药领域术语词典,采用基于规则的方法将所述待分词文本从古汉语转译为现代汉语,得到翻译后的文本;所述翻译后的文本包括:被翻译词的翻译信息、被翻译词的原始位置信息、被翻译词在古今词义对照表中的序号。
35.分词模块,用于采用所述中医药领域术语词典辅助jieba分词工具对翻译后的文本进行分词处理,再利用隐马尔可夫模型解决未登录词问题,得到分词结果。
36.还原模块,用于根据所述古今词义对照表和所述规则表将所述分词结果转译为原始文本,得到最终分词文本。
37.在其中一个实施例中,翻译用的数据表及规则构建模块,还用于收集中医药古籍中关于中药、方剂、证型、疾病、症状、治法、药物炮制方法以及人体的术语,根据收集到的术语构建中医药领域术语词典;所述中医药古籍包括:《常用中药名及别名手册》、《中医临床常见症状术语规范》、《中医大辞典》以及《中医临床诊疗术语》;根据中医药古籍现有译本中的高频译词及注释语,以及网络上的古汉语字词及其翻译和文言虚词及其翻译,构建古今词义对照表;所述古今词义对照表包括:中医药领域术语词典内术语和中医药领域固定词汇;将需要多义词修改的古汉语词汇收录到规则表中,多义词翻译规则为:若需翻译的古汉语的前/后字中出现关键字,则按照关键字对应行的现代汉语进行翻译;若该古汉语的前/后字中未出现关键字,则按该古汉语在所述古今词义对照表中的释义进行翻译;所述关键字源于原始语料;根据所述中医药领域术语词典、书籍名、人名、朝代名以及常用词汇,构建中医药自定义术语库;所述书籍名、所述人名以及所述朝代名是从网络上收集的;所述常用词汇是采用beautifulsoup爬取百度词汇的方式获得的,爬取的内容是需部分修改的汉字的相关组词。
38.在其中一个实施例中,局部翻译模块,还用于根据所述中医药领域术语词典中术语字符串长度从大到小进行排序,得到排序后的中医药领域术语词典;在所述古今词义对照表和排序后的中医药领域术语词典中提取所述待分词文本中需要翻译的词汇及对应位置信息;根据所述古今词义对照表、所述规则表以及所述自定义术语库对提取的需要翻译的词汇进行翻译,得到翻译后的文本;所述翻译后的文本包括:被翻译词的翻译信息、被翻译词的原始位置信息、被翻译词在古今词义对照表中的序号。
39.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一所述方法的步骤。
40.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述方法的步骤。
41.上述中中医药古籍分词方法、装置、计算机设备和存储介质,所述方法包括获取中医药古籍中待分词文本;构建古今词义对照表、规则表、自定义术语库以及中医药领域术语词典;根据古今词义对照表、规则表、自定义术语库以及中医药领域术语词典,采用基于规则的方法将待分词文本从古汉语转译为现代汉语,得到翻译后的文本;采用中医药领域术语词典辅助jieba分词工具对翻译后的文本进行分词处理,再利用隐马尔可夫模型解决未登录词问题,得到分词结果;根据古今词义对照表和规则表将分词结果转译为原始文本,得到最终分词文本。采用本方法有效地提高了中医药古籍的分词准确率,缓解了古今语言差异及领域差异造成的分词效果差的问题,为中医数字化建设提供技术支持。
附图说明
42.图1为一个实施例中中医药古籍分词方法的流程示意图;
43.图2为一个实施例中中医药古籍分词方法的技术路线;
44.图3为一个实施例中局部翻译方式流程示意图;
45.图4为一个实施例中中医药古籍分词装置的结构框图;
46.图5为一个实施例中计算机设备的内部结构图。
具体实施方式
47.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
48.本方法先将待分词的中医药古籍文本中的文言文转译为现代汉语,再引入中医药领域术语词典辅助分词的分词策略,以减少因文言文与现代汉语行文、词汇等差异造成的分词错误的发生。
49.在一个实施例中,如图1、图2所示,提供了一种中医药古籍分词方法,该方法应用包括以下步骤:
50.步骤100:获取中医药古籍中待分词文本。
51.具体的,待分词文本是中医药古籍中的文本,是文言文。中医药古籍由古汉语写成,行文结构、语言语义等与现代汉语存在较大差异,加之文本中包含大量虚词、简写词、倒装词、专业术语等,增加了中医古籍分词的难度。
52.步骤102:构建古今词义对照表、规则表、自定义术语库以及中医药领域术语词典。
53.具体的,古今词义对照表和规则表是文本翻译和文本转译的关键。古今词义对照表的词汇来源主要是两方面的:一是网络,包括常见文言文字词及其翻译、文言虚词及其翻译;二是中医药现有译本,包括《黄帝内经》、《伤寒论》等古籍中的高频。规则表收录需“多义词修改”的古汉语词汇,还包括多义词翻译规。古今词义对照表中每一条记录包括:序号、古汉语、现代汉语、修改方式;其中修改方式包括:0表示仅修改句首,1表示修改全部,2表示多义词修改,3表示部分修改,4表示仅修改句末。其中,部分修改表示仅修改不在术语库中的词汇,需多义词修改的古汉语仅列出最常用的翻译规范,其余翻译方案参照规则表。
54.自定义术语库由中医药领域术语词典、书籍名、人名、朝代名、常用词汇等构成。
55.中医药领域术语词典的词汇主要源自《常用中药名及别名手册》、《中医临床常见
症状术语规范》、《中医大辞典》、《中医临床诊疗术语》。
56.步骤104:根据古今词义对照表、规则表、自定义术语库以及中医药领域术语词典,采用基于规则的方法将待分词文本从古汉语转译为现代汉语,得到翻译后的文本;翻译后的文本包括:被翻译词的翻译信息、被翻译词的原始位置信息、被翻译词在古今词义对照表中的序号。
57.具体的,从古汉语到现代汉语转译采用基于规则的方法进行直译,翻译参考留替调补删贯的基本翻译策略,采用留替删的翻译方法,即留下专有词汇、替换单音词/多义词、删除无意义词。具体做法如下:先借助古今词义对照表和中医药领域术语词典提取需翻译的词汇及其位置信息,再根据古今词义对照表、规则表及自定义术语库对提取词进行翻译。考虑到后续转译的需要,翻译的句子还包含被翻译词的原始位置信息,被翻译词在古今词义对照表中的序号。
58.步骤106:采用中医药领域术语词典辅助jieba分词工具对翻译后的文本进行分词处理,再利用隐马尔可夫模型解决未登录词问题,得到分词结果。
59.具体的,分词工具选择jieba 0.42,因为jieba分词的实现方式为先根据自定义词库处理文本分词,再利用隐马尔可夫模型解决未登录词问题(out of vocabulary),可较好的保留相关术语词汇。本发明在分词时还引入了自定义术语库,以进一步提高分词的准确率。
60.步骤108:根据古今词义对照表和规则表将分词结果转译为原始文本,得到最终分词文本。
61.具体的,分词结果是用翻译文本表示的,最终需要将翻译文本转译为原始文本,转译的实现依赖古今词义对照表。在转译时,若出现译文被切分,则保留原始文本,如“没有/地方”还原为“/无所/”。
62.先局部翻译再引入词典辅助分词的分词方法,一定程度上缓解了古今语言差异及领域差异造成的分词效果差的问题。
63.上述中中医药古籍分词方法中,所述方法包括获取中医药古籍中待分词文本;构建古今词义对照表、规则表、自定义术语库以及中医药领域术语词典;根据古今词义对照表、规则表、自定义术语库以及中医药领域术语词典,采用基于规则的方法将待分词文本从古汉语转译为现代汉语,得到翻译后的文本;采用中医药领域术语词典辅助jieba分词工具对翻译后的文本进行分词处理,再利用隐马尔可夫模型解决未登录词问题,得到分词结果;根据古今词义对照表和规则表将分词结果转译为原始文本,得到最终分词文本。采用本方法有效地提高了中医药古籍的分词准确率,缓解了古今语言差异及领域差异造成的分词效果差的问题,为中医数字化建设提供技术支持。
64.在其中一个实施例中,步骤102包括:收集中医药古籍中关于中药、方剂、证型、疾病、症状、治法、药物炮制方法以及人体的术语,根据收集到的术语构建中医药领域术语词典;中医药古籍包括:《常用中药名及别名手册》、《中医临床常见症状术语规范》、《中医大辞典》以及《中医临床诊疗术语》;根据中医药古籍现有译本中的高频译词及注释语,以及网络上的古汉语字词及其翻译和文言虚词及其翻译,构建古今词义对照表;古今词义对照表包括:中医药领域术语词典内术语和中医药领域固定词汇;将需要多义词修改的古汉语词汇收录到规则表中,多义词翻译规则为:若需翻译的古汉语的前/后字中出现关键字,则按照
关键字对应行的现代汉语进行翻译;若该古汉语的前/后字中未出现关键字,则按该古汉语在古今词义对照表中的释义进行翻译;关键字源于原始语料;根据中医药领域术语词典、书籍名、人名、朝代名以及常用词汇,构建中医药自定义术语库;书籍名、人名以及朝代名是从网络上收集的;常用词汇是采用beautifulsoup爬取百度词汇的方式获得的,爬取的内容是需部分修改的汉字的相关组词。
65.具体的,中医药领域术语词典收集各类别具体收词数见表1。
66.表1中医药领域术语词典
67.词典分类收词数词典分类收词数中药2429症状2461方剂917治法1805证型3199药物炮制及服用方法53疾病2035人体466
68.古今词义对照表及规则表是文本翻译和文本转译的关键。古今词义对照表的词汇来源主要有二,一是网络,包括常见文言文字词及其翻译、文言虚词及其翻译;二是中医药现有译本,包括《黄帝内经》、《伤寒论》等古籍中的高频译词及注释词。另外,为保证译文的通顺及后续分词的需要,除保留术语词典中的8类术语外,中医领域固定词汇如“正气”、“营卫”等也未收录至古今词义对照表中。最终,共收集整理145组古今对照组,收录样例如表2所示,表中列“如何修改”,0表示仅修改句首,1表示修改全部,2表示多义词修改,3表示部分修改,4表示仅修改句末。其中,“部分修改”表示仅修改不在术语库中的词汇,需“多义词修改”的古汉语仅列出最常用的翻译规范,其余翻译方案参照规则表。
69.表2古今词义对照表
70.序号古汉语现代汉语如何修改1耳-42方方剂03曰说14之的25素一向3
71.注:
“‑”
表示空
72.规则表收录需“多义词修改”的古汉语词汇,多义词翻译规则如下,若需翻译的古汉语的前/后字中出现“关键字”,则按照关键字对应行的现代汉语进行翻译;若该古汉语的前/后字中未出现“关键字”,则按该古汉语在“古今词义对照表”中的释义进行翻译。其中,“关键字”源于原始语料,具体做法如下:由机器先自动抽取需多义词修改的古汉语的前后各一字,整合并剔除低频词(低频词是指频次小于等于3),再由人工对关键字进行分类,结果示例如表3所示,表中外键表示古汉语在古今词义对照表中的位置。
73.表3规则文件表
74.序号外键古汉语现代汉语关键字14之的职,功,剂,方,甘,品24之-虚,里,法,气,脉,证
34之它吐,治,驱,除,服,主
75.注:以“之”为例,
“‑”
表示空
76.自定义术语库由中医药领域术语词典、书籍名、人名、朝代名、常用词汇等构成,共包含1,4969个词汇(剔除了单字)。其中,书籍名、人名、朝代名等收集自网络;常用词汇以beautifulsoup爬取百度词汇的方式获得,爬取的内容是表2中“需部分修改”的汉字的相关组词。
77.在其中一个实施例中,步骤104包括:根据中医药领域术语词典中术语字符串长度从大到小进行排序,得到排序后的中医药领域术语词典;在古今词义对照表和排序后的中医药领域术语词典中提取待分词文本中需要翻译的词汇及对应位置信息;根据古今词义对照表、规则表以及自定义术语库对提取的需要翻译的词汇进行翻译,得到翻译后的文本;翻译后的文本包括:被翻译词的翻译信息、被翻译词的原始位置信息、被翻译词在古今词义对照表中的序号。局部翻译方式流程如图3所示。
78.在其中一个实施例中,步骤:根据古今词义对照表、规则表以及自定义术语库对提取的需要翻译的词汇进行翻译,得到翻译后的文本,包括:根据古今词义对照表中的古汉语初选需要翻译的词汇;根据自定义术语库判断需要翻译的词汇是否需要翻译,得到判断结果;若判断结果为不需要翻译时,则不作翻译;若判断结果为需要翻译时,当提取的需要翻译的词汇为需修改的词汇时,如果为多义词修改,则根据自定义术语规则表和古今词义对照表对提取的需要翻译的词汇进行翻译,得到翻译后的文本;如果为部分修改,则修改不在自定义输入库中的词汇,得到翻译后的文本。
79.在其中一个实施例中,步骤108包括:当分词结果中的翻译词为原词时,则得到最终分词文本;当分词结果中的翻译词不为原词时:若翻译词被切分,则去除分割符,再根据古今词义对照表和规则表对分词结果中的翻译词进行转译,得到最终分词文本;若翻译词未被切分,则根据古今词义对照表和规则表对分词结果中的翻译词进行转译,得到最终分词文本。
80.应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
81.在一个验证性实施例中,基于jieba分词设计并实现了新的适合中医药古籍分词研究现状的分词方案,为验证分词方案是否可行及文本局部翻译之于中医药古籍分词的效用。
82.首先构建了《删补名医方论》分词标注语料,语料的构建参照人民日报标注语料库和清代医籍分词语料库,由多名中医专业人工分词,词遵守《中医临床诊疗术语》、常见症状规范词遵守《中医临床诊疗术语》、常见症状规范词遵守《中医临床诊疗术语》、常见症状规范等中医学领域标准,依照词性、义和汇结构合理分词,并由专家对分词结果进行交叉校正,保证分词语料中疾病、方剂、中药证型等常用中医药术语的完整性及标注结果准确。词与间以“/”相隔,分词标注样例如下:【/集注/】/罗谦甫/曰/:/汗/、/吐/、/下/解/后/,/邪/
虽/去/而/胃气/已/亏/矣/。/胃气/既/亏/,/三焦/因/之/失职/,/清/无所/归/而/不/升/,/浊/无所/纳/而/不/降/,/是以/邪气/留滞/,/伏饮/为/逆/,/故/心下痞硬/,/噫气/不/除/。
83.以《删补名医方论》分词数据集为测试数据集,设置了4个实验,分别是为原始jieba分词、引入词典的jieba分词、引入局部翻译的jieba分词和引入词典和翻译的jieba分词。
84.表4列出了分词优化路线前后jieba的整体分词效果和术语召回情况,在分词技术路线优化前,jieba的分词性能并不可观,f1值仅51.55%,多出现“以胃/气为/本/”、“治实/热/老/痰/之峻剂/”等问题切分;采用本研究提出的分词方案优化后,“以胃气为本”译为“将胃气作为本”,“治实热老痰之峻剂”译为“治疗实热老痰的峻剂”,在词典仅收录“实热”的情况下,可准确切分为“以/胃气/为/本”,“治/实热/老痰/之/峻剂”。
85.同时,由表4和分词结果可见,仅引入局部翻译的分词方案相较于仅增加词典的方法,更大程度上解决了因古今词汇差异导致的错误切分问题,对f1值的提升有更大的作用;而增加词典,更有助于保证中医药术语的完整性;因而本研究融合了局部翻译和词典的方法,以综合两种方法的优点获取更优的分词效果。
86.至于中医药古籍分词准确率低的原因,一是中医药古籍中包含大量虚词,加之中医药古籍语言简洁、抽象、文本词汇与现代汉语有较大差异,易造成“/丹皮/破血以/逐其/瘀/”、“一/切实/邪”等歧义切分;二是中医药文本倒装、文本缩写等特点突出,如“但头汗出”应为“但头出汗”,“麻黄、桂枝”简写为“麻桂”等,增加了文本分词的难度;三是中医药古籍中包含大量中医药术语,如“心下痞硬”、“附子泻心汤”、“微发汗”等,领域特征突出,直接采用现有分词工具难以准确分词。
87.表4分词路线优化前后的分词结果对照表
88.指标优化前仅加词典仅加翻译词典 翻译p(%)57.1460.9570.9174.22r(%)46.9649.1667.0668.87f1(%)51.5554.4368.9371.45r专(%)70.7181.9273.9984.49
89.在一个实施例中,如图4所示,提供了一种中医药古籍分词装置,包括:数据获取模块、翻译用的数据表及规则构建模块、局部翻译模块、分词模块和还原模块,其中:
90.数据获取模块,用于获取中医药古籍中待分词文本。
91.翻译用的数据表及规则构建模块,用于构建古今词义对照表、规则表、自定义术语库以及中医药领域术语词典。
92.局部翻译模块,用于根据古今词义对照表、规则表、自定义术语库以及中医药领域术语词典,采用基于规则的方法将待分词文本从古汉语转译为现代汉语,得到翻译后的文本;翻译后的文本包括:被翻译词的翻译信息、被翻译词的原始位置信息、被翻译词在古今词义对照表中的序号。
93.分词模块,用于采用中医药领域术语词典辅助jieba分词工具对翻译后的文本进行分词处理,再利用隐马尔可夫模型解决未登录词问题,得到分词结果。
94.还原模块,用于根据古今词义对照表和规则表将分词结果转译为原始文本,得到
最终分词文本。
95.在其中一个实施例中,翻译用的数据表及规则构建模块,还用于收集中医药古籍中关于中药、方剂、证型、疾病、症状、治法、药物炮制方法以及人体的术语,根据收集到的术语构建中医药领域术语词典;中医药古籍包括:《常用中药名及别名手册》、《中医临床常见症状术语规范》、《中医大辞典》以及《中医临床诊疗术语》;根据中医药古籍现有译本中的高频译词及注释语,以及网络上的古汉语字词及其翻译和文言虚词及其翻译,构建古今词义对照表;古今词义对照表包括:中医药领域术语词典内术语和中医药领域固定词汇;将需要多义词修改的古汉语词汇收录到规则表中,多义词翻译规则为:若需翻译的古汉语的前/后字中出现关键字,则按照关键字对应行的现代汉语进行翻译;若该古汉语的前/后字中未出现关键字,则按该古汉语在古今词义对照表中的释义进行翻译;关键字源于原始语料;根据中医药领域术语词典、书籍名、人名、朝代名以及常用词汇,构建中医药自定义术语库;书籍名、人名以及朝代名是从网络上收集的;常用词汇是采用beautifulsoup爬取百度词汇的方式获得的,爬取的内容是需部分修改的汉字的相关组词。
96.在其中一个实施例中,局部翻译模块,还用于根据中医药领域术语词典中术语字符串长度从大到小进行排序,得到排序后的中医药领域术语词典;在古今词义对照表和排序后的中医药领域术语词典中提取待分词文本中需要翻译的词汇及对应位置信息;根据古今词义对照表、规则表以及自定义术语库对提取的需要翻译的词汇进行翻译,得到翻译后的文本;翻译后的文本包括:被翻译词的翻译信息、被翻译词的原始位置信息、被翻译词在古今词义对照表中的序号。
97.在其中一个实施例中,局部翻译模块,还用于根据古今词义对照表中的古汉语初选需要翻译的词汇;根据自定义术语库判断需要翻译的词汇是否需要翻译,得到判断结果;若判断结果为不需要翻译时,则不作翻译;若判断结果为需要翻译时,当提取的需要翻译的词汇为需修改的词汇时,如果为多义词修改,则根据自定义术语规则表和古今词义对照表对提取的需要翻译的词汇进行翻译,得到翻译后的文本;如果为部分修改,则修改不在自定义输入库中的词汇,得到翻译后的文本。
98.在其中一个实施例中,步还原模块,用于当分词结果中的翻译词为原词时,则得到最终分词文本;当分词结果中的翻译词不为原词时:若翻译词被切分,则去除分割符,再根据古今词义对照表和规则表对分词结果中的翻译词进行转译,得到最终分词文本;若翻译词未被切分,则根据古今词义对照表和规则表对分词结果中的翻译词进行转译,得到最终分词文本。
99.关于中医药古籍分词装置的具体限定可以参见上文中对于中医药古籍分词方法的限定,在此不再赘述。上述中医药古籍分词装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
100.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程
序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种中医药古籍分词方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
101.本领域技术人员可以理解,图5中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
102.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
103.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中的步骤。
104.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
105.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
106.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献