一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于语音识别的建筑运维工单自动填写系统及方法与流程

2022-02-22 06:25:45 来源:中国专利 TAG:


1.本发明属于人工智能技术领域,尤其涉及一种基于语音识别的建筑运维工单自动填写方法及系统。


背景技术:

2.本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
3.在建筑运维领域,普通用户在发起工单时,需要通过电脑或手机等终端,在工单系统中手动填写至少以下字段:故障设备名称、位置及故障状态描述,效率较低。为增强用户体验,提高工单填报效率,目前已有工单系统提供了语音填报功能,但是,这些系统大多不含听写转义功能,这种填报方式智能化程度低,往往需要专门的岗位,人工将用户报修的语音文本转换为结构化表单数据,增加了人力成本和调度时间成本。虽然极少部分产品具有语音报修并自动转化成文本方式来描述报修故障,并上传语音附件,但对于维修管理人员来说,仅作为报修故障信息复核所用。
4.对于医院这样的特殊行业,医护人员在报修过程中往往没有时间或在有菌环境中详细填写复杂的工单表单中的不同字段,因此对工单填报的效率和准确性具有很高的要求。尽管目前已经提出了基于语音识别的工单自动生成方法,但是,现有的此类方法多是提出了一种解决思路,例如通过命名实体识别方法进行工单内容的识别,但没有结合具体应用场景,如医院建筑运维这一复杂领域的工单内容识别,医院建筑运维领域存在运维对象数量多、种类多、描述方式多样等特点;工单内容识别的精确度也有待提高。


技术实现要素:

5.为克服上述现有技术的不足,本发明提供了一种基于语音识别的建筑运维工单自动填写方法及系统。将用户的报修语音描述转化成大段文本,通过构建各类工单中每个表单项与目标关键词类型之间的映射关系,结合语义分析,能够从整段故障描述中提取出上述关键字段信息,并自动进行结构化表单填写,形成结构化工单数据,利于后续数据归集整理和分析。
6.为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
7.一种基于语音识别的建筑运维工单自动填写方法,预先构建各类工单中每个表单项与目标关键词类型之间的映射关系,所述方法包括以下步骤:
8.获取语音数据,并将所述语音数据转换为文本数据;
9.对所述文本数据进行关键词识别,并确定关键词类型;
10.根据相应工单的表单映射模型,将识别的关键词与表单项进行匹配,并进行数据校验,若匹配成功且校验通过,则进行自动填写。
11.进一步地,对所述文本数据进行关键词识别,并确定关键词类型包括:
12.对所述文本数据进行分词,得到分词集合;
13.基于预构建的建筑运维专业词库进行关键词识别,得到待维修对象和报修描述关键词;
14.对剩余分词进行语义分析,确定属于指定目标类型的关键词,所述指定目标类型即表单项中所需类型。
15.进一步地,若存在不能识别的分词,通过语义分析或人工确定其所属类型,并扩充至建筑运维专业词库。
16.进一步地,若存在表单项没有匹配到关键词,则根据所述表单项的字符类型和所需关键词类型,对所述文本数据进行二次匹配。
17.进一步地,所述建筑运维专业词库生成方法包括:
18.基于预构建的建筑运维基础词库,对语料进行分词处理,得到分词集合;
19.对分词进行语义及词性分析,判断是否属于建筑运维领域词汇,将新识别的词汇加入建筑运维基础词库,生成建筑运维专业词库。
20.一个或多个实施例提供了一种基于语音识别的建筑运维工单自动填写系统,包括:
21.表单映射模型管理模块,用于管理各类工单中每个表单项与目标关键词类型之间的映射关系;
22.语音识别模块,用于获取语音数据,并将所述语音数据转换为文本数据;
23.关键词识别模块,用于对所述文本数据进行关键词识别,并确定关键词类型;根据相应工单的表单映射模型,将识别的关键词与表单项进行匹配,并进行数据校验,若匹配成功且校验通过,则进行自动填写。
24.进一步地,还包括:工单表单项管理模块,用于管理各类工单的表单项结构。
25.进一步地,还包括:
26.语料采集模块,用于获取历史工单填报信息;
27.词库构建模块,用于根据语料进行分词和分类处理,生成建筑运维专业词库。
28.进一步地,还包括:数据库管理模块,用于管理分词表、日志记录表、分词分类表和消息存储表。
29.进一步地,还包括:词库扩充模块,用于获取关键词识别模块不能识别的分词,通过语义分析或人工确定其所属类型,并扩充至建筑运维专业词库。
30.以上一个或多个技术方案存在以下有益效果:
31.通过识别关键词类别,以及构建各类工单中每个表单项与目标关键词类型之间的映射关系,能够实现工单的快速填写;
32.在进行关键词识别和类型识别过程中,首先通过对文本数据语义分析匹配目标类型,然后根据目标类型再对文本数据二次匹配,通过双向匹配,保证了关键词识别的准确性,且不易发生遗漏,节省了后续人工的工作量;
33.通过本技术的工单内容识别方法,能够收集大量设备故障信息,为后续对故障设备类型、设备位置、设备故障、维修手段等数据进行大数据分析,提供了数据基础。
附图说明
34.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示
意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
35.图1为本发明一个或多个实施例中基于语音识别的建筑运维工单自动填写方法流程图;
36.图2为本发明一个或多个实施例中基于语音识别的建筑运维工单自动填写系统框架图。
具体实施方式
37.应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
38.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
39.在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
40.实施例一
41.本实施例公开了一种基于语音识别的建筑运维工单自动填写系统,包括:
42.语料采集模块,用于获取历史工单填报信息,具体地,在每次接收到填报的工单时,均将填报信息存储至队列。
43.词库构建模块,用于根据语料进行分词和分类处理,生成建筑运维专业词库。具体地,所述建筑运维分词提取包括以下步骤:
44.(1)基于建筑运维领域专业知识构建词库分类;
45.(2)基于预构建的建筑运维基础词库,对语料进行分词处理,并去除停用词,得到分词集合;
46.(3)根据分词集合,结合同义词表,进行词汇扩展,得到针对同一关键词的不同表达;
47.(4)对分词进行语义及词性分析,判断是否属于建筑运维领域词汇。作为一种实现方式,可以结合词典中语义和分词的词性进行判断。
48.词库扩充模块,用于获取关键词识别模块不能识别的词,对该词进行分析,确定其所述类别。
49.具体地,该模块包括自动扩充以及手动扩充两部分组成。在分词过程中发现新词时,系统将词条存入数据库中,并记录该新词出现的频率。对新词的处理方式有两种:手动处理和自动处理。手动处理的方式为管理员可以手动设置新词的分类信息及同义词;自动处理的方式为:首先,系统会识别当前词的词义、词性等信息,根据词义等信息自动对当前词语进行分类。
50.数据库管理模块,采用关系型数据库管理系统(mysql),包括分词表、日志记录表、分词分类表和消息存储表。其中,所述分词表用于存储建筑运维分词。所述日志记录表用于对每次分词的情况进行记录,包括每次分词所基于的语料、分词结果、分词时间,以及未分词成功的语段等。所述分词分类表用于对同一关键词不同表达的统一词进行记录,例如pc
机、电脑、显示器等表达统一为电脑。消息存储表采用消息队列的形式,用于记录表单自动填写和发送情况,例如某表单已自动填写并发送至某运维人员,未能自动填写并发送至管理员。
51.工单表单项管理模块,用于管理各类工单的表单项结构,表单结构可以包括报修设备、报修位置、报修人员、报修电话、报修科室等表单项,并定义各表单项的数据类型及位数,如文本型、数值型、浮点型等等。
52.表单映射模型管理模块,用于管理各类工单中每个表单项与目标关键词类型之间的映射关系,所述目标关键词类型可以为地址、人名、数字序列等。
53.语音识别模块,用于获取语音数据,并将所述语音数据转换为文本数据。
54.本实施例中,采用第三方语音转文字sdk将语音转化为文本。
55.关键词识别模块,用于对所述文本数据进行关键词识别,并确定关键词类型;根据相应工单的表单映射模型,将识别的关键词与表单项进行匹配,并进行数据校验,若匹配成功且校验通过,则进行自动填写。
56.其中,对所述文本数据进行关键词识别,并确定关键词类型具体包括:
57.(1)对所述文本数据进行分词,并去除停用词,得到分词集合;
58.(2)为了能够使计算机充分识别用户输入的文本,基于语料库对分词集合进行同义词扩展,得到各个分词的不同表达;
59.(3)基于预构建的建筑运维专业词库进行关键词识别,得到待维修对象和报修描述关键词,例如电脑、电梯;若存在不能识别的词,通过词库扩充模块进行词扩充。
60.(4)对剩余分词进行语义分析,确定属于指定目标类型的关键词,所述指定目标类型即表单项中所需类型,包括时间、人名、科室、电话等。
61.(5)判断是否存在表单项没有匹配到关键词,若存在,则根据所述表单项的字符类型和所需关键词类型,对所述文本数据进行二次匹配。例如根据表单字段名、字段类型或关键词类型等。其中,表单字段名,用于定义匹配该表单所对应的表单项,如:报修设备、报修位置;表单字段类型,用于限定字符类型,如:字符型、整数型、浮点型、日期型;对应关键词类型,用于定义匹配表单项内容的词类范围,如:电脑、电梯。
62.步骤(4)和步骤(5)所包含的技术方案,首先通过对文本数据语义分析匹配目标类型,然后根据目标类型再对文本数据二次匹配,通过双向匹配,保证了关键词识别的准确性,且不易发生遗漏,节省了后续人工的工作量。
63.(6)根据所述文本数据填写故障描述。由于用户输入语音时,可能对故障的描述不清楚,例如只输入“灯坏了”但没有描述是何种情况,灯的故障状态可能有闪烁、不亮等多种情况,因此,本实施例在获取所述文本数据后,还基于预训练的基于语义分析的关联预测模型进行相关关键词扩展,经用户确认后生成描述语句,例如,用户输入“灯坏了”,系统自动关联可能的灯状态,如“闪烁”、“不亮了”,以及“可能是电压原因”。
64.具体地,所述基于语义分析的关联预测模型采用隐马尔科夫模型,求解最可能的隐状态序列是隐马尔可夫模型的三个典型问题之一,通常用维特比算法解决。维特比算法就是求解隐马尔可夫模型上的最短路径(-log(prob),也即是最大概率)的算法。所述基于语义分析的关联预测模型训练方法包括:获取设备、故障状态信息及故障原因;基于隐马尔可夫模型训练设备状态及故障原因之间的关联关系。假设一个设备有n种状态,例如:设备
老化、断电、零部件问题等(表达式为state_1,state_2,....,state_n),那么这n种状态的转移概率可以用一个矩阵来记录:
65.transprobmatrix=
66.[tp_1_1,tp_1_2,...,tp_1_n;
[0067]
tp_2_1,tp_2_2,...,tp_2_n;
[0068]
...
[0069]
tp_n_1,tp_n_2,...,tp_n_n
[0070]
]
[0071]
其中,第i行第j列的元素表示设备状态从state_i切换到state_j的概率。设备的初始状态取值的概率分布是initprob=[ip_1,ip_2,...,ip_n],那么n个元素ip_n表示在设备发生故障的时候,状态为state_n的概率。
[0072]
我们把观测现象记为v,假设设备可能发生的故障状态值有m种,那么在状态state_n下,观测值的取值概率分布为:
[0073]
vprob_n=[vp_n_1,vp_n_2,...,vp_n_m]
[0074]
其中vp_m表示当设备处于state_n时,生成一个观测值取值为v_m的概率。
[0075]
假设设备使用人员可以对系统录入消息:“xx房间的灯不停的闪已经半小时了,不过现在又恢复正常了,是不是该维修一下设备了”。
[0076]
那么在这个情况中,显状态是灯不停的闪,隐状态是三种故障原因:
[0077]
求解灯管更换时间及故障概率。
[0078]
求解整流器更换时间及故障概率。
[0079]
求解最可能的电压情况。
[0080]
假定排除灯管和整流器问题后,我们以电压故障为例进行如下分析:
[0081]
定义t[时间][电压状况]=概率,注意设备运行状况指的是,距当前时间之前30分钟的电压状况确定下来了(概率最大)当前电压状况是x的概率,这里的概率就是一个累乘的概率。
[0082]
因为灯不停闪烁已经半小时了,所以半小时之前的概率t[30分钟之前][电压稳定]=初始概率[不稳]*发射概率[电压稳定][闪烁]=0.6*0.1=0.06,同理可得t[30分钟前][电压不稳]=0.24,策略引擎预测:因为灯在30分钟之前就已经开始闪烁了,电压不稳的情况下才会导致灯光闪烁,所以30分钟之前电压不稳的概率比较大,数据与猜测预测结果一致。
[0083]
从30分钟之后开始,对于每种灯的状态y,都有30分钟前状态是x的概率*x转移到y的概率*y状态下电压情况进行判断灯的状态概率。因为30分钟前灯的状态x有两种可能,所以y的概率有两个,选取其中较大一个作为t[30分钟后][灯的状态y]的概率,同时将30分钟后的灯状态加入到结果序列中。
[0084]
比较t[30分钟后][灯闪烁]和t[30分钟后][灯不闪烁]的概率,找出较大的哪一个对应的序列,就是最终结果。
[0085]
表单填写模块,用于根据识别的关键词进行表单填写,生成建筑运维工单。
[0086]
词库系统采用java语言开发、采用mysql数据库,缓存采用redis,开发方式为前后端分离方式。在开发风格上,我们在开发上选择mvc风格,即模型-视图-控制器架构。model
(模型)代表一个存取数据的对象及其数据模型。view(视图)代表模型包含的数据的表达方式,一般表达为可视化的界面接口。controller(控制器)作用于模型和视图上,控制数据流向模型对象,并在数据变化时更新视图。控制器可以使视图与模型分离开解耦合。
[0087]
实施例二
[0088]
基于实施例一提出的系统,本实施例提供了一种基于语音识别的建筑运维工单自动填写方法,预先构建各类工单中每个表单项与目标关键词类型之间的映射关系,所述方法包括以下步骤:
[0089]
步骤1:获取语音数据,并将所述语音数据转换为文本数据;
[0090]
步骤2:对所述文本数据进行关键词识别,并确定关键词类型;
[0091]
步骤3:根据相应工单的表单映射模型,将识别的关键词与表单项进行匹配,并进行数据校验,若匹配成功且校验通过,则进行自动填写。
[0092]
所述步骤2具体包括:
[0093]
对所述文本数据进行分词,得到分词集合;
[0094]
基于预构建的建筑运维专业词库进行关键词识别,得到待维修对象和报修描述关键词;
[0095]
对剩余分词进行语义分析,确定属于指定目标类型的关键词,所述指定目标类型即表单项中所需类型。
[0096]
以上一个或多个实施例通过识别关键词类别,以及构建各类工单中每个表单项与目标关键词类型之间的映射关系,能够实现工单的快速填写;并且,在进行关键词识别和类型识别过程中,借助多种识别和匹配方法,保证了关键词识别的准确性,且不易发生表单项的遗漏,节省了后续人工的工作量。
[0097]
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
[0098]
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献