一种连读的检测方法、装置、设备及存储介质与流程

2021-06-29 23:43:00 来源：中国专利 TAG：语音检测方法装置检测申请

1.本申请涉及语音检测领域，具体涉及一种连读的检测方法、装置、设备及存储介质。

背景技术：

2.在英文口语中，上一个单词的辅音和下一个单词的开头元音连读是一种常见的上下文发音协同现象。在口语发音评测中，需要对发音人在口语中是否连读进行考核。目前常用的评测方式是通过声学模型对语音信息进行识别。由于是否连读从音标上是无法体现区别的，例如it is(不连读)和it(
‑
)is(连读)，其中，
‘
(
‑
)’用于表示上一个单词的辅音和下一个单词的开头元音连读，其音标标记和声学模型的音素发音标记一样，例如，it is无论是否连读，其音标标记和声学模型的音素发音标记均为：/itiz/，这样就难以通过声学模型区分度对连读进行区分。

技术实现要素：

3.本申请提供一种连读的检测方法、装置、设备及存储介质，检测准确度高。
4.为实现上述目的，本申请实施例提供一种连读的检测方法，包括：
5.获取待评测的英语语音；
6.将所述英语语音输入逻辑扩展图进行识别，所述逻辑扩展图包括插入静音模型的第一发音路径和未插入静音模型的第二发音路径；
7.如果识别结果中没有停顿表征，则检测所述英语语音的发音为连读。
8.进一步的，在将所述英语语音输入逻辑扩展图进行识别之前，还包括：
9.获取所述英语语音的参考文本，所述参考文本包括表示连读的标记；
10.抽取所述参考文本中的标记，得到正常文本，并生成所述正常文本对应的相互对抗的第一语法和第二语法，所述第一语法为所述正常文本中连读单词之间插入静音模型得到的语法，所述第二语法为所述正常文本中连读单词之间未插入静音模型得到的语法；
11.编译所述第一语法和第二语法，得到连读三因子模型的逻辑扩展图，所述逻辑扩展图包括与所述第一语法对应的第一发音路径和与所述第二语法对应的第二发音路径。
12.进一步的，还包括：
13.如果识别结果中有停顿表征，则检测所述英语语音的发音为非连读。
14.进一步的，识别结果中有停顿表征包括：
15.所述停顿表征对应的发音停顿和变化被所述静音模型吸收。
16.为实现上述目的，本申请实施例还提供一种连读的检测装置，包括：
17.获取单元，设置为获取待评测的英语语音；
18.识别单元，设置为将所述英语语音输入逻辑扩展图进行识别，所述逻辑扩展图包括插入静音模型的第一发音路径和未插入静音模型的第二发音路径；
19.检测单元，设置为如果识别结果中没有停顿表征，则检测所述英语语音的发音为
连读。
20.进一步的，所述获取单元还设置为：
21.获取所述英语语音的参考文本，所述参考文本包括表示连读的标记；
22.抽取所述参考文本中的标记，得到正常文本，并生成所述正常文本对应的相互对抗的第一语法和第二语法，所述第一语法为所述正常文本中连读单词之间插入静音模型得到的语法，所述第二语法为所述正常文本中连读单词之间未插入静音模型得到的语法；
23.编译所述第一语法和第二语法，得到连读三因子模型的逻辑扩展图，所述逻辑扩展图包括与所述第一语法对应的第一发音路径和与所述第二语法对应的第二发音路径。
24.进一步的，所述检测单元还设置为：
25.如果识别结果中有停顿表征，则检测所述英语语音的发音为非连读。
26.进一步的，所述检测单元还设置为：
27.通过所述静音模型吸收所述停顿表征对应的发音停顿和变化。
28.为实现上述目的，本申请实施例还提供一种设备，包括：
29.一个或多个处理器；
30.存储器，设置为存储一个或多个程序；
31.当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的方法。
32.为实现上述目的，本申请实施例还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行实现如上所述的方法。
33.本申请实施例提出的一种连读的检测方法、装置、设备及存储介质，获取待评测的英语语音；将所述英语语音输入逻辑扩展图进行识别，所述逻辑扩展图包括插入静音模型的第一发音路径和未插入静音模型的第二发音路径；如果识别结果中没有停顿表征，则检测所述英语语音的发音为连读。采用本申请实施例的检测方法，通过是否有停顿表征，准确识别英语发音是否进行了连读，准确度高。
附图说明
34.图1是本申请实施例一提供的连读的检测方法的流程图；
35.图2是本申请实施例一提供的逻辑扩展图示意图；
36.图3是本申请实施例二提供的连读的检测装置的结构图；
37.图4是本申请实施例提供的一种设备的结构图。
具体实施方式
38.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。
39.应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
40.本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
41.需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
42.需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。
43.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。
44.实施例一
45.图1为本公开实施例一提供的一种连读的检测方法的流程图，该方法可以由语音检测设备来执行，语音检测设备可以采用软件和/或硬件的方式实现。如图1所示，该方法具体包括步骤s110、步骤s120和步骤s130。
46.s110、获取待评测的英语语音。
47.s120、将所述英语语音输入逻辑扩展图进行识别，所述逻辑扩展图包括插入静音模型的第一发音路径和未插入静音模型的第二发音路径。
48.可选的，在步骤s120之前，还包括生成逻辑扩展图的步骤。具体的，可以包括：获取所述英语语音的参考文本，所述参考文本包括表示连读的标记；抽取所述参考文本中的标记，得到正常文本，并生成所述正常文本对应的相互对抗的第一语法和第二语法，所述第一语法为所述正常文本中连读单词之间插入静音模型得到的语法，所述第二语法为所述正常文本中连读单词之间未插入静音模型得到的语法；编译所述第一语法和第二语法，得到连读三因子模型的逻辑扩展图，所述逻辑扩展图包括与所述第一语法对应的第一发音路径和与所述第二语法对应的第二发音路径。
49.其中，参考文本是预先或者实时上传的，参考文本上进行了标记，标记用于表示上一个单词的辅音和下一个单词的开头元音连读。例如，被评测者对某句英文的朗读中，是否是否在特定地方进行了连读：it(
‑
)is almost spring.其中，
‘
(
‑
)’用于表示上一个单词的辅音和下一个单词的开头元音连读。
50.获取参考文本后，抽取标记得到正常文本，并生成所述正常文本对应的相互对抗的第一语法和第二语法，例如第一语法为it和is之间插入静音(silence，sil)模型的语法<utt1>，第二语法为it和is之间没有插入silence模型的语法<utt2>，如下所示：
51.<utt1>＝it sil is almost spring；
52.<utt2>＝it is almost spring；
53.本申请实施例采用的语音识别技术是基于hmm隐马尔科夫的三因子上下文扩展模型，通过强制插入silence模型，可以让it的
‘
t’和is的
‘
i’在扩展三因子模型(triphone)的时候，产生不同的逻辑三因子表示，即:
54.在it sil is的语法中，it的
‘
t’的逻辑triphone为：i
‑
t sil,而is的
‘
i’的逻辑triphone为：sil
‑
i z；
55.而在it is的语法中，it的
‘
t’的逻辑triphone为：i
‑
t i,而is的
‘
i’的逻辑
triphone为：t
‑
i z。
56.对第一语法和第二语法进行编译，那么utt1和utt2在三因子triphone模型上的逻辑扩展图如图2所示。
57.逻辑扩展图中上半分支a为插入了sil的发音路径；下半分支b为不插入sil的发音路径。
58.s130、如果识别结果中没有停顿表征，则检测所述英语语音的发音为连读。
59.如果发音正确连读，就会走最符合这种连读发音协同现象的i
‑
t i和t
‑
i z三因子triphone扩展路径(即下半分支b)，输出的识别结果中，不会出现sil(停顿)表征；
60.进一步的，还包括：
61.如果识别结果中有停顿表征，则检测所述英语语音的发音为非连读。如果发音没有连读，清晰的单独发出了it的t和is的i的发音，那么英语语音通过逻辑扩展图中的上半分支a，并在输出的识别结果中找到it和is之间的sil表征。
62.进一步的，识别结果中有停顿表征包括：所述停顿表征对应的发音停顿和变化被所述静音模型吸收。如果发音没有连读，清晰的单独发出了it的t和is的i的发音，那么英语语音通过逻辑扩展图中的上半分支a，由于发音协同现象，中间不可避免会有较为生硬的小停顿来转折，这些停顿和变化会被sil模型强制吸收，并在输出的识别结果中找到it和is之间的sil(停顿)表征。
63.采用本申请实施例的检测方法，通过是否有停顿表征，准确识别英语发音是否进行了连读，准确度高。
64.进一步的，采用本申请实施例的检测方法，通过静音模型来强制吸收不连读时候的短暂停顿和变化，进一步提高连读识别的准确性。
65.实施例二
66.本实施例提供一种连读的检测装置，该装置可以执行上述实施例中的连读的检测方法，并可以配置在语音检测设备中。参见图3，一种连读的检测装置，包括：获取单元310、识别单元320和检测单元330。其中，
67.获取单元310，设置为获取待评测的英语语音；
68.识别单元320，设置为将所述英语语音输入逻辑扩展图进行识别，所述逻辑扩展图包括插入静音模型的第一发音路径和未插入静音模型的第二发音路径；
69.检测单元330，设置为如果识别结果中没有停顿表征，则检测所述英语语音的发音为连读。
70.进一步的，所述获取单元还设置为：
71.获取所述英语语音的参考文本，所述参考文本包括表示连读的标记；
72.抽取所述参考文本中的标记，得到正常文本，并生成所述正常文本对应的相互对抗的第一语法和第二语法，所述第一语法为所述正常文本中连读单词之间插入静音模型得到的语法，所述第二语法为所述正常文本中连读单词之间未插入静音模型得到的语法；
73.编译所述第一语法和第二语法，得到连读三因子模型的逻辑扩展图，所述逻辑扩展图包括与所述第一语法对应的第一发音路径和与所述第二语法对应的第二发音路径。
74.进一步的，所述检测单元还设置为：
75.如果识别结果中有停顿表征，则检测所述英语语音的发音为非连读。
76.进一步的，所述检测单元还设置为：
77.通过所述静音模型吸收所述停顿表征对应的发音停顿和变化。
78.采用本申请实施例的检测装置，通过是否有停顿表征，准确识别英语发音是否进行了连读，准确度高。
79.本申请实施例还提供一种设备，图4是本申请实施例提供的一种设备的结构图，如图4所示，该设备包括处理器71、存储器72、输入装置73、输出装置74；设备中处理器71的数量可以是一个或多个，以一个处理器71为例；设备中的处理器71、存储器72、输入装置73和输出装置74可以通过总线或其他方式连接，本实施例以通过总线连接为例。
80.存储器72作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的语音识别装置对应的程序指令/模块(例如，连读的检测装置中的获取单元310、识别单元320和检测单元330，处理器71通过运行存储在存储器72中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现本申请实施例提供的任一方法。
81.存储器72可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器72可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器72可进一步包括相对于处理器71远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
82.输入装置73可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置74可包括显示屏等显示设备。
83.本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种连读的检测方法，包括：
84.获取待评测的英语语音；
85.将所述英语语音输入逻辑扩展图进行识别，所述逻辑扩展图包括插入静音模型的第一发音路径和未插入静音模型的第二发音路径；
86.如果识别结果中没有停顿表征，则检测所述英语语音的发音为连读。
87.当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的连读的检测方法操作,还可以执行本申请任意实施例所提供的连读的检测方法中的相关操作。
88.通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本申请可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(read
‑
only memory,rom)、随机存取存储器(random access memory,ram)、闪存(flash)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。
89.以上所述，仅为本申请的示例性实施例而已，并非用于限定本申请的保护范围。
90.本领域内的技术人员应明白，术语用户终端涵盖任何适合类型的无线用户节点，
例如移动电话、便携数据处理装置、便携网络浏览器或车载移动台。
91.一般来说，本申请的多种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如，一些方面可以被实现在硬件中，而其它方面可以被实现在可以被控制器、微处理器或其它计算装置执行的固件或软件中，尽管本申请不限于此。
92.本申请的实施例可以通过移动装置的数据处理器执行计算机程序指令来实现，例如在处理器实体中，或者通过硬件，或者通过软件和硬件的组合。计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码。
93.本申请附图中的任何逻辑流程的框图可以表示程序步骤，或者可以表示相互连接的逻辑电路、模块和功能，或者可以表示程序步骤与逻辑电路、模块和功能的组合。计算机程序可以存储在存储器上。存储器可以具有任何适合于本地技术环境的类型并且可以使用任何适合的数据存储技术实现，例如但不限于只读存储器(rom)、随机访问存储器(ram)、光存储器装置和系统(数码多功能光碟dvd或cd光盘)等。计算机可读介质可以包括非瞬时性存储介质。数据处理器可以是任何适合于本地技术环境的类型，例如但不限于通用计算机、专用计算机、微处理器、数字信号处理器(dsp)、专用集成电路(asic)、可编程逻辑器件(fgpa)以及基于多核处理器架构的处理器。
94.通过示范性和非限制性的示例，上文已提供了对本申请的示范实施例的详细描述。但结合附图和权利要求来考虑，对以上实施例的多种修改和调整对本领域技术人员来说是显而易见的，但不偏离本发明的范围。因此，本发明的恰当范围将根据权利要求确定。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种连读的检测方法、装置、设备及存储介质与流程

相关文章

最热文献