发音教学方法与流程

2022-02-21 11:15:58 来源：中国专利 TAG：

1.本发明涉及一种语音输入技术，特别是还涉及一种发音教学方法。

背景技术：

2.社群通讯软件(例如，line、whatsapp、wechat、facebook messenger、或skype等)已经逐渐取代电话交谈并呈现现代人广泛使用的交谈工具。在一些情况中，若使用者无法直接与对方通话，多数社群通讯软件还能提供讯息传送功能。然而，对于年长者或双手不便活动者而言，在键盘上打字是相当困难甚至是无法达成的任务。而随着语音识别技术的成熟，多数人常用的个人通讯设备(例如，计算机和手机等)的操作系统(例如，windows、macos、ios、或android等)都已内建语音输入工具，并让使用者可通过说话来代替实体或虚拟键盘打字，以提升文字输入的效率。
3.值得注意的是，虽然语音输入法已经是相当成熟的技术，但教育、生长环境等诸多因素可能会影响使用者的发音，并使得语音输入工具所辨识出的文字不同于用户意图念出的文字内容。无论是使用者的本国或外国语言，过多的错误可能需要使用者花费额外时间修正，相当浪费时间。此外，因为使用者通常不清楚发音错误处，也缺少自行学习和修正的方法，而让发音的准确度无法有效进步，非常可惜。在越来越多人靠语音输入工具来进行各式沟通的时代，如果有一种方便且不须真人介入的发音教学方法，就可以让有意改善各种语言发音准确度的用户随时进行改善发音的学习动作。发音更正确后，不但使用个人通讯设备时使用语音输入工具还为快速有效，即使跟真人对谈，也将因发音还准确能让面对面语言沟通还为有效。

技术实现要素：

4.本发明是针对一种发音教学方法，协助分析错误内容，并据以提供学习或修正辅助。
5.根据本发明的实施例，发音教学方法包括下列步骤：在社群通讯程序提供服务帐户，并通过这服务帐户提供发音教学程序。这发音教学程序包括：通过服务帐户对用户帐户提供导引讯息。通过用户帐户以语音输入方式输入导引讯息，并将导引讯息通过语音输入引擎转的待评估文字直接传送到服务帐户。通过服务帐户依据待评估文字提供评估结果给对应的用户帐户。社群通讯程序提供文字讯息的接收及传送，导引讯息是供用户念出的文字，且评估结果相关于导引讯息与待评估文字之间的差异。
6.基于上述，本发明实施例的发音教学方法在社群通讯程序提供语音学习机器人(即，服务帐户)，分析语音输入引擎所转换的内容，并据以提供诸如错误分析、发音训练、或内容修正等服务。藉此，使用者可了解正确发音且方便学习，从而提升语音输入效率，并同时提高发音的准确度。
附图说明
7.包含附图以便进一步理解本发明，且附图并入本说明书中并构成本说明书的一部分。附图说明本发明的实施例，并与描述一起用于解释本发明的原理。
8.图1是依据本发明一实施例的系统示意图；
9.图2是依据本发明一实施例的发音教学方法的流程图；
10.图3a及图3b是一范例说明社群通讯程序的用户接口。
11.附图标号说明
12.1:系统；
13.10:服务器；
14.11、51:存储器；
15.12:评估模块；
16.15、55:通讯收发器；
17.17、57:处理器；
18.52:社群通讯程序；
19.53:语音输入引擎；
20.59:显示器；
21.s210～s270:步骤；
22.301、306、307:讯息；
23.303:文字输入字段；
24.304:语音输入按键；
25.305:语音输入提示。
具体实施方式
26.现将详细地参考本发明的示范性实施例，示范性实施例的实例说明于附图中。只要有可能，相同组件符号在图式和描述中用来表示相同或相似部分。
27.图1是依据本发明一实施例的系统1示意图。请参照图1，这系统1包括但不仅限于服务器10及一台或更多台用户装置50。
28.服务器10可以是各类型服务器、工作站、后台主机或个人计算机等电子装置。服务器10包括但不仅限于存储器11、通讯收发器15及处理器17。
29.存储器11可以是任何类型的固定或可移动随机存取存储器(radom access memory，ram)、只读存储器(read only memory，rom)、闪存(flash memory)、传统硬盘(hard disk drive，hdd)、固态硬盘(solid-state drive，ssd)或类似组件，并用以存储软件模块(例如，评估模块12)及其程序代码、以及其他暂存或永久数据或文件，其详细内容待后续实施例详述。
30.通讯收发器15可以是支持诸如wi-fi、移动网络、光纤网络、以太网络等通讯技术的传送及接收电路，并用以与外部装置相互传送或接收信号。
31.处理器17可以是中央处理单元(central processing unit，cpu)、图形处理单元(graphic processing unit，gpu)、微控制单元(micro control unit，mcu)、或特殊应用集成电路(application-specific integrated circuit，asic)等运算单元，并用以执行服务
器10的所有运作，并可加载且执行评估模块12，其详细运作待后续实施例详述。
32.用户装置50可以是智能型手机、平板、桌面计算机、笔记本计算机、智能电视、或智能手表等电子装置。用户装置50包括但不仅限于存储器51、通讯收发器55、处理器57及显示器59。
33.存储器51、通讯收发器55及处理器57的实施态样可分别参酌存储器11、通讯收发器15及处理器17的说明，在此不再赘述。
34.此外，存储器51用以存储软件模块(例如，社群通讯程序52(例如，line、whatsapp、wechat、facebook messenger、或skype等)、语音输入引擎53(例如，用户装置50的操作系统(例如，windows、macos、ios、或android等)内建的语音输入法或第三方语音转文字工具等))及其程序代码。而处理器57用以执行用户装置50的所有运作，并可加载且执行社群通讯程序52及语音输入引擎53，其详细运作待后续实施例详述。
35.显示器59可以是lcd、led显示器或oled显示器。显示器59用以呈现图像画面或用户接口。
36.下文中，将搭配系统1中的各项装置、组件及模块说明本发明实施例所述的方法。本方法的各个流程可依照实施情形而调整，且并不仅限于此。
37.图2是依据本发明一实施例的发音教学方法的流程图。请参照图2，在社群通讯程序52提供服务帐户(步骤s210)。具体而言，社群通讯程序52可提供文字输入，并基于用户的输入生成文字形式的讯息，且进一步经由通讯收发器55提供文字讯息的接收及传送。
38.举例而言，图3a及图3b是一范例说明社群通讯程序52的用户接口。请参照图3a，用户接口提供文字输入字段303。用户点选文字输入字段303之后，可通过虚拟或实体键盘输入文字。用户按下「enter」或其他实体或虚拟的发送按键之后，文字输入字段303中文字内容将作为文字讯息并经由通讯收发器15发送而出。另一方面，社群通讯程序52的其他帐户所发送的文字讯息也可经由显示器59呈现在社群通讯程序52的用户接口上。以图3a为例，讯息301为另一个帐户传送的文字讯息。
39.值得注意的是，本发明实施例的服务器10可提供语音输入学习机器人(由评估模块12运行)。这机器人是社群通讯程序52所属服务的其中一个账户(下文统称为服务账户)，且任一台客户装置50可在社群通讯程序52上使用自己的用户帐户加入这服务帐户或直接对这服务帐户传送或接收讯息。此外，服务帐户提供发音教学程序。这发音教学程序是关于对用户帐户念出的内容提供教育学习的修正服务，且下文将详细说明。
40.在发音教学程序中，服务帐户通过评估模块12生成并对社群通讯程序的数个用户帐户提供导引讯息(步骤s230)。具体而言，这导引讯息是供用户帐户的用户念出的文字。导引讯息可能是经设计方便后续发音正确性分析的文字数据(例如，包括部分或所有韵母、元音的字句)，也可能是广告台词、诗句、或文章等内容。此外，导引讯息的语言可能是用户选择或服务器10预设的。
41.在一实施例中，服务账户可直接通过社群通讯程序传送导引讯息给一个或更多个用户帐户。即，以文字讯息的内容即是导引讯息的实际内容。例如，图3a的讯息301是「请念出xxx」。
42.在另一实施例中，数笔导引讯息将依据其国别、情境、类型和/或长度设有对应的唯一标识符。例如，标识符e1是英语诗句，标识符c2是国语广告台词。而服务帐户可通过社
群通讯程序传送导引讯息对应的标识符给用户帐户。用户帐户的用户可通过用户装置50依据接收的标识符在特定网页、应用程序或数据库取得对应的导引讯息。
43.取得导引讯息，用户装置50的处理器57可在显示器59呈现服务器10所生成的导引讯息，以供用户帐户的用户阅读。以图3a为例，讯息301为服务器10所传送的导引讯息。导引讯息是要求用户帐户的用户念出特定文字。
44.用户帐户的用户以语音输入方式输入导引讯息，且客户装置50可录制用户依据导引讯息所念出的语音内容，并将念出的导引讯息通过语音输入引擎53转换的待评估文字直接传送到服务帐户(步骤s250)。具体而言，客户装置50内建有语音输入引擎53。用户可选择或系统默认有语音输入引擎53，以将打字输入模式转换成语音输入模式。语音输入引擎53主要是基于语音识别技术(例如，信号处理、特征提取、声学模型、发音词典、解码等技术)而将语音转换成文字。以图3a为例，用户点选语音输入按键304(以麦克风图案为例)之后，用户接口额外呈现语音输入提示305，让用户了解社群通讯程序52已进入语音输入模式。语音输入引擎53可将用户帐户的用户所念出的语音内容转换成文字并经由显示器59呈现在文字输入字段303上。即，基于前述说明关于语音输入引擎53将语音转换成文字的内容生成文字形式的待评估文字。值得注意的是，这待评估文字是语音输入引擎53直接辨识出的文字内容且尚未经过用户的额外修正。若语音输入引擎53直接辨识出的文字内容如果跟用户原拟说出的文字内容不同，则表示根据原拟发音的文字而发出的语音，因不够准确，而无法被语音输入引擎53正确了解。此外，用户也无须自行比对待评估文字及导引讯息，处理器57并可直接通过社群通讯程序52且经由通讯收发器55传送这待评估文字给服务帐户。
45.另一方面，(服务账户的)处理器17经由通讯收发器11接收这待评估文字，服务帐户即可依据待评估文字提供评估结果给对应的用户帐户(步骤s270)。具体而言，处理器17可依据导引讯息与待评估文字之间的差异生成评估结果。即，评估结果相关于导引讯息与待评估文字之间的差异(例如，发音或文字差异等)。在一实施例中，评估模块12可比较导引讯息与待评估文字，以取得待评估文字中的错误内容。即，错误内容是导引讯息与待评估文字之间在文字上的差异。例如，导引讯息是「今天天气是晴时多云偶阵雨」，待评估文字是「今天天气次清诗多云偶阵雨」，则错误内容是「次清诗」。
46.在一实施例中，(服务帐户的)评估模块12可依据错误内容的文字及发音中至少一个生成评估结果。这评估结果例如是错误内容中的文字或发音的统计结果。例如，错误内容中各文字和/或各发音及其统计数量。评估结果可以是前述统计结果的错误报表，也可列有发音错误的文字和/或韵母、元音、或子音。在另一实施例中，评估模块12可对错误内容评分。例如，错误内容所占所有内容的百分比，或者是正常人理解内容的程度。在一些实施例中，评估模块12可进一步基于错误内容中的文字取得对应正确及错误发音，以增添评估结果的内容。
47.(服务帐户的)评估模块12可经由通讯收发器11发送这评估结果(作为文字讯息、或其他类型的文件(例如，图片、或文本文件等))，且(用户帐户的)处理器57可通过社群通讯程序52且经由通讯收发器51接收这评估结果。处理器57可进一步在显示器59上显示评估结果，让用户帐户用户可实时了解自己错误发音处。以图3b为例，讯息306是语音输入引擎53对用户念出的语音内容转换所得的待评估文字，且讯息307是服务器10所生成的评估结果。讯息307可列出用户念错的文字(即，不同于导引讯息的错误内容)。
48.在一实施例中，(服务帐户的)评估模块12可依据错误内容的文字及发音中至少一个生成第二导引讯息。这第二导引讯息亦是供用户念出的文字。初始的导引讯息可能是预先定义的内容且未经个人化调整，而第二导引讯息则是实际分析用户发音所生成的(即，有个人化调整)。例如，错误内容是相关于「ㄓ」、「ㄔ」等卷舌音(英文的范例为「books」、「words」中s的不同发音)，则第二导引讯息可以是包含很多「ㄓ」、「ㄔ」发声的绕口令(英文的对称例为「sleeps，books，hats」、「crabs，words，bags」的练习)，以强化对这些语音的发声练习效果。(用户帐户的)处理器57可通过社群通讯程序52并经由通讯收发器55接收并经由显示器59呈现这第二导引讯息。在一些实施例中，第二导引讯息还能伴随着对应其文字内容的录音(可包括相关说明)以供使用者聆听并参考。这第二导引讯息的录音可由真人预先录制或由服务器10或客户装置50的文字转语音(text-to-speech，tts)技术生成。
49.相似地，(用户帐户的)处理器57可录制用户依据第二导引讯息所念出的语音内容，通过语音输入引擎53将用户念出的语音内容转换成第二待评估文字，并经由通讯收发器55传送基于第二导引讯息第二待评估文字到服务器10。此外，评估模块12也可比较第二导引讯息及第二待评估文字，以生成对应的评估结果或其他的导引讯息。须说明的是，前述评估结果及导引讯息的生成可不依特定顺序地重复进行，且导引讯息可能是基于前几次中任一笔或更多笔错误内容所生成。而通过反复练习错误内容，将可降低用户发音错误的频率，并进而增进用户发音的准确度和沟通效率。
50.在一实施例中，(用户帐户的)处理器57还可通过语音输入方式输入初步讯息。这初步内容是某一用户帐户的用户所欲传送给社群通讯程序52的其他用户帐户(例如，亲朋好友或同事等)的文字内容，且用户无须依据前述导引讯息念出。用户帐户可将念出的初步讯息通过语音输入引擎转换的第三待评估文字直接传送到服务帐户。而(服务账户的)处理器57可依据前述评估结果修改第三待评估文字中的错误内容以形成最终讯息。例如，评估结果是「ㄉ」音被辨识成「ㄊ」音(英文中「d」音被辨识成「t」)，则处理器57可对第三待评估文字中有「ㄊ」音的字(英文中「d」音)进一步确认是否需要修正为「ㄉ」音(英文中「t」音)。此外，处理器57会基于被修正的字及其前后文字或词句来选择适当的文字。例如，「区」是接续在待修正的字的下个字，则处理器51会选择「地」作为修正后的字而不是「第」。而这最终讯息即是初步讯息中的错误内容经修正后的讯息，最终讯息并可供这用户帐户在社群通讯程序52且经由通讯收发器55传送。也就是说，服务帐户可自行依据用户帐户的用户过去讲话的内容修正错误内容，且无须使用者手动调整。
51.此外，本发明实施例是导入到社群通讯程序52上，服务器10所提供的机器人可以是任一个或更多个使用者可选择的朋友或账户(即，服务账户)。而社群通讯程序52是广泛使用的软件(即，大多数使用者都会自行下载或客户装置50预安装)，让任何使用者都可轻易地使用本发明实施例的语音输入分析及修正功能。
52.综上所述，本发明实施例的发音教学方法，可在社群通讯程序所提供的平台上分析用户的语音输入错误内容，并据以提供评估结果甚至供后续修正其他语音内容。藉此，本发明实施例具有以下特点：本发明实施例可协助发展正确发音，让人正确说话能被了解，从而增加沟通能力。本发明实施例可协助发展正确发音，让客户装置的系统正确了解语音输入内容，从而增加语音输入效率，并减少更正时间。本发明实施例不须真人听使用者说话，并能以相同标准判断语音错误内容，以供生成后续教导内容(不同真人听力不同)。本发明
实施例可适用于多种语言学习。此外，只要客户装置能连网，用户在任何时间和任何地点都能进行学习。
53.最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种移动基站退服预警的方法、装置、设备和存储介质与流程

发音教学方法与流程

相关文献

最热文献