文本的有声播放方法、装置和终端设备与流程

2022-02-20 12:38:28 来源：中国专利 TAG：

1.本技术涉及终端技术领域，尤其涉及一种文本的有声播放方法、装置和终端设备。

背景技术：

2.终端设备通常都具有朗读文本的功能。目前，终端设备朗读文本的方式是播放文本中的文字对应的读音音频，从而达到朗读该文本的目的。但是，终端设备所朗读的文本中不仅包括文字，还可能包括一些非文字信息，例如标点符号、表情符号、下划线字体等，用于表达文本的句读、语气、感情等，或者突出显示部分文字。由于目前终端设备在朗读文本时只朗读文本中的文字，因此，对于包括有非文字信息的文本，则不能充分表达文本中的非文字信息，导致对文本信息的表达效果较差。

技术实现要素：

3.本技术提供一种文本的有声播放方法、装置和终端设备，改善了现有技术中终端设备在朗读文本时，对文本信息的表达效果较差的问题。
4.为达到上述目的，本技术采用如下技术方案：
5.第一方面，本技术提供一种文本的有声播放方法，包括：识别目标文本中的非文字信息；确定所述非文字信息对应的音频信息；根据所述非文字信息对应的音频信息，有声播放所述目标文本。
6.本实施例提供的文本的有声播放方法，能够在有声播放目标文本的过程中，播放其中的非文字信息对应的音频信息，从而充分表达文本中的非文字信息，提高对文本信息的表达效果，提高用户体验。
7.结合第一方面，在一些实施例中，所述非文字信息包括表情符号、排版控制符号、标点符号、数学符号、注解符号、注释符号或者文字的特征字体样式。
8.结合第一方面，在一些实施例中，当所述目标文本包括文字和所述非文字信息时，确定所述非文字信息对应的音频信息，包括：
9.若所述非文字信息为第一符号，则根据所述目标文本的语义，确定所述第一符号的应用类型；所述第一符号包括至少两个应用类型对应的音频信息；
10.根据所述第一符号的应用类型，确定所述第一符号的音频信息。
11.对于在不同语言场景中有不同读法的第一符号，通过识别目标文本的语义，可以确定该第一符号与该场景对应的音频信息，避免终端设备播放不适合该场景的音频信息，提高对文本信息的表达效果。
12.结合第一方面，在一些实施例中，当所述目标文本包括文字和所述非文字信息时，根据所述非文字信息对应的音频信息，有声播放所述目标文本，包括：
13.若所述非文字信息为所述表情符号、所述排版控制符号、所述标点符号、所述数学符号或者所述注释符号，则按照所述目标文本中所述文字和所述非文字信息的排列顺序，依次播放所述文字对应的音频信息和所述非文字信息对应的音频信息。
14.结合第一方面，在一些实施例中，当所述目标文本包括文字和所述非文字信息时，根据所述非文字信息对应的音频信息，有声播放所述目标文本，包括：
15.若所述非文字信息为所述注解符号，则识别所述注解符号对应的注解文字；
16.按照所述目标文本中所述文字和所述注解符号的排列顺序，依次播放所述文字对应的音频信息和所述注解文字对应的音频信息。
17.结合第一方面，在一些实施例中，当所述目标文本包括文字和所述非文字信息时，根据所述非文字信息对应的音频信息，有声播放所述目标文本，包括：
18.若所述非文字信息为所述注解符号，则识别所述注解符号对应的注解文字；
19.在播放完所述非文字信息所在语句的所有文字的音频信息之后，播放所述注解文字对应的音频信息。
20.通过在播放文字的音频信息的过程中，播放注解文字对应的音频信息，能够使用户更详细地了解文本信息。
21.结合第一方面，在一些实施例中，当所述目标文本包括文字和非文字信息时，根据所述非文字信息对应的音频信息，有声播放所述目标文本，包括：
22.若所述非文字信息为所述特征字体样式，则在播放具有所述特征字体样式的文字对应的音频信息的同时，播放所述特征字体样式对应的音频信息，作为所述具有所述特征字体样式的文字对应的音频信息的背景音。
23.结合第一方面，在一些实施例中，所述确定所述非文字信息对应的音频信息，包括：
24.根据所述非文字信息的标识信息，从预设的音频信息库中确定所述非文字信息对应的音频信息。
25.第二方面，本技术提供一种文本的有声播放装置，所述装置包括：
26.识别单元，用于识别目标文本中的非文字信息；
27.确定单元，用于确定所述非文字信息对应的音频信息；
28.播放控制单元，用于根据所述非文字信息对应的音频信息，有声播放所述目标文本。
29.第三方面，本实施例提供一种终端设备，包括扬声器、存储器、处理器，以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的文本的有声播放方法。
30.第四方面，本实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的文本的有声播放方法。
31.第五方面，本技术实施例提供一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面所述的文本的有声播放方法。
32.第六方面，本技术实施例提供一种芯片系统，所述芯片系统包括处理器，所述处理器与存储器耦合，所述处理器执行存储器中存储的计算机程序，以实现如上述第一方面所述的文本的有声播放方法。在本实施例中，所述芯片系统可以为单个芯片，或者多个芯片组成的芯片模组。
33.可以理解的是，上述第二方面至第六方面的有益效果可以参见上述第一方面中的
相关描述，在此不再赘述。
附图说明
34.图1为本技术实施例提供的文本的有声播放方法所适用于的手机的结构示意图；
35.图2为本技术实施例提供的文本的有声播放方法所适用于的处理器的结构示意图；
36.图3为本技术实施例提供的文本的有声播放方法所适用于的软件架构示意图；
37.图4为本技术实施例提供的一种文本的有声播放方法的流程示意图一；
38.图5a为本技术实施例提供的一种文本的有声播放的用户控制示意图一；
39.图5b为本技术实施例提供的一种文本的有声播放的用户控制示意图二；
40.图6a为本技术实施例提供的一种emoji表情符号示意图一；
41.图6b为本技术实施例提供的一种emoji表情符号示意图二；
42.图6c为本技术实施例提供的一种emoji表情符号示意图三；
43.图6d为本技术实施例提供的一种emoji表情符号示意图四；
44.图7为本技术实施例提供的一个程序代码的显示示意图一；
45.图8为本技术实施例提供的一个程序代码的显示示意图二；
46.图9为本技术实施例提供的一种文本的有声播放方法的流程示意图二；
47.图10为本技术实施例提供的一种文本的有声播放装置的结构示意图。
具体实施方式
48.本技术实施例提供的文本的有声播放方法可以应用于手机、平板电脑、电子阅读器、笔记本电脑、上网本、可穿戴设备等具有音频信息播放功能的终端设备上，本技术实施例对终端设备的具体类型不作任何限制。
49.以终端设备是手机为例。图1示出的是本技术实施例提供的手机的部分结构的框图。参见图1，手机包括射频(radio frequency，rf)电路110、存储器120、输入单元130、显示单元140、传感器150、音频电路160、无线保真(wireless fidelity，wifi)模块170、处理器180、以及电源190等部件。本领域技术人员可以理解，图1中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
50.下面结合图1对手机的各个构成部件进行具体的介绍：
51.rf电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器180处理；另外，将设计上行的数据发送给基站。通常，rf电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noise amplifier，lna)、双工器等。此外，rf电路110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(global system of mobile communication，gsm)、通用分组无线服务(general packet radio service，gprs)、码分多址(code division multiple access，cdma)、宽带码分多址(wideband code division multiple access,wcdma)、长期演进(long term evolution,lte))、电子邮件、短消息服务(short messaging service，sms)等。
52.存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120
的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如音频信息播放功能、文本显示功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频信息、电话本等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
53.输入单元130可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元130可包括触控面板131以及其他输入设备132。触控面板131，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板131上或在触控面板131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板131。除了触控面板131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
54.显示单元140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元140可包括显示面板141，可选的，可以采用液晶显示器(liquid crystal display，lcd)、有机发光二极管(organic light-emitting diode,oled)等形式来配置显示面板141。进一步的，触控面板131可覆盖显示面板141，当触控面板131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图1中，触控面板131与显示面板141是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板131与显示面板141集成而实现手机的输入和输出功能。
55.手机还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在手机移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等。至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。
56.音频电路160、扬声器161、传声器162可提供用户与手机之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经rf电路110以发送给比如另一手机，或者将音频数据输出至存储器120以便进一步处理。
57.wifi属于短距离无线传输技术，手机通过wifi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图1示出了
wifi模块170，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。
58.处理器180是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器180可包括一个或多个处理单元；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。
59.参见图2，处理器180可以包括：文本控制单元(text view)1801、文本绘制单元(draw text)1802、文本渲染引擎1803、朗读触发器1804和文本转语音引擎(text to speech，tts)1805。其中，文本控制单元1801，用于确定文本的内容、字体大小、显示形状等显示信息。文本绘制单元1802，用于控制文本的排版样式。文本渲染引擎1803，用于根据文本的显示信息和排版样式，最终确定文本在显示界面中的显示图像。朗读触发器1804，用于根据用户的触摸操作选中文本，将其确定为目标文本，并控制手机开始有声播放该目标文本。文本转语音引擎1805，用于配合扬声器161播放目标文本对应的音频信息。
60.手机还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
61.尽管未示出，手机还可以包括摄像头。可选地，摄像头在手机的上的位置可以为前置的，也可以为后置的，本技术实施例对此不作限定。可选地，手机可以包括单摄像头、双摄像头或三摄像头等，本技术实施例对此不作限定。例如，手机可以包括三摄像头，其中，一个为主摄像头、一个为广角摄像头、一个为长焦摄像头。当手机包括多个摄像头时，这多个摄像头可以全部前置，或者全部后置，或者一部分前置、另一部分后置，本技术实施例对此不作限定。
62.另外，尽管未示出，手机还可以包括蓝牙模块等，在此不再赘述。
63.图3是本技术实施例的手机的软件结构示意图。以手机操作系统为android系统为例，在一些实施例中，将android系统分为四层，分别为应用程序层、应用程序框架层(framework，fwk)、系统层以及硬件抽象层，层与层之间通过软件接口通信。
64.如图3所示，所述应用程序层可以一系列应用程序包，应用程序包可以包括短信息，日历，相机，视频，导航，图库，通话等应用程序。
65.应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface，api)和编程框架。应用程序框架层可以包括一些预先定义的函数，例如用于接收应用程序框架层所发送的事件的函数。
66.如图3所示，应用程序框架层可以包括窗口管理器、资源管理器以及通知管理器等。
67.窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。
68.资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。
69.通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。
70.应用程序框架层还可以包括：
71.视图系统，所述视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。
72.电话管理器用于提供手机的通信功能。例如通话状态的管理(包括接通，挂断等)。
73.系统层可以包括多个功能模块。例如：传感器服务模块，物理状态识别模块，三维图形处理库(例如：opengl es)等。
74.传感器服务模块，用于对硬件层各类传感器上传的传感器数据进行监测，确定手机的物理状态；
75.物理状态识别模块，用于对用户手势、人脸等进行分析和识别；
76.三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。
77.系统层还可以包括：
78.表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2d和3d图层的融合。
79.媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:mpeg4，h.264，mp3，aac，amr，jpg，png等。
80.硬件抽象层是硬件和软件之间的层。硬件抽象层可以包括显示驱动，摄像头驱动，传感器驱动等，用于驱动硬件层的相关硬件，如显示屏、摄像头、传感器等。
81.以下实施例可以在具有上述硬件结构/软件结构的终端设备上实现。以下实施例将以手机为例，对本技术实施例提供的文本的有声播放方法进行说明。
82.手机通常都具有朗读文本的功能。目前，手机朗读文本的方式是只播放文本中的文字对应的读音音频，从而达到朗读该文本的目的。但是，这些文本中可能不仅包括文字，还包括一些非文字信息，例如标点符号、表情符号、下划线等，用于表达文本的句读、语气或者感情等，或者突出显示部分文字。因此，对于包括有非文字信息的文本，当手机采用上述文本朗读方法时，则不能充分表达文本中的非文字信息，影响对文本信息的表达效果。
83.例如，对于文本“很高兴认识你^_^”，目前手机朗读该文本的方式是，只播放其中所有的文字“很高兴认识你”的读音的音频信息。但是对该文本中的非文字信息“^_^”，则没有进行表达，影响对文本信息的表达效果。
84.为此，本技术实施例提供一种文本的有声播放方法，能够表达文本中的非文字信息，提高文本信息的表达效果。
85.参见图4，本技术实施例提供的一种文本的有声播放方法的流程示意图。该方法包括如下步骤s401-s403。
86.s401，手机识别目标文本中的非文字信息。
87.在本实施例中，目标文本是指用户选择由手机进行有声播放的文本，其可以包括一个文本中的所有内容(例如一篇小说)，也可以是该文本中的一部分(例如该篇小说中的一些段落)，本实施例不进行限制。
88.在一些实施例中，参见图5a所示，当手机显示文本时，用户可以通过触摸的方式选择该文本中的一部分文本作为目标文本，并点击播放图标，向手机输入播放指令，以控制手机有声播放该目标文本。在图5a中，用户选中的文本用阴影表示。在另一些实施例中，参见图5b所示，用户也可以直接点击播放图标，以控制手机将该文本全部作为目标文本，并有声播放该文本。
89.手机存储的目标文本中，包括了其中每一个文字和非文字信息的标识信息。其中，该标识信息用于唯一指示一个文字或者非文字信息。通过目标文本的标识信息，手机即可识别文本中的文字和非文字信息。
90.示例性的，该标识信息可以是字符编码，如unicode。例如“王”的16位unicode为u 738b，“，”的16位unicode为u 002c，制表位符号的16位unicode为u 0009，下划线的16位unicode为u 2381等。
91.需要说明的是，在本实施例中涉及的文字可以是汉语、英语、日语、法语等各种语言形式，例如可以是“高”、“兴”、“happy”、
“お”
、“bonjour”等。非文字信息可以是表情符号、标点符号、数学符号、排版控制符号、注解符号、注释符号或者文字的特征字体样式等。
92.其中，表情符号通常用于表示某种表情，例如开心的表情、流泪的表情、无聊的表情、欢呼的表情等。但是在本实施例中，表情符号并不局限于此，还可以用于表示某种事物，例如月亮、圣诞树、房子、花朵等。
93.在一些实施例中，表情符号可以是由一些非文字符号组合而成的，或者是由非文字符号和文字共同组合而成的。示例性的，这些非文字符号可以为“^”、“_”、“(”、“﹏”、“)”“{”、
“→”
、“＞”、“＜”、“|”、“\”和“/”等。组合而成的表情符号可以为“^_^”、“(＞﹏＜)”、“》_《|||”、y(^_^)y等，每一种表情符号用于表示一种表情，具体可参见表1所示。
94.表1对应关系表1
95.在另一些实施例中，表情符号可以是emoji表情符号。示例性的，图6a示出的emoji表情符号用于表示开口笑的表情。图6b示出emoji表情符号用于表示流泪的表情。图6c示出的emoji表情符号用于表示不开心的表情。图6d示出的emoji表情符号用于表示惊恐的表情。
96.在本实施例中，标点符号包括“，”、“。”、“；”、“、”、“：”、“！”、“(”、“)”、“{”、“}”、“【”、“】”、
“……”
、“？”、“——”等，表示句读、特定语气或者场景的标点符号。
97.在本实施例中，数学符号包括“ ”、
“-”
、
“÷”
、“/”、“log”、“m(米)”、“mm(毫米)”、“∶(比)”“℃”等用于数据运算或者表示单位的符号。
98.排版控制符号可以是制表位符号、换行符、分节符等，用于控制文字、标点符号、表情符号等在显示界面排版的符号，从而清楚表达文本的层次，便于用户阅读。根据用户的设置，这些排版控制符号可以显示在显示界面中，也可以隐藏在显示界面中。示例性的，当制表位符号显示在显示界面中时，可以用
“→”
表示。当换行符显示在显示界面中时可以用“crlf”表示。当空格显示在显示界面中时，可以用一个颜色浅于文字的“·”表示。
99.注解符号可以是一个文字或者词语的上标或者下标，对应有关于该文字或者词语的注解文字。例如，在文本“不知天上宫阙
①
，今夕是何年”中，注解符号为
“①”
，其对应的注解文字为“宫阙是指宫殿，因宫门外有双阙，故称宫阙”。
100.注释符号可以为程序代码代码中用于表示解释说明的符号。例如，可以包括第一注释符号“/*”、第二注释符号“*/”和第三注释符号“//”。在程序代码中，“/*”与“*/”配合使用，“/*”与“*/”之间的文字为注释文字，该注释文字可以占用多行。“//”通常单独使用，“//”之后的文字即为注释文字，该注释文字通常只占一行。
101.特征字体样式可以是斜体、下划线字体、删除线字体、加粗字体、标有底色的字体
或者彩色字体等。例如，在文本“您应确保信息都准确无误”中，特征字体样式为下划线字体。
102.s402，手机确定非文字信息对应的音频信息。
103.手机中预设有音频信息库，其中包括有文字和非文字信息对应的音频信息。示例性的，文字或者非文字信息与音频信息的对应关系可以如表2所示。
104.表2对应关系表二
[0105][0106]
对于文字，其音频信息通常与该文字的读音相对应。例如，文字“您”的音频信息对应的发音为【您】。文字“好”的音频信息对应的发音为【好】。
[0107]
对于非文字信息，其中的表情符号对应的音频信息所表达的感情，应与该表情符号所表达的感情相同。例如，对于表达开口笑的表情符号其音频信息对应的发音可以为【哈哈哈哈】。标点符号的音频信息所表达的语气，应与该标点符号所表达的语气相同。例如，对于表示疑问的标点符号“？”，其可以对应发音为【咦】的音频信息。特征字体样式对应的音频信息，应便于用户能够清楚了解该特征字体样式所传达的信息。例如，下划线字体对应的音频信息可以为铅笔划线的声音。本实施例对非文字信息对应的音频信息的具体内容不进行限制。
[0108]
需要说明的是，在音频信息库中，每一个文字或者非文字信息至少对应一个音频信息。例如，文字“您”的音频信息可以为发音为【您】的女声，也可以为发音为【您】的男声。或者，下划线对应的音频信息可以为铅笔划线的声音，也可以为钢笔划线的声音。再或者，“/”的音频信息对应的发音可以为【或】(例如在文本“她/他”中)，也可以为【除以】(例如在文本“若a＝100，b＝20，请计算a/b的数值”中)。
[0109]
此外，对于“，”、“。”、“；”、“、”等出现频次过高，且用于表示句读的标点符号，可以不在音频信息库中设置对应的音频信息，以避免在文本有声播放过程中过于频繁地插入音频信息，导致用户体验降低。
[0110]
s403，手机根据非文字信息对应的音频信息，有声播放目标文本。
[0111]
在目标文本中，文字和非文字信息都有确定的位置信息，该位置信息用于表示文字和非文字信息在目标文本中的排列位次。例如，对于字符(包括文字、标点符号、数学符号、表情符号、注解符号、注释符号等)而言，当其位置信息为5时，则代表该字符是该目标文本中的第5个字符。对于特征字体样式(例如加粗字体、斜体或者下划线等)而言，当其位置信息为10至15时，则表示该特征字体样式处于第10至15个字符所在的位置。
[0112]
为了便于描述，下文统一将位置信息a到b表示为[a,b]，其中，a小于或者等于b，且a和b均为整数。例如，本实施例将位置信息5表示为[5,5]，将位置信息10至15表示为[10,15]。
[0113]
需要说明的是，在本实施例中，作为一个整体进行显示或者发音的字符，对应一个显示位置，每一个显示位置均对应一个位置信息。例如，一个汉字(如“您”、“好”)、一个英文单词(例如“happy”、“a”等)、一个标点符号(如“，”、“。”)、一个表情符号(如“^_^”或者emoji表情符号)、一个注解符号(例如“①”、“②”)、一个排版控制符号(例如空格、制表符或者换行符)等，分别对应一个显示位置，分别具有一个对应的位置信息。当然，位置信息的确定方法还可以为其它形式，本实施例不进行限制。
[0114]
以目标文本“王老师您好，^_^很高兴认识您”为例，其中文字“王老师您好”在目标文本中的位置信息为[1,5]，标点符号“，”在目标文本中的位置信息为[6,6]，表情符号“^_^”在目标文本中的位置信息为[7,7]，“很高兴认识您”在目标文本中的位置信息依次为[8,13]。
[0115]
以目标文本“您应确保信息都准确无误”为例，其中下划线字体在该目标文本的位置信息为[8,11]。
[0116]
以目标文本“不知天上宫阙
①
，今夕是何年”为例，且注解符号
①
对应的注解文字为“宫阙是指宫殿，因宫门外有双阙，故称宫阙”。其中，注解符号
①
在该目标文本中的位置信息为[7,7]。
[0117]
在一些实施例中，目标文本中仅包括非文字信息。那么，手机在有声播放该目标文本的过程中，直接播放其中的非文字信息对应的音频信息即可。例如，在聊天场景中，目标文本中仅包括一个例如图6a所示的emoji表情符号。那么，手机在播放该目标文本的过程中，直接播放该emoji表情符号对应的音频信息即可。
[0118]
在另一些实施例中，目标文本中包括文字和非文字信息。那么手机在播放该目标文本的过程中，可以有不同的播放方式。下面将以具体的文本为例，对本技术提供的目标文本的播放方式进行说明。
[0119]
以目标文本是“王老师您好，^_^很高兴认识您”为例，手机在有声播放该目标文本的过程中，可以根据目标文本中文字和非文字信息的排列顺序，依次播放文字对应的音频信息和非文字信息对应的音频信息。具体如下所示。
[0120]
首先，识别出目标文本中“王老师您好”在目标文本中的位置信息为[1,5]，标点符号“，”在目标文本中的位置信息为[6,6]，表情符号“^_^”在目标文本中的位置信息为[7,7]，“很高兴认识您”在目标文本中的位置信息依次为[8,13]。随后，手机从预设的音频信息库中获取字符“王”、“老”、“师”、“您”、“好”、“很”、“高”、“兴”、“认”、“识”及“^_^”对应的音频信息。最后，手机第一个播放“王”的音频信息，第二个播放“老”的音频信息，第三个播放“师”的音频信息，第四个播放“您”的音频信息，第五个播放“好”的音频信息，在第六个播放位置(即“，”对应的位置)暂停预设时间(例如0.5s)，以表示句子的停顿，第七个播放“^_^”的音频信息【哈哈哈哈】，第八个播放“很”的音频信息。依次类推，播放“高”、“兴”、“认”、“识”、“您”的音频信息，从而完成目标文本“王老师您好，^_^很高兴认识您”的有声播放。
[0121]
值得说明的是，例如在聊天场景时，当目标文本中包括表情符号时，手机播放的文本声音中会增加表情符号对应的音频信息，使得文本信息的表达更加生动形象。
[0122]
以目标文本是“您应确保信息都准确无误”为例，手机在有声播放该目标文本的过程中，可以在播放文字“准确无误”的音频信息的过程中，同时播放下划线对应的音频信息，作为“准确无误”的音频信息的背景音。具体如下所示。
[0123]
首先，手机识别出目标文本中“您应确保信息都准确无误”的位置信息依次为[1,11]，下划线的位置信息为[8,11]。随后，手机从预设的音频信息库中分别获取“您”、“应”、“确”、“保”、“信”、“息”、“都”、“准”、“确”、“无”、“误”的音频信息，以及下划线的音频信息。最后，按照上述位置信息第一个播放“您”的音频信息，第二个播放“应”的音频信息，依次类推，播放“确”、“保”、“信”、“息”、“都”、“准”、“确”、“无”、“误”的音频信息。并且，当手机在开始播放“准”的音频信息时，即开始播放下划线的音频信息(如铅笔划线的声音)，直至播放完“误”的音频信息。也就是说，在播放文字“准”、“确”、“无”、“误”的音频信息的过程中，播放下划线对应的音频信息。
[0124]
以目标文本“不知天上宫阙
①
，今夕是何年”为例，手机在有声播放该目标文本的过程中，可以在播放文字“不知天上宫阙，今夕是何年”的音频信息的过程中，插入注解符号
①
对应的注解文字“宫阙是指宫殿，因宫门外有双阙，故称宫阙”的音频信息。具体如下所示。
[0125]
首先，手机识别出目标文本中“不知天上宫阙”的位置信息为[1,6]，注解符号“①”在文本中的位置信息为[7,7]，“，”的位置信息为“[8,8]”，“今夕是何年”的位置信息为[9,13]。随后，手机从预设的音频信息库中分别获取“不知天上宫阙，今夕是何年”中每个文字的音频信息，以及注解文字“宫阙是指宫殿，因宫门外有双阙，故称宫阙”中每个文字对应的音频信息。最后，手机结合注解符号“①”对应的注解文字的音频信息，播放目标文本。
[0126]
在一种可能的实现方式中，手机可以按照目标文本中文字和注解符号的排列顺序，依次播放文字对应的音频信息和注解文字对应的音频信息。例如，依次播放“不知天上宫阙”的音频信息，随后播放注解文字“宫阙是指宫殿，因宫门外有双阙，故称宫阙”的音频信息，最后播放“今夕是何年”对应的音频信息。
[0127]
在另一种可能的实现方式中，手机可以在播放完非文字信息所在语句的所有文字的音频信息之后，播放注解文字对应的音频信息。例如，手机可以依次播放完“不知天上宫阙，今夕是何年”中每个文字对应的音频信息之后，播放注解文字“宫阙是指宫殿，因宫门外有双阙，故称宫阙”中每个文字对应的音频信息。
[0128]
在本实施例中，通过在播放文字的音频信息的过程中，播放注解文字对应的音频信息，能够使用户更详细地了解文本信息。
[0129]
以目标文本是例如图7所示的程序代码为例，该程序代码中包括多个排版控制符号。手机在有声播放该目标文本的过程中，可以在播放程序代码文字的音频信息的过程中，插入排版控制符号对应的音频信息。
[0130]
需要说明的是，通常情况下，手机在显示程序代码时，并不显示排版控制符号，以
避免影响用户的阅读体验。但是，为了便于本实施例描述，例如图7所示，本实施例示出了显示有排版控制符号的程序代码。
[0131]
手机在有声播放该程序代码的第七行的过程中，首先识别出其中包括的制表位符号、“dependences”、空格符、“{”、“crlf”的位置信息分别为1、2、3、4、5。随后，手机从预设的音频信息库分别获取制表位符号、“dependences”、空格符、“{”和回车符的音频信息，并根据上述位置信息，依次播放制表位符号、“dependences”、空格符、“{”和回车符号的音频信息，从而在有声播放文本的过程中，表达文本的排版信息。
[0132]
在一个示例中，制表位符号、空格符和回车符号等排版控制符号的音频信息，可以分别对应不同的敲击键盘的声音，本实施例对其具体内容不进行限制。
[0133]
需要说明的是，在文本中，空格通常只是用来将两个单词、符号进行分隔。因此，尽管空格会占一个显示位置，但是手机在有声播放目标文本的过程中，也可以不播放其对应的音频信息。
[0134]
以目标文本是图8所示的程序代码为例，该程序代码中有多个注释信息。其中，第4至6行的文本为一个注释信息，其包括注释符号“/*”与“*/”，以及注释文字“此处需指定jcenter的具体url”。第11行为一个注释信息，其包括注释符号“//”和注释文字“版本必须是3.2.1以上”[0135]
在一种可能的实现方式中，终端设备在有声播放程序代码的过程中，在遇到注释信息时，可以不播放注释符号和注释文字所对应的音频信息。例如，在播放图8所示的程序代码的过程中，可以不播放第4至6行以及第11行的文本的音频信息。
[0136]
在另一种可能的实现方式中，终端设备在有声播放程序代码的过程中，在遇到注释信息时，可以按照注释符号和注释文字的位置信息，依次播放注释符号和注释文字对应的音频信息。其中，注释符号对应的音频信息可以为【“叮咚”】或者【代码注释】等，需要说明的是，【“叮咚”】用于代表注释符号的音频信息的音效。
[0137]
示例性的，终端设备在有声播放图8第4至6行程序代码时，可以将其播放为：【“叮咚”此处需指定jcenter的具体url】或者【代码注释此处需指定jcenter的具体url】。终端设备在有声播放图8第11行文本的过程中，可以将其播放为：【“叮咚”版本必须是3.2.1以上】或者【代码注释版本必须是3.2.1以上】。
[0138]
此外，在目标文本的非文字信息中，可能包括一些第一符号，其在不同的语言场景下具有不同的读音。示例性的，第一符号可以为“/”，在文本“她/他”中，“/”读作【或】；而在文本“若a＝100，b＝20，请计算a/b的数值”中，“/”读作【除以】。
[0139]
为了使手机能够准确地有声播放目标文本中的第一符号，参见图9，本实施例还提供一种文本的有声播放方法，包括如下步骤s901-s904。
[0140]
s901，手机识别目标文本中的第一符号。
[0141]
在本实施例中，手机中会维护一个第一符号列表，其中包括了多个第一符号的标识信息。对于文本中的每一个字符，手机都会将其标识信息与第一符号列表进行比较。若能够在第一符号列表中查找到该字符的标识信息，则将该字符确定为第一字符。
[0142]
s902，手机根据目标文本的语义，确定第一符号的应用类型。
[0143]
在本实施例中，该应用类型用于表示一个符号作为标点符号使用、或者作为数学符号使用、或者作为注解符号使用等。并且，第一符号包括至少两个应用类型对应的音频信
息。
[0144]
在一些实施例中，手机可以根据目标文本中的关键词识别目标文本的语义，确定第一符号的应用类型。例如，可以通过识别“计算”、“数值”、“比较”、“绝对值”等词语，确定该目标文本描述的是与数学运算相关的信息，从而确定该第一符号的类型为数学符号。以目标文本“若a＝100，b＝20，请计算a/b的数值”为例，手机可以根据其中的文字“＝”、“计算”、“数值”等词语，确定“/”的应用类型为数学符号。
[0145]
s903，手机根据第一符号的应用类型，确定第一符号对应的音频信息。
[0146]
在预设的音频信息库中，第一符号包括至少两个应用类型对应的音频信息。以第一符号是“/”为例，结合表1，其音频信息为音频信息8-1：【或者】，以及音频信息8-2：【除以】。
[0147]
对于目标文本“若a＝100，b＝20，请计算a/b的数值”，由于“/”的应用类型为数学符号，因此其对应的音频信息为音频信息8-2：【除以】。
[0148]
s904，手机根据第一符号对应的音频信息，有声播放目标文本。
[0149]
以目标文本“若a＝100，b＝20，请计算a/b的数值”为例，手机在有声播放该目标文本的过程中，能够识别出其中每一个字符的位置信息，其中标点符号“/”的位置信息为[17,17]。手机在根据依次播放每个字符的音频信息的过程中，在第17个字符对应的播放时间，播放“/”的音频信息8-2：【除以】。从而将目标文本“若a＝100，b＝20，请计算a/b的数值”朗读为【若a等于一百b等于二十请计算a除以b的数值】，而不是将其错误地朗读为【若a等于一百b等于二十请计算a或b的数值】。
[0150]
需要说明的是，上述各实施例对手机从音频信息库获取音频信息，以及确定位置信息的先后顺序不进行限制。也就是说，手机可以先确定位置信息，再获取音频数据；也可以先获取音频数据，再确定位置信息。
[0151]
综上所述，本实施例提供的文本的有声播放方法，能够在有声播放目标文本的过程中，播放该非文字信息对应的音频信息，从而充分表达文本中的非文字信息，提高终端设备对文本信息的表达效果，提高用户体验。
[0152]
对应于上文实施例示出的文本的有声播放方法，本实施例还提供过一种文本的有声播放装置。为了便于说明，仅示出了与本技术实施例相关的部分。
[0153]
参见图10，本实施例提供的文本的有声播放装置包括识别单元1001，确定单元1002以及播放控制单元1003。
[0154]
识别单元1001，用于识别目标文本中的非文字信息。
[0155]
确定单元1002，用于确定非文字信息对应的音频信息。
[0156]
播放控制单元1003，用于根据非文字信息对应的音频信息，有声播放目标文本。
[0157]
可选的，非文字信息包括表情符号、排版控制符号、标点符号、数学符号、注解符号或者文字的特征字体样式。
[0158]
可选的，确定单元1002还用于，根据非文字信息的标识信息，从预设的音频信息库中确定非文字信息对应的音频信息。
[0159]
可选的，当目标文本包括文字和非文字信息时，确定单元1002还用于若非文字信息为第一符号，则根据目标文本的语义，确定第一符号的应用类型，其中该第一符号包括至少两个应用类型对应的音频信息；以及，根据第一符号的应用类型，确定第一符号的音频信
息。
[0160]
可选的，当目标文本包括文字和所述非文字信息时，播放控制单元1003，还用于若非文字信息为表情符号、排版控制符号、标点符号或者数学符号，则按照目标文本中文字和非文字信息的排列顺序，以及依次播放文字对应的音频信息和非文字信息对应的音频信息。
[0161]
可选的，当目标文本包括文字和所述非文字信息时，播放控制单元1003，还用于若非文字信息为所述注解符号，则识别注解符号对应的注解文字；按照目标文本中所述文字和所述注解符号的排列顺序，依次播放文字对应的音频信息和注解文字对应的音频信息。
[0162]
可选的，当目标文本包括文字和所述非文字信息时，播放控制单元1003，还用于若非文字信息为所述注解符号，则识别注解符号对应的注解文字；以及，在播放完非文字信息所在语句的所有文字的音频信息之后，播放注解文字对应的音频信息。
[0163]
可选的，当目标文本包括文字和非文字信息时，播放控制单元1003，还用于若非文字信息为特征字体样式，则在播放具有特征字体样式的文字对应的音频信息的同时，播放特征字体样式对应的音频信息，作为具有特征字体样式的文字对应的音频信息的背景音。
[0164]
本实施例还提供了一种终端设备，该终端设备包括扬声器、存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行该计算机程序时实现上述本实施例提供的文本的有声播放方法。示例性的，该终端设备可以如图1所示。
[0165]
本实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
[0166]
该计算机可读介质至少可以包括：能够将计算机程序代码携带到字体有声播放装置的任何实体或装置、记录介质、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。
[0167]
本技术实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机或处理器上运行时，使得计算机或处理器执行上述任一个方法中的一个或多个步骤。
[0168]
本技术实施例提供一种芯片系统，所述芯片系统包括处理器，所述处理器与存储器耦合，所述处理器执行存储器中存储的计算机程序，以实现如上述本技术实施例提供的文本的有声播放方法。在本实施例中，所述芯片系统可以为单个芯片，或者多个芯片组成的芯片模组。
[0169]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。
[0170]
在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本技术实施例所述的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或
数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。
[0171]
在本技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。
[0172]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：rom或随机存储记忆体ram等各种可存储程序代码的介质。
[0173]
最后应说明的是：以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何在本技术揭露的技术范围内的变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以所述权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种中文语音声学训练模型构建及其测试方法与流程

文本的有声播放方法、装置和终端设备与流程

相关文献

最热文献