文本编辑方法及系统与流程

2022-06-05 07:15:10 来源：中国专利 TAG：

1.本发明涉及文本处理技术领域，特别涉及一种文本编辑方法及系统。

背景技术：

2.现有技术中，随着技术的发展以及信息获取途径的多元化，数字媒体不断冲击传统媒体，大众的阅读习惯也在不停地发生着改变，从而催生出了有声读物这种阅读形式。有声读物是一种以声音为媒介的电子读物，包括有声新闻、有声小说等等，有声读物与数字媒体和传统媒体之间既有交叉又有区别，其具有的独特优势能够满足各种用户的需求。
3.然而，发明人经研究发现，现有技术中有声读物的制作不是系统化、流程化的，尤其是将现有的文本例如小说或者剧本转换为录音脚本的过程需要花费大量人工和时间，导致制作有声读物的生产效率低、灵活性差。

技术实现要素：

4.基于此，为解决现有技术中的技术问题，特提出了一种文本编辑方法，包括：步骤1，接收长文本并对其中的章节标题进行解析；步骤2，完成解析后获得解析结果及章节列表，根据解析结果生成以章节为单位的章节结构化数据；步骤3，生成章节结构化数据后，利用章节结构化数据对章节进行编辑操作；步骤4，完成编辑操作后，导出编辑后的长文本。
5.在一种实施例中，步骤1中，对长文本的原文进行遍历操作，匹配原文的章节标题并解析其中的章节序号、章节名称；其中，从章节标题格式模板库中选择章节标题格式模板，根据选定的章节标题格式模板解析长文本的章节序号、章节名称；判断章节名称中是否存在非正文内容，并选择去除非正文内容。
6.在一种实施例中，利用基于语法的匹配方法或机器学习模型分类方法判断原文中的文本是否为章节标题；其中，基于语法的匹配方法包括正则表达式；利用基于语法的解析方法或者机器学习模型预测方法从章节标题中提取章节序号和章节名称；其中，基于语法的解析方法包括正则表达式；当章节标题格式模板库中没有符合的章节标题格式模板时，选择使用自定义的正则表达式进行解析；其中，利用基于语法的匹配方法或者机器学习模型分类方法匹配非正文内容；其中，基于语法的匹配方法包括正则表达式；利用基于语法的替换方法或者机器学习模型预测方法去除非正文内容；其中，基于语法的替换方法包括正则表达式。
7.在一种实施例中，步骤2中，章节结构化数据包括原文序号、排序序号、序差、章节名称、章节内容、章节字数；
其中，原文序号为从原文中解析出的章节序号；排序序号为对原文进行排序得到的章节序号；当出现排序序号和原文序号不一致的情况时，序号和原序号之间存在差值，序号和原序号之间的差为序差，序差用于判断是否有缺漏或者多余的章节；其中，章节内容包括一个或多个段落的文本；章节字数为对章节内文本字数的统计结果。
8.在一种实施例中，其中，利用统计模型对章节字数进行建模分析，所述统计模型用于判断章节内的章节字数是否过多或过少，当章节字数过多或过少时则判定该章节存在字数异常情况；对判定为字数异常的章节进行高亮显示，以便于基于此异常信息进行章节列表筛选和文字编辑。
9.在一种实施例中，步骤3中，章节的编辑操作包括增加、删除、修改、移动及检索操作；其中，在对章节实施了增加、删除、修改、移动操作后重新计算章节的排序序号；其中，增加章节的操作包括将当前章节内容划分为不同部分而构成新的章节，或者创建新的章节并在其中添加新的内容。
10.在一种实施例中，编辑操作还包括重构操作，利用章节结构化数据对章节进行重构操作；其中，根据章节字数准则重构章节的结构，章节重构后的结构单位为集；其中，章节字数准则包括设定每集的字数范围，字数范围包括最小值和最大值；从当前最后一集的结束位置开始，向后搜索字数范围所对应的文字起点位置和文字终点位置，并在界面上高亮显示搜索到的字数范围的文本；在搜索的字数范围的文本中，根据内容需要选定当前集的结束位置，从而划分出新的下一集，并将该结束位置处作为新的一集的文字起点位置开始继续向后划分；当重新划分的集的文本中包括多个章节标题时，选择其中一个章节名称作为该集的集名称；对重新划分得到的集进行排序，每集获得对应的集序号。
11.在一种实施例中，步骤4中，导出的章节序号为原文序号或排序序号；导出文本的文件格式包括由多个章节组成的文件，或者由单个章节构成一个文件；其中，导出文本的章节以章节序号和标题作为首行；导出文本的文件名根据章节序号和章节名称确定。
12.在一种实施例中，当以集为结构单位重构了章节结构，则导出以集为结构单位的文本，并在导出前选择需要导出的集的范围；导出时指定集的范围中第一集的起始排序序号；导出以集为结构单位的文本的文件格式包括由多个集组成的文件，或者由单个集构成一个文件；导出文本的集以集序号和集名称为首行；导出文件的文件名根据集序号和集名称确定。
13.此外，为解决现有技术中的技术问题，特提出了一种文本编辑系统，包括依次相互连接的解析装置、数据处理器、编辑器、导出装置；其中，所述解析装置接收长文本并对其中的章节标题进行解析；其中，所述解析装置完成解析后获得解析结果及章节列表，将所述解析结果发送至与其相连接的所述数据处理器；所述数据处理器根据解析结果生成以章节为单位的章节结构化数据；
其中，所述数据处理器将生成的章节结构化数据发送至与其相连接的所述编辑器，所述编辑器利用章节结构化数据对章节进行编辑操作；其中，所述编辑器完成编辑操作后，通过与其相连接的所述导出装置导出编辑后的长文本。
14.在一种实施例中，所述解析装置对长文本的原文进行遍历操作，匹配原文的章节标题并解析其中的章节序号、章节名称；所述解析装置包括章节标题格式模板库；编辑用户从章节标题格式模板库中选择章节标题格式模板，所述解析装置根据编辑用户选定的章节标题格式模板解析长文本的章节序号、章节名称；所述解析装置判断章节名称中是否存在非正文内容，并由编辑用户选择去除非正文内容。
15.在一种实施例中，所述解析装置利用基于语法的匹配方法或机器学习模型分类方法判断原文中的文本是否为章节标题；其中，基于语法的匹配方法包括正则表达式；所述解析装置利用基于语法的解析方法或者机器学习模型预测方法从章节标题中提取章节序号和章节名称；其中，基于语法的解析方法包括正则表达式；当章节标题格式模板库中没有符合的章节标题格式模板时，选择使用自定义的正则表达式进行解析；所述解析装置利用基于语法的匹配方法或者机器学习模型分类方法匹配非正文内容；其中，基于语法的匹配方法包括正则表达式；所述解析装置利用基于语法的替换方法或者机器学习模型预测方法去除非正文内容；其中，基于语法的替换方法包括正则表达式。
16.在一种实施例中，章节结构化数据包括原文序号、排序序号、序差、章节名称、章节内容、章节字数；其中，原文序号为从原文中解析出的章节序号；排序序号为对原文进行排序得到的章节序号；当出现排序序号和原文序号不一致的情况时，序号和原序号之间存在差值，序号和原序号之间的差为序差，序差用于判断是否有缺漏或者多余的章节；其中，章节内容包括一个或多个段落的文本；章节字数为对章节内文本字数的统计结果。
17.在一种实施例中，所述数据处理器利用统计模型对章节字数进行建模分析，所述统计模型用于判断章节内的章节字数是否过多或过少，当章节字数过多或过少时则判定该章节存在字数异常情况；对判定为字数异常的章节进行高亮显示，以便于基于此异常信息进行章节列表筛选和文字编辑。
18.在一种实施例中，章节的编辑操作包括增加、删除、修改、移动及检索操作；其中，在所述编辑器对章节实施了增加、删除、修改、移动操作后重新计算章节的排序序号；其中，增加章节的操作包括将当前章节内容划分为不同部分而构成新的章节，或者创建新的章节并在其中添加新的内容。
19.在一种实施例中，所述编辑器的编辑操作包括重构，所述章节编辑器利用章节结构化数据对章节进行重构操作；其中，所述编辑器根据章节字数准则重构章节的结构，章节重构后的结构单位为
集；其中，章节字数准则包括设定每集的字数范围，字数范围包括最小值和最大值；从当前最后一集的结束位置开始，向后搜索字数范围所对应的文字起点位置和文字终点位置，并在界面上高亮显示搜索到的字数范围的文本；编辑用户在搜索的字数范围的文本中，根据内容需要选定当前集的结束位置，从而划分出新的下一集，并将该结束位置处作为新的一集的文字起点位置开始继续向后划分；当重新划分的集的文本中包括多个章节标题时，编辑用户选择其中一个章节名称作为该集的集名称；所述编辑器对重新划分得到的集进行排序，每集获得对应的集序号。
20.在一种实施例中，所述导出装置导出的章节序号为原文序号或排序序号；所述导出装置导出文本的文件格式包括由多个章节组成的文件，或者由单个章节构成一个文件；其中，所述导出装置导出文本的章节以章节序号和标题作为首行；所述导出装置导出文本的文件名根据章节序号和章节名称确定。
21.在一种实施例中，当以集为结构单位重构了章节结构，则所述导出装置导出以集为结构单位的文本，并在导出前选择需要导出的集的范围；所述导出装置导出时指定集的范围中第一集的起始排序序号；所述导出装置导出以集为结构单位的文本的文件格式包括由多个集组成的文件，或者由单个集构成一个文件；所述导出装置导出文本的集以集序号和集名称为首行；所述导出装置导出文件的文件名根据集序号和集名称确定。
22.实施本发明实施例，将具有如下有益效果：本发明通过解析长文本得到结构化数据并根据结构化数据编辑章节信息，去除章节名称中的非正文内容，通过监测章节字数异常情况使其在字数异常情况下仍能正常工作；还能够根据结构化数据重构章节结构，生成以集为结构单位的文本，从而大大提高了在将现有的文本例如小说或者剧本转换为录音脚本的编辑效率，进一步提升了制作有声读物的生产效率及灵活性。
23.附图说明
24.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
25.其中：图1为本发明中文本编辑方法的流程示意图；图2为本发明中文本编辑系统的示意图。
26.具体实施方式
27.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完
整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
28.本发明公开了一种文本编辑方法，包括：步骤1，接收长文本并对其中的章节标题进行解析；其中，对长文本的原文进行遍历操作，匹配原文的章节标题并解析其中的章节序号、章节名称；例如，原文的章节标题为“第200章章节名称”或者“二〇〇、章节名称”，则解析出的章节序号为200；特别地，从章节标题格式模板库中选择章节标题格式模板，根据选定的章节标题格式模板解析长文本的章节序号、章节名称；特别地，利用基于语法的匹配方法或机器学习模型分类方法判断原文中的文本是否为章节标题；其中，基于语法的匹配方法包括正则表达式；利用基于语法的解析方法或者机器学习模型预测方法从章节标题中提取章节序号和章节名称；其中，基于语法的解析方法包括正则表达式；当章节标题格式模板库中没有符合的章节标题格式模板时，选择使用自定义的正则表达式进行解析；特别地，判断章节名称中是否存在非正文内容，并选择去除章节名称中的非正文内容；例如，非正文内容为给读者的留言、备注信息，例如给读者的留言为“春节快乐”等；非正文内容通常符合特定的模式，例如以括号开始和结束，或具有某些内容层面特征；其中，利用基于语法的匹配方法或者机器学习模型分类方法匹配非正文内容；其中，基于语法的匹配方法包括正则表达式；利用基于语法的替换方法或者机器学习模型预测方法去除非正文内容；其中，基于语法的替换方法包括正则表达式；步骤2，完成解析后获得解析结果及章节列表，根据解析结果生成以章节为单位的章节结构化数据；其中，章节结构化数据包括原文序号、排序序号、序差、章节名称、章节内容、章节字数；在章节列表下包含前后章节的跳转按钮；得到章节列表后，点击章节列表中的章节则跳转至该章节的起始处；其中，原文序号为从原文中解析出的章节序号；排序序号为对原文进行排序得到的章节序号；当出现排序序号和原文序号不一致的情况时，序号和原序号之间存在差值，序号和原序号之间的差为序差，序差用于判断是否有缺漏或者多余的章节；解析得到的章节名称可能为空，即章节不具有对应的章节名称；其中，章节内容包括一个或多个段落的文本；章节字数为对章节内文本字数的统计结果；特别地，利用统计模型对章节字数进行建模分析，所述统计模型用于判断章节内的章节字数是否过多或过少；当章节字数过多或过少时则判定该章节存在字数异常情况；
特别地，所述统计模型为高斯模型；利用高斯模型对章节字数进行建模，高斯模型的模型参数为均值方差；其中，高斯模型如下所示：其中，μ为模型均值，σ为标准差；利用三西格马准则（three-sigma rule）进行异常情况的判断；特别地，也可选择使用别的模型对章节字数进行建模分析，而不仅限于高斯模型；利用模型的似然值或者概率密度值对章节字数是否异常进行评估，当似然值或概率密度值低于设定阈值则判定该章节存在字数异常的情况；或者，利用章节字数和模型均值之间的距离对章节字数是否异常进行评估，当距离高于设定阈值时则判定该章节存在字数异常的情况，其中，设定阈值为绝对值或者和模型参数相关的相对值；对判定为字数异常的章节进行高亮显示，以便于基于此异常信息进行章节列表筛选和文字编辑；步骤3，生成章节结构化数据后，利用章节结构化数据对章节进行编辑操作；其中，章节的编辑操作包括增加、删除、修改、移动及检索操作；其中，在对章节实施了增加、删除、修改、移动操作后重新计算章节的排序序号；其中，增加章节的操作包括将当前章节内容划分为不同部分而构成新的章节，或者创建新的章节并在其中添加新的内容；其中，章节名称是可以修改的；特别地，编辑操作还包括重构操作，利用章节结构化数据对章节进行重构操作；其中，根据章节字数准则重构章节的结构，章节重构后的结构单位为集；其中，章节字数准则包括设定每集的字数范围，字数范围包括最小值和最大值；例如，字数范围设置为2000-2500字，最小值为2000，最大值为2500；从当前最后一集的结束位置开始，向后搜索字数范围所对应的文字起点位置和文字终点位置，并在界面上高亮显示搜索到的字数范围的文本；在搜索的字数范围的文本中，根据内容需要选定当前集的结束位置，从而划分出新的下一集，并将该结束位置处作为新的一集的文字起点位置开始继续向后划分；当重新划分的集的文本中包括多个章节标题时，选择其中一个章节名称作为该集的集名称；对重新划分得到的集进行排序，每集获得对应的集序号；步骤4，导出编辑后的长文本；其中，导出的章节序号为原文序号或排序序号；导出文本的文件格式包括由多个章节组成的文件，或者由单个章节构成一个文件；其中，导出文本的章节以章节序号和标题作为首行；导出文本的文件名根据章节序号和章节名称确定；特别地，当以集为结构单位重构了章节结构，则导出以集为结构单位的文本，并在导出前选择需要导出的集的范围；导出时指定集的范围中第一集的起始排序序号；例如，设定导出的集的起始排序
序号为100，则导出时集的编号从第100集开始；导出以集为结构单位的文本的文件格式包括由多个集组成的文件，或者由单个集构成一个文件；导出文本的集以集序号和集名称为首行；导出文件的文件名根据集序号和集名称确定。
29.此外，本发明还公开了一种文本编辑系统，包括依次相互连接的解析装置、数据处理器、编辑器、导出装置；其中，所述解析装置接收长文本并对其中的章节标题进行解析；具体地，所述解析装置对长文本的原文进行遍历操作，匹配原文的章节标题并解析其中的章节序号、章节名称；例如，原文的章节标题为“第200章章节名称”或者“二〇〇、章节名称”，则解析出的章节序号为200；特别地，所述解析装置包括章节标题格式模板库；编辑用户从章节标题格式模板库中选择章节标题格式模板，所述解析装置根据编辑用户选定的章节标题格式模板解析长文本的章节序号、章节名称；特别地，所述解析装置利用基于语法的匹配方法或机器学习模型分类方法判断原文中的文本是否为章节标题；其中，基于语法的匹配方法包括正则表达式；所述解析装置利用基于语法的解析方法或者机器学习模型预测方法从章节标题中提取章节序号和章节名称；其中，基于语法的解析方法包括正则表达式；当章节标题格式模板库中没有符合的章节标题格式模板时，选择使用自定义的正则表达式进行解析；特别地，所述解析装置判断章节名称中是否存在非正文内容，并由编辑用户选择去除章节名称中的非正文内容；例如，非正文内容为给读者的留言、备注信息，例如给读者的留言为“春节快乐”等；非正文内容通常符合特定的模式，例如以括号开始和结束，或具有某些内容层面的特征；其中，所述解析装置利用基于语法的匹配方法或者机器学习模型分类方法匹配非正文内容；其中，基于语法的匹配方法包括正则表达式；所述解析装置利用基于语法的替换方法或者机器学习模型预测方法去除非正文内容；其中，基于语法的替换方法包括正则表达式；其中，所述解析装置完成解析后获得解析结果及章节列表，将所述解析结果发送至与其相连接的所述数据处理器；所述数据处理器根据解析结果生成以章节为单位的章节结构化数据；其中，章节结构化数据包括原文序号、排序序号、序差、章节名称、章节内容、章节字数；在章节列表下包含前后章节的跳转按钮；得到章节列表后，点击章节列表中的章节则跳转至该章节的起始处；其中，原文序号为从原文中解析出的章节序号；排序序号为对原文进行排序得到的章节序号；当出现排序序号和原文序号不一致的情况时，序号和原序号之间存在差值，序号和原序号之间的差为序差，序差用于判断是否有缺漏或者多余的章节；
解析得到的章节名称可能为空，即章节不具有对应的章节名称；其中，章节内容包括一个或多个段落的文本；章节字数为对章节内文本字数的统计结果；特别地，所述数据处理器利用统计模型对章节字数进行建模分析，所述统计模型用于判断章节内的章节字数是否过多或过少；当章节字数过多或过少时则所述数据处理器判定该章节存在字数异常情况；特别地，所述统计模型为高斯模型；所述数据处理器利用高斯模型对章节字数数据统计进行建模，高斯模型的模型参数为均值方差；其中，高斯模型如下所示：其中，μ为模型均值，σ为标准差；利用三西格马准则（three-sigma rule）进行异常情况的判断；特别地，也可选择使用别的模型对章节字数进行建模分析，而不仅限于高斯模型；所述数据处理器利用模型的似然值或者概率密度值对章节字数是否异常进行评估，当似然值或概率密度值低于设定阈值则判定该章节存在字数异常的情况；或者，所述数据处理器利用章节字数和模型均值之间的距离对章节字数是否异常进行评估，当距离高于设定阈值时则判定该章节存在字数异常的情况，其中，设定阈值为绝对值或者和模型参数相关的相对值；所述数据处理器对判定为字数异常的章节进行高亮显示，以便于基于此异常信息进行章节列表筛选和文字编辑；其中，所述数据处理器将生成的章节结构化数据发送至与其相连接的所述编辑器，所述编辑器利用章节结构化数据对章节进行编辑操作；其中，章节的编辑操作包括增加、删除、修改、移动及检索操作；其中，在所述编辑器对章节实施了增加、删除、修改、移动操作后重新计算章节的排序序号；其中，增加章节的操作包括将当前章节内容划分为不同部分而构成新的章节，或者创建新的章节并在其中添加新的内容；其中，章节名称为可修改的；特别地，所述编辑器的编辑操作包括重构，所述章节编辑器利用章节结构化数据对章节进行重构操作；其中，所述编辑器根据章节字数准则重构章节的结构，章节重构后的结构单位为集；其中，章节字数准则包括设定每集的字数范围，字数范围包括最小值和最大值；例如，字数范围设置为2000-2500字，最小值为2000，最大值为2500；从当前最后一集的结束位置开始，向后搜索字数范围所对应的文字起点位置和文字终点位置，并在界面上高亮显示搜索到的字数范围的文本；编辑用户在搜索的字数范围的文本中，根据内容需要选定当前集的结束位置，从而划分出新的下一集，并将该结束位置处作为新的一集的文字起点位置开始继续向后划分；
当重新划分的集的文本中包括多个章节标题时，编辑用户选择其中一个章节名称作为该集的集名称；所述编辑器对重新划分得到的集进行排序，每集获得对应的集序号；其中，所述编辑器完成编辑操作后，通过与其相连接的所述导出装置导出编辑后的长文本；其中，所述导出装置导出的章节序号为原文序号或排序序号；所述导出装置导出文本的文件格式包括由多个章节组成的文件，或者由单个章节构成一个文件；其中，所述导出装置导出文本的章节以章节序号和标题作为首行；所述导出装置导出文本的文件名根据章节序号和章节名称确定；特别地，当以集为结构单位重构了章节结构，则所述导出装置导出以集为结构单位的文本，并在导出前选择需要导出的集的范围；所述导出装置导出时指定集的范围中第一集的起始排序序号；例如，设定导出的集的起始排序序号为100，则导出时集的编号从第100集开始；所述导出装置导出以集为结构单位的文本的文件格式包括由多个集组成的文件，或者由单个集构成一个文件；所述导出装置导出文本的集以集序号和集名称为首行；所述导出装置导出文件的文件名根据集序号和集名称确定。
30.以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

文本编辑方法及系统与流程

相关文献

最热文献