一种论文质量检测方法、装置和设备与流程

2022-03-23 09:26:48 来源：中国专利 TAG：

1.本发明一般涉及文档检测领域，并且更具体地，涉及一种论文质量检测方法、装置和设备。
背景技术：
：：2.当前论文的质量检测技术研究及发展主要集中在如下三个方向，一种是针对论文的学术水平的检测，这种一般都是采用算法分析论文内容，得出结论；另一种是单纯针对论文格式的检测，即通过将待检测论文的格式与论文模板的格式进行对比，得出对比结果；第三个方向就是查重，应用海量论文数据库，进行对比，得出重复度，来衡量论文的质量。这些论文检测方法，虽然能够从各自的方向检测论文的质量，但针对学位论文的质量，特别是本科阶段的学位论文，学校和教育主管部门更关心的方面是：论文的整体结构是否合理，论文的格式是否满足要求，论文的书写方法是否规范，论文的语法和错别字是否控制在一定程度。目前，还缺少能够从上述方面实现论文质量检测的方法。技术实现要素：3.根据本发明的实施例，提供了一种论文质量检测方案。本方案对论文的质量进行多维度的检测，更加详细、准确的获取论文质量缺陷，为论文整体质量评价提供数据支撑。4.在本发明的第一方面，提供了一种论文质量检测方法。该方法包括：5.获取论文的文档数据；6.判断所述文档数据的扩展名是否符合预设扩展名格式，若是，则将所述论文的文档结构与预设模板中的文档结构进行比对，记录结构比对结果；否则输出所述文档数据的格式异常；7.对所述文档数据中的程序代码块进行识别，记录代码块识别结果；8.对所述文档数据中的隐藏字符和/或特殊字符进行识别，记录异常字符识别结果；9.将所述文档数据中的格式信息与预设模板中规定的格式进行比对，记录格式比对结果；10.对所述文档数据中的语法错误和字符错误进行识别，记录错误字符识别结果。11.进一步地，所述将所述论文的文档结构与预设模板中的文档结构进行比对，包括：12.识别所述论文的文档结构中的若干结构以及结构顺序，判断所述结构以及结构顺序是否与预设模板中的文档结构以及结构顺序一致，若一致，则结构比对结果记录为论文主体结构正常；否则结构比对结果记录为论文主体结构异常。13.进一步地，所述对所述文档数据中的程序代码块进行识别，包括：14.将所述文档数据拆分为若干个段落文本；15.获取一所述段落文本，若所述段落文本中包含预设的单行注释数据集中的单行注释标识，且所述单行注释标识在所述段落文本的起始位置，则所述段落文本为单行注释代码块；若所述段落文本中不包含预设的数据库中单行注释数据集中的单行注释标识，或所述段落文本中包含的单行注释标识在所述段落文本的非起始位置，则判断所述段落文本中是否包含预设的数据库中多行注释数据集中的注释起始标识；16.若所述段落文本中包含预设的多行注释数据集中的注释起始标识，且所述注释起始标识在所述段落文本的起始位置，则依次获取所述段落文本的下一段落文本，并判断当前段落文本的下一段落文本的结束位置是否为所述注释起始标识对应的注释结束标识，若是，则所述注释起始标识与所述注释结束标识之间的段落文本为多行注释代码块；若所述段落文本中不包含预设的数据库中多行注释数据集中的注释起始标识，或所述段落文本中包含的注释起始标识在所述段落文本的非起始位置，则判断所述段落文本中是否包含英文字符；17.当所述段落文本的起始位置为英文字符时，若所述段落文本中包含预设的关键词数据集中的关键词，且所述关键词在预设位置，则将所述段落文本为代码块记录为代码块识别结果；否则所述段落文本为非代码块；18.若所述段落文本不为单行注释代码块、多行注释代码块，且所述段落文本的起始位置为非英文字符时，所述段落文本为非代码块；19.所述单行注释数据集为根据所述段落文本的编程语言类型，从数据库中获取所述编程语言对应的单行注释标识的集合；所述多行注释数据集为根据所述段落文本的编程语言类型，从数据库中获取所述编程语言对应的多行注释标识的集合；所述关键词数据集为根据所述段落文本的编程语言类型，从数据库中获取所述编程语言对应的关键词的集合。20.进一步地，所述将所述文档数据拆分为若干个段落文本，包括：21.识别所述文档数据中的段落换行符，以所述段落换行符作为拆分标识对所述文档数据进行段落拆分，得到拆分后的段落文本；22.若所述拆分后的段落文本中存在未换行的图片或表格，则将所述图片或表二次拆分成独立段落；23.若所述拆分后的段落文本中存在字体或字号与上下文中字体或字号不同，则对所述不同的字体或字号形成的文本进行二次拆分，形成独立段落。24.进一步地，还包括：25.若所述注释起始标识与所述注释结束标识之间的段落文本个数大于预设的段落数阈值，和/或26.若所述注释起始标识与所述注释结束标识之间的字符数大于预设的字符数阈值，则所述注释起始标识与所述注释结束标识之间的段落文本不为多行注释代码块。27.进一步地，所述对所述文档数据中的隐藏字符和/或特殊字符进行识别，包括：28.将清除格式检查设置的文档数据作为目标文档，将所述目标文档拆分为若干个数据单元，使每个所述数据单元中只包含一种属性数据；29.当所述数据单元为图片或表格时，若所述数据单元中不存在数据，则将所述数据单元存在空白图片或空表格记录为异常字符识别结果；若所述数据单元中存在特殊标记的干扰字符，则将所述数据单元存在干扰字符记录为异常字符识别结果；30.当所述数据单元为字符文本时，若所述数据单元的字符文本中存在特殊标记的干扰字符，则将所述数据单元存在干扰字符记录为异常字符识别结果；否则将所述字符文本在预设的word域代码库中进行匹配；若从所述word域代码库中匹配到相同的第一字符，则判断所述第一字符在所述字符文本中的位置；若所述第一字符处于所述字符文本的起始位置，且所述第一字符的下一位字符为中文字符，则将所述第一字符为隐藏字符记录为异常字符识别结果；若所述第一字符处于所述字符文本的起始位置，且所述第一字符的后续字符为英文字符，则继续判断所述第一字符的下一位字符是否为空格，若是，则将所述第一字符为隐藏字符记录为异常字符识别结果。31.进一步地，所述将所述文档数据中的格式信息与预设模板中规定的格式进行比对，记录格式比对结果，包括：32.将所述数据文档拆分为若干个数据单元，使每个所述数据单元中只包含一种属性数据；33.当所述数据单元为字符时，若所述字符包含的格式信息与预设模板中规定的格式信息不一致，则将所述数据单元记录为异常格式比对结果；34.当所述数据单元为图片时，若所述图片的名称和位置与预设模板中的规定不一致，则将所述数据单元为异常格式比对结果；35.当所述数据单元为表格时，若所述表格的边框格式、表面、位置与预设模板中的规定不一致，则将所述数据单元记录为异常格式比对结果。36.进一步地，还包括：37.计算所述论文中各文档结构的字符数占比以及页数占比，若所述字符数占比大于预设的字符数比例阈值，且所述页数占比大于预设的页数比例阈值，则生成所述论文符合文档结构占比要求的文档结构质量结果，否则生成所述论文不符合文档结构质量要求的文档结构质量结果；所述字符数占比为目标文档结构的字符数与所述文档数据中的总字符数的比值；所述页数占比为目标文档结构占用的页数与所述文档数据的总页数的比值。38.进一步地，还包括：39.根据所述结构比对结果、异常字符识别结果、格式比对结果、错误字符识别结果、代码块识别结果、字符数占比结果和页数占比结果，生成论文质量检测报告。40.在本发明的第二方面，提供了一种电子设备。该电子设备至少一个处理器；以及与所述至少一个处理器通信连接的存储器；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明第一方面的方法。41.应当理解，
发明内容部分中所描述的内容并非旨在限定本发明的实施例的关键或重要特征，亦非用于限制本发明的范围。本发明的其它特征将通过以下的描述变得容易理解。附图说明42.结合附图并参考以下详细说明，本发明各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：43.图1示出了根据本发明的实施例的论文质量检测方法的流程图；44.图2示出了根据本发明的实施例的识别程序代码块的方法流程图；45.图3示出了根据本发明的实施例的识别隐藏字符和/或特殊字符的方法流程图；46.图4示出了能够实施本发明的实施例的示例性电子设备的方框图；47.其中，400为电子设备、401为cpu、402为rom、403为ram、404为总线、405为i/o接口、406为输入单元、407为输出单元、408为存储单元、409为通信单元。具体实施方式48.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本发明保护的范围。49.另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。50.图1示出了本发明实施例的论文质量检测方法的流程图。51.该方法包括：52.s101、获取论文的文档数据。53.作为本发明的一种实施例，所述论文的文档数据为word文档。接收到上传的论文word文档，将所述论文word文档保存到服务器硬盘中。54.s102、判断所述文档数据的扩展名是否符合扩展名格式，若是，则将所述论文的文档结构与预设模板中的文档结构进行比对，记录结构比对结果；否则输出所述文档数据的格式异常。55.作为本发明的一种实施例，所述文档数据的扩展名的预设格式为“.doc”或“.docx”。需要判断上传的论文文档的后缀扩展名是否是“.doc”或“.docx”，如果是，则符合预设扩展名格式要求，否则不符合预设扩展名格式要求，输出所述文档数据的格式异常。所述文档数据的格式异常可以具体为文档扩展名不符合要求等形式。56.进一步地，若论文文档的后缀扩展名符合预设扩展名格式要求，则将所述论文的文档结构与预设模板中的文档结构进行比对，包括：57.识别所述论文的文档结构中的若干结构以及结构顺序，判断所述结构以及结构顺序是否与预设模板中的文档结构以及结构顺序一致，若一致，则结构比对结果记录为论文主体结构正常；否则结构比对结果记录为论文主体结构异常。58.作为本发明的一种实施例，所述论文的文档结构中的若干结构以及结构顺序，包括封面、摘要、目录、正文、参考文献、致谢、页眉页脚等必备的结构，以及结构之间的顺序。59.作为本发明的一种实施例，所述预设模板定义了封面、标题、摘要、目录、正文、页眉页脚、参考文献等七个必要结构，每个结构对应一个定位子模块，即：封面定位子模块、标题定位子模块、摘要定位子模块、目录定位子模块、正文定位子模块、页眉页脚定位子模块和参考文献定位子模块。60.封面定位子模块：封面存储在《body》元素的子元素《paragraph》内，为论文的第一页；定位封面时，首先找到整篇文档的第一个包含文字的《paragraph》，若其中的文字与论文模板中论文主标题的文字相同，则说明成功定位到封面；若其中的文字与论文模板中论文主标题的文字不同，则继续遍历之后的《paragraph》；若之后的《paragraph》中存在与主标题字符串相同的《paragraph》，则成功定位到封面；若之后的《paragraph》不能找到与主标题字符串相同的《paragraph》，则说明封面缺失或论文主标题有误。61.标题定位子模块：遍历每一个《p》元素，若该《p》元素包含了《hyperlink》元素或者《bookmarkstart》元素，则将该《p》元素判定为包含了标题的段落；若不包含《hyperlink》元素或《bookmarkstart》元素，则获取《p》元素中的全部文本，采用正则表达式匹配标题的编号以及编号和标题内容之间的空格来确定标题段落；若正则表达式无法匹配，找出文本长度符合标题长度的段落《p》，标记为疑似标题。62.摘要定位子模块：中英文摘要存储在《body》元素的子元素《paragraph》内，在定位中文摘要时，首先获取标题定位子模块定位到的全部标题，然后在其中找到“摘要”两个字，获取“摘要”标题所处的《paragraph》在《body》中的位置；然后依次遍历开始位置后的每个《paragraph》；若遍历到一个正文段落，则表示摘要定位成功；若遍历某《paragraph》中的《text》元素，发现其包含的内容为“关键词”，则在下一段终止摘要的处理，摘要定位完成；英文摘要的定位与中文摘要定位方法大致相同，唯一区别在于将“摘要”二字替换为“abstract”，将“关键词”替换为“keywords”。63.目录定位子模块：目录定位分为两种情况：经过“更新域”处理过的目录和未经“更新域”处理的目录；前者包含《hyperlink》元素，用以标记更新域的位置，该更新域的位置即为目录；后者包含《fieldchar》元素；在定位目录时，遍历《body》中全部《paragraph》，所有包含《hyperlink》元素及《fieldchar》元素的《paragraph》均为目录。64.正文定位子模块：首先寻找到全文的第一个带编号的标题，标题后的第一个段落就是正文开始处；接着过滤中间封装标题的《p》元素和封装图的《p》元素；最后定位正文结束部分，寻找正文结束后出现的第一个没有编号的标题，以此为正文部分的结束定位标志。65.页眉页脚定位子模块：首先遍历《p》元素，判断其中是否包含《sectpr》子元素；若包含《sectpr》子元素，找出《sectpr》元素的所有页眉引用《headerreference》子元素，接着找出《sectpr》元素的所有页脚引用《footerreference》子元素,利用页眉引用、页脚引用的标识符定位到相应的页眉《hdr》元素和页脚《ftr》元素；若不包含《sectpr》子元素，遍历下一个《p》元素继续检测是否包含《sectpr》子元素，直到文档最后停止遍历；在《body》元素中寻找保存最后一节属性的《sectpr》子元素，找出最后一节对应的页眉引用和页脚引用，从而定位到页眉《hdr》和页脚《ftr》元素。66.参考文献定位子模块：参考文献存储在《body》元素的子元素《paragraph》内；在定位参考文献时，首先获取标题定位子模块定位到的全部标题，然后在其中找到“参考文献”四个字，获取“参考文献”标题所处的《paragraph》在《body》中的位置；然后依次遍历开始位置后的每个《paragraph》；若遍历到一个包含文字的《paragraph》，则说明该《paragraph》包含参考文献的内容；若遍历到一个标题段落，则说明参考文献内容结束，定位完成。67.s103、对所述文档数据中的程序代码块进行识别，记录代码块识别结果。68.作为本发明的一种实施例，如图2所示，所述对所述文档数据中的程序代码块进行识别，包括：69.s201、将所述文档数据拆分为若干个段落文本。70.作为本发明的一种实施例，所述目标文档可以为“.doc”或“.docx”等能够通过word软件进行处理的文档。71.作为本发明的一种实施例，可以通过aspose公司的aspose.word工具组件进行段落拆解，从而获取各个段落文本。每个段落文本之间的首行和尾行不为同一行。72.作为本发明的一种实施例，所述将所述文档数据拆分为若干个段落文本，包括：73.识别所述文档数据中的段落换行符，以所述段落换行符作为拆分标识对所述文档数据进行段落拆分，得到拆分后的段落文本；若所述拆分后的段落文本中存在未换行的图片或表格，则将所述图片或表二次拆分成独立段落；若所述拆分后的段落文本中存在字体或字号与上下文中字体或字号不同，则对所述不同的字体或字号形成的文本进行二次拆分，形成独立段落。74.s202、获取一所述段落文本，若所述段落文本中包含预设的单行注释数据集中的单行注释标识，且所述单行注释标识在所述段落文本的起始位置，则所述段落文本为单行注释代码块。75.作为本发明的一种实施例，所述单行注释数据集为根据所述段落文本的编程语言类型，从数据库中获取所述编程语言对应的单行注释标识的集合。即，根据所述段落文本的编程语言类型，从数据库中获取所述编程语言对应的单行注释标识，生成单行注释数据集。例如java中单行注释标识“//”、c 中单行注释标识“//”。76.所述多行注释数据集为根据所述段落文本的编程语言类型，从数据库中获取所述编程语言对应的多行注释标识的集合；即根据所述段落文本的编程语言类型，从数据库中获取所述编程语言对应的多行注释标识，生成多行注释数据集；例如java中多行注释标识“/*,*/”，“/**,*/”；c 中多行注释标识“/*,*/”，“/**,*/”。77.关键词数据集为根据所述段落文本的编程语言类型，从数据库中获取所述编程语言对应的关键词的集合；即根据所述段落文本的编程语言类型，从数据库中获取所述编程语言对应的关键词，生成关键词数据集。例如java中关键词public、private、for。78.其中，所述单行注释数据集为单行注释标识的集合；所述多行注释数据集为多行注释标识的集合；所述关键词数据集为各编程语言的代码中关键词的集合。由所述单行注释数据集、多行注释数据集以及关键词数据集组成数据库。所述数据库是一根据代码类别，类型整理存储的数据库表。类别按语言划分；类型分为单行注释代码、多行注释代码和代码关键词；每条注释代码会有一最大文本数。根据该库作为判断是否为代码的依据。79.作为本发明的一种实施例，在java中，拆分后的一段落文本以“//”作为起始，则判断该段落文本为代码块，且为单行注释代码块。80.通过该实施例，能够首先对段落文本是否为单行注释代码块进行识别，若不为单行注释代码块，再进行后续多行注释代码块的识别，由于单行注释代码块的识别逻辑较为简单，故能够在保证识别准确性的前提下，提升识别效率，节省识别时间。81.作为本发明的一种实施例，若所述段落文本中不包含预设的数据库中单行注释数据集中的单行注释标识，或所述段落文本中包含的单行注释标识在所述段落文本的非起始位置，则判断所述段落文本中是否包含预设的数据库中多行注释数据集中的注释起始标识。82.s203、若所述段落文本中包含预设的多行注释数据集中的注释起始标识，且所述注释起始标识在所述段落文本的起始位置，则依次获取所述段落文本的下一段落文本，并判断当前段落文本的下一段落文本的结束位置是否为所述注释起始标识对应的注释结束标识，若是，则所述注释起始标识与所述注释结束标识之间的段落文本为多行注释代码块；若所述段落文本中不包含预设的数据库中多行注释数据集中的注释起始标识，或所述段落文本中包含的注释起始标识在所述段落文本的非起始位置，则判断所述段落文本中是否包含英文字符。83.作为本发明的一种实施例，在java中，将所述段落文本中的字符串依次与多行注释数据集进行匹配，若匹配出注释起始标识为“/*”，则说明所述段落文本中包含注释起始标识“/*”。进一步地，判断该注释起始标识“/*”是否为所述段落文本的起始位置，若是，则判断所述段落文本的结束位置是否为对应的注释结束标识“*/”；否则继续判断下一段落文本的结束位置是否为注释结束标识“*/”，若不是注释结束标识“*/”，则再继续判断下一段落文本，直至识别出以注释结束标识“*/”作为段落结束的段落文本。将注释起始标识“/*”到注释结束标识“*/”之间的段落文本作为多行注释代码块。84.进一步地，若所述注释起始标识与所述注释结束标识之间的段落文本个数大于预设的段落数阈值，和/或若所述注释起始标识与所述注释结束标识之间的字符数大于预设的字符数阈值，则所述注释起始标识与所述注释结束标识之间的段落文本不为多行注释代码块。85.作为本发明的一种实施例，还可以预先设置段落数阈值，所述段落书阈值用于判断注释起始标识与注释结束标识之间的段落文本是否为多行注释代码块，即，计算所述注释起始标识与所述注释结束标识之间的段落文本个数；若所述注释起始标识与所述注释结束标识之间的段落文本个数大于预设的段落数阈值，则所述注释起始标识与所述注释结束标识之间的段落文本不为多行注释代码块。通过上述识别判断，可以利用段落数阈值，将虽然存在注释起始标识和注释结束标识的两个段落文本，但明显不属于多行注释代码内容的情况进行规避。86.作为本发明的一种实施例，还可以预先设置字符数阈值，所述字符数阈值用于判断注释起始标识与注释结束标识之间的段落文本是否为多行注释代码块，即，计算所述注释起始标识与所述注释结束标识之间的字符数；若所述注释起始标识与所述注释结束标识之间的字符数大于预设的字符数阈值，则所述注释起始标识与所述注释结束标识之间的段落文本不为多行注释代码块。通过上述识别判断，可以利用字符数阈值，将虽然存在注释起始标识和注释结束标识的两个段落文本，但明显不属于多行注释代码内容的情况进行规避。87.作为本发明的一种实施例，还可以预先设置段落数阈值和字符数阈值；计算所述注释起始标识与所述注释结束标识之间的段落文本个数以及字符数；若所述注释起始标识与所述注释结束标识之间的段落文本个数大于预设的段落数阈值，且字符数大于字符数阈值，则所述注释起始标识与所述注释结束标识之间的段落文本不为多行注释代码块。通过上述识别判断，可以同时利用字符数阈值以及段落数阈值，对所述段落文本进行双重判定，使判定结果更加准确。88.作为本发明的一种实时例，若所述段落文本中不包含预设的数据库中多行注释数据集中的注释起始标识，或所述段落文本中包含的注释起始标识在所述段落文本的非起始位置，则执行s204，即判断所述段落文本中是否包含英文字符。89.s204、当所述段落文本的起始位置为英文字符时，若所述段落文本中包含预设的关键词数据集中的关键词，且所述关键词在预设位置，则将所述段落文本为代码块记录为代码块识别结果；否则所述段落文本为非代码块。90.作为本发明的一种实施例，可以通过三层判断过程，基于关键字识别代码块。91.第一层判断，若所述段落文本的起始位置为英文字符，则进行第二层判断；否则所述段落文本为非代码块。例如，所述段落文本的起始位置为中文字符“好”，则该段落文本为非代码块。92.第二层判断，若所述段落文本中包含预设的关键词数据集中的关键词，则进行第三层判断；否则该段落文本为非代码块。93.第三层判断，若所述关键词在预设位置，则所述段落文本为代码块；否则该段落文本为非代码块。94.其中，每个编程语言的关键词都对应有预设位置，例如java中关键词public在开头位置，private在开头位置。95.判断一个关键词是否在预设位置，首先判断文本中是否有关键词，如果有匹配的关键词，则查看该关键词在关键词集合中标注的对应位置标识，若为开头标识，则判断该关键词在文本中位置是否从0位置开始。若为任意位置则无需判断，若为结尾位置，则判断该关键词在文本中位置是否以文本长度位置为结束。96.s205、若所述段落文本不为单行注释代码块、多行注释代码块，且所述段落文本的起始位置为非英文字符时，所述段落文本为非代码块。97.s104、对所述文档数据中的隐藏字符和/或特殊字符进行识别，记录异常字符识别结果。98.作为本发明的一种实施例，如图3所示，对所述文档数据中的隐藏字符和/或特殊字符进行识别，包括：99.s301、将清除格式检查设置的文档数据作为目标文档，将所述目标文档拆分为若干个数据单元，使每个所述数据单元中只包含一种属性数据。100.作为本发明的一种实施例，在将目标word进行拆分之前，需要清除word中的格式检查设置。所述格式检查设置包括文档检查器中嵌入的文档检查设置和标题折叠的文档检查设置。其中，文档检查器中嵌入的文档检查设置为在word文档中通过下波浪线对可能存在拼写错误或格式错误的字符进行标注。所述标题折叠的文档检查设置为对word中的过长内容，通过设置折叠的方式将某些内容折叠起来显示。101.在本实施例中，清除word中的格式检查设置可以通过程序调用wordapi，清除word中所有格式检查的设置。102.由于word新版本增加了文件-信息-检查文档的功能，直接拆解word会导致文本中有检查文档功能的隐藏代码，例如页眉页脚的标准格式检查等。故需要先清除word中所有格式检查的设置。103.作为本发明的一种实施例，可以通过调用aspose.wordapi，将目标word文档中的数据拆分为若干个数据单元，每个数据单元为通过aspose能够拆分得到的最小单位。每个数据单元只包含一种属性的数据，例如只包含图片shape、表格table、文本run.text中的一种属性。需要注意的是，当表格中存在文本，其只体现为表格属性。104.s302、当所述数据单元为图片或表格时，若所述数据单元中不存在数据，则将所述数据单元存在空白图片或空表格记录为异常字符识别结果。105.作为本发明的一种实施例，可以通过aspose对数据单元的属性进行判断，得到判断结果。如果所述判断结果为图片，则所述数据单元为图片；如果所述判断结果为表格，则所述数据单元为表格；如果所述判断结果为文本，则所述数据单元为文本。106.作为本发明的一种实施例，当所述数据单元为图片时，获取所述图片的文件大小，将小于预设的文件大小阈值的图片作为空白图片，将所述数据单元存在空白图片格记录为异常字符识别结果。例如，设置文件大小阈值为10k，如果所述图片的大小小于10k，则该图片为空白图片，在字符识别结果中记录所述图片为异常。107.在上述实施例中，当所述图片的大小小于预设的文件大小阈值时，调用百度图片校验接口进一步判断所述图片是否为空白图片。通过对图片是否为空白图片进行二次判断过程，增加了校验过程，提高了空白图片识别准确性。108.作为本发明的一种实施例，当所述数据单元为表格时，判断所述表格中是否存在文本，若不存在，则所述表格为空表格，将所述数据单元存在空表格记录为异常字符识别结果。例如，可以通过aspose获取表格内容，如果存在表格内容，且表格内容为文本，则所述表格不是空表，否则表格为空表，在字符识别结果中记录所述表格为异常。109.进一步地，当所述数据单元为图片或表格时，若所述数据单元中存在特殊标记的干扰字符，则将所述数据单元存在干扰字符记录为异常字符识别结果。110.按照正则表达式的规则，识别出特殊标记的干扰字符。具体包括：111.利用正则表示判断文本是否与所记录正则匹配，若匹配，则判断为干扰字符，将该字符替换为空字符，从而达成清洗目的。正则表达式，例如^ref_ref2678、^ref_ref3488、^hyperlink。所述特殊标记的干扰字符，例如author、autonum、advance。112.若当前数据单元校验完毕，继续校验下一图片或表格。113.s303、当所述数据单元为字符文本时，若所述数据单元的字符文本中存在特殊标记的干扰字符，则将所述数据单元存在干扰字符记录为异常字符识别结果；否则将所述字符文本在预设的word域代码库中进行匹配；若从所述word域代码库中匹配到相同的第一字符，则判断所述第一字符在所述字符文本中的位置；若所述第一字符处于所述字符文本的起始位置，且所述第一字符的下一位字符为中文字符，则将所述第一字符为隐藏字符记录为异常字符识别结果；若所述第一字符处于所述字符文本的起始位置，且所述第一字符的后续字符为英文字符，则继续判断所述第一字符的下一位字符是否为空格，若是，则将所述第一字符为隐藏字符记录为异常字符识别结果。114.所述字符文本包括中文字符、英文字符以及符号字符。115.所述预设的word域代码库是一个可扩展的符号库，所述word域代码库中存储有word文档中各类别的域代码，例如包括编号、等式和公式、链接和引用、日期和时间、索引和目录，文档信息、文档自动化、用户信息、邮件合并等域代码。116.将所述数据单元中的字符文本逐个在预设的word域代码库中进行匹配，如果word域代码库中的一个域代码匹配失败后，若word域代码库中仍有未匹配过的域代码，则继续将所述字符文本与未匹配过的域代码进行匹配，直至匹配到一致的域代码。此时即发现该字符文本在预设的word域代码库中。若所述字符文本已经完成了所述word域代码库中全部域代码的匹配过程，仍未匹配到一致的域代码，则所述字符文本不在预设的word域代码库中，继续处理下一数据单元。117.当所述字符文本从预设的word域代码库中匹配到域代码时，判断所述匹配到的字符在所述字符文本中的位置，若所述匹配到的字符处于所述字符文本的起始位置，且匹配到的字符的下一位字符为中文字符，则将所述第一字符为隐藏字符记录为异常字符识别结果。而当所述匹配到的字符后面是英文字符时，若所述匹配到的字符的后一位为空格，则所述匹配到的字符为域代码，即将所述匹配到的字符记录为异常字符识别结果。118.s105、将所述文档数据中的格式信息与预设模板中规定的格式进行比对，记录格式比对结果。119.作为本发明的一种实施例，将所述文档数据中的格式信息与预设模板中规定的格式进行比对，记录格式比对结果，包括：120.将所述数据文档拆分为若干个数据单元，使每个所述数据单元中只包含一种属性数据；121.当所述数据单元为字符时，若所述字符包含的格式信息与预设模板中规定的格式信息不一致，则将所述数据单元记录为异常格式比对结果。所述格式信息包括字体、字号、行间距、缩进、加粗等格式信息。122.当所述数据单元为图片时，若所述图片的名称和位置与预设模板中的规定不一致，则将所述数据单元为异常格式比对结果；123.当所述数据单元为表格时，若所述表格的边框格式、表面、位置与预设模板中的规定不一致，则将所述数据单元记录为异常格式比对结果。例如，若所述表格存在跨页情况，则与预设模板中规定不一致，记录为异常格式比对结果。124.s106、对所述文档数据中的语法错误和字符错误进行识别，记录错误字符识别结果。125.作为本发明的一种实施例，应用开源代码kenlm统计语言模型工具分词；应用开源代码pycorrector文本纠错工具和进行文本错别字和语法错误识别。所述文本包括中文文本和英文文本。若识别错别字，则将字符错误记录为错误字符识别结果。若识别出语法错误，则将语法错误记录为错误字符识别结果。126.作为本发明的一种实施例，所述论文质量检测方法，还包括：127.计算所述论文中各文档结构的字符数占比以及页数占比，若所述字符数占比大于预设的字符数比例阈值，且所述页数占比大于预设的页数比例阈值，则生成所述论文符合文档结构占比要求的文档结构质量结果，否则生成所述论文不符合文档结构质量要求的文档结构质量结果。128.所述字符数占比为目标文档结构的字符数与所述文档数据中的总字符数的比值；所述页数占比为目标文档结构占用的页数与所述文档数据的总页数的比值。129.作为本发明的一种实施例，所述论文质量检测方法，还包括：130.检测参考文献出现的位置与正文的引用词的对应关系，若参考文献出现的位置对应的引用词与参考文献不一致，则生成参考文献对应错误结果。131.作为本发明的一种实施例，所述论文质量检测方法，还包括：132.根据所述结构比对结果、异常字符识别结果、格式比对结果、错误字符识别结果、代码块识别结果、字符数占比结果和页数占比结果，生成论文质量检测报告。133.作为本发明的一种实施例，所述论文质量检测报告可以包括结构比对结果、异常字符识别结果、格式比对结果、错误字符识别结果、代码块识别结果、字符数占比结果、页数占比结果、参考文献对应错误结果。例如，论文的基本信息、统计信息、章节分布信息、错误的明细信息、语法和错别字建议信息。所述统计信息为按类型的错误统计信息，例如可以统计错误出现的次数，并根据错误类型和错误出现的次数对论文进行质量评价。所述质量评价可以通过评分或评级的形式。还可以将存在的问题进行预警提示。134.作为本发明的一种实施例，可以将结构比对结果、异常字符识别结果、格式比对结果、错误字符识别结果、代码块识别结果、字符数占比结果、页数占比结果、参考文献对应错误结果在论文原文中对应错误位置处通过批注进行显示，并提示对应出错原因。135.根据本发明的实施例，通过对论文的文件格式、章节结构、封面内容及格式、摘要格式、目录格式、正文格式、图片和表格的格式、参考文献格式及与正文的对照关系、页眉页脚的格式等进行比对和分析，并且通过全文的语法和错别字的纠错，最后形成包含上述各种类型错误的检测报告。本发明的实施例更加全面和具体，增加了大量的检测点，并且采用格式质量、章节结构质量、语法质量等维度对论文的质量数据进行了精准的采集，为学位论文的整体质量评价，提供了数据支撑。136.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。137.根据本发明的实施例，本发明还提供了一种电子设备和一种可读存储介质。138.图4示出了可以用来实施本发明的实施例的电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。139.设备400包括计算单元401，其可以根据存储在只读存储器(rom)402中的计算机程序或者从存储单元408加载到随机访问存储器(ram)403中的计算机程序，来执行各种适当的动作和处理。在ram403中，还可存储设备400操作所需的各种程序和数据。计算单元401、rom402以及ram403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。140.设备400中的多个部件连接至i/o接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元408，例如磁盘、光盘等；以及通信单元409，例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。141.计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理，例如方法s101～s106。例如，在一些实施例中，方法s101～s106可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由rom402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到ram403并由计算单元401执行时，可以执行上文描述的方法s101～s106的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法s101～s106。142.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。143.用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。144.在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。145.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。146.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。147.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。148.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。149.上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种API的风险确定方法、装置、设备及介质与流程

一种论文质量检测方法、装置和设备与流程

相关文献

最热文献