图像处理方法、装置、设备及存储介质与流程

2022-04-16 13:24:37 来源：中国专利 TAG：

1.本发明一般涉及图像
技术领域：
：，具体涉及一种图像处理方法、装置、设备及存储介质。
背景技术：
：：2.随着技术的发展，目前，在开会、培训、教学中，应用ppt或者课件等其他文档资料的方式非常普及，采用ppt或课件等文档的方式进行演讲给演讲者带来便利，可以避免演讲时在白板或者黑板上实时书写的低效率，但是，会给听讲者带来不便，由于采用ppt或者课件等文档的方式时省去了演讲者的实时书写的时间，因此，演讲速度就会比较快，听讲者会来不及记笔记。3.现在，大多数听讲者采用录视频或者拍照的方式来记录ppt或课件等文档的内容，演讲结束之后，再对ppt或者课件等文档进行整理，此方式效率较低。技术实现要素：4.鉴于现有技术中的上述缺陷或不足，期望提供一种图像处理方法、装置、设备及存储介质。5.第一方面，本技术提供了一种图像处理方法，该方法包括：6.识别n张图像的图像内容；7.当识别到n张图像的图像内容中包含文档资料时，从n张图像中截取文档资料图像，得到m张截取图像；8.对m张截取图像进行拼接，并以电子文档格式输出拼接文件；9.其中，n为正整数，m为小于或等于n的正整数。10.在其中一个实施例中，图像为视频帧图像；11.识别n张图像的图像内容之前，还包括：12.获取目标视频中标记记录的标记点；13.根据标记点，确定目标视频中标记点对应的视频帧图像。14.在其中一个实施例中，获取目标视频中标记记录的标记点之前，还包括：15.在目标视频录制过程中或者在目标视频播放过程中，接收在目标视频上的标记输入；16.响应于标记输入，在目标视频中对应的视频帧图像标记标记点；17.其中，每一标记点处对应一张视频帧图像。18.在其中一个实施例中，对截取图像进行拼接，包括：19.获取m张截取图像对应的文档资料图像，在目标视频中的播放时序；20.根据播放时序，确定m张截取图像的第一拼接顺序；21.按照第一拼接顺序，拼接m张截取图像。22.在其中一个实施例中，对截取图像进行拼接，包括：23.确定m张截取图像对应的文档资料图像的文档页码；24.根据文档页码，确定m张截取图像的第二拼接顺序；25.按照第二拼接顺序，拼接m张截取图像。26.在其中一个实施例中，从n张图像中截取文档资料图像，得到m张截取图像的步骤中：27.在n张图像截取的文档资料图像中存在相同的文档资料图像的情况下，将相同的文档资料图像中的其中一张作为一张截取图像。28.在其中一个实施例中，当识别到图像内容中包含的文档资料的任意一个边界，与文档资料所在的图像对应的边界之间存在夹角，夹角大于夹角阈值时，29.从n张图像中截取文档资料图像，包括：30.对文档资料进行透视校正裁剪。31.在其中一个实施例中，电子文档格式包括演示文稿文件格式、pdf格式、富文本格式、word格式、文字编辑系统文档格式中任意一种。32.在其中一个实施例中，文档资料包括ppt文档、课件文档中任意一种。33.第二方面，本技术提供了一种图像处理装置，该装置包括：34.识别模块，用于识别n张图像的图像内容；35.截取模块，用于当识别到n张图像的图像内容中包含文档资料时，从n张图像中截取文档资料图像，得到m张截取图像；36.输出模块，用于对m张截取图像进行拼接，并以电子文档格式输出拼接文件。37.第三方面，本技术提供了一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如第一方面的图像处理方法。38.第四方面，本技术提供了一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面的图像处理方法。39.本技术实施例提供的技术方案，通过从包含文档资料的图像中截取文档资料图像，对截取的文档资料图像拼接，并以电子文档格式输出拼接文件，有效的减少了对ppt或者课件等文档进行整理的时间，提高了效率。附图说明40.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本技术的其它特征、目的和优点将会变得更明显：41.图1为本发明实施例提供的图像处理方法的流程示意图；42.图2为本发明实施例提供的图像处理装置的结构示意图；43.图3为本发明实施例提供的一种电子设备的结构示意图。具体实施方式44.下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。45.为了使本
技术领域：
：的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本技术保护的范围。46.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。47.此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。48.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。49.目前，在开会、培训、教学中，应用ppt或者课件等其他文档资料的方式非常普及，采用ppt或课件等文档的方式进行演讲给演讲者带来便利，可以避免演讲时在白板或者黑板上实时书写的低效率，由于采用ppt或者课件等文档的方式时省去了演讲者的实时书写的时间，因此，演讲速度就会比较快，听讲者会来不及记笔记。50.现在，大多数听讲者采用录视频或者拍照的方式来记录ppt或课件等文档的内容，演讲结束之后，再对ppt或者课件等进行整理，此方式效率较低。51.基于上述问题，本技术期望提成一种图像处理方法，整理录视频或拍照方式记录的ppt或课件等文档资料时，其效率高，用户使用满意度高。52.上述方法可以应用于安装有相机的终端设备中，终端设备可以是手机、平板电脑、笔记本电脑、智能头盔、智能眼镜、电话手表等。53.需要说明的是，本发明实施例提供的图像处理方法，其执行主体可以是图像处理装置，该图像处理装置可以通过软件、硬件或者软硬件结合的方式实现成为终端设备的部分或者全部。下述方法实施例中，均以执行主体是终端设备为例来进行说明。54.参照图1，其示出了根据本技术一个实施例提供的一种图像处理方法的流程示意图。55.如图1所示，一种图像处理方法，可以包括：56.s110、识别n张图像的图像内容。57.具体的，图像可以是视频帧图像(即视频中某一帧对应的帧图像)，也可以是图片图像(例如相机拍的照片、截屏图像等)等。图像可以直接从录制视频或者图片的终端设备获取得到，也可以从存储有录制的视频或者图片的存储设备获取得到，还可以通过下载获取得到等方式获取得到，这里对图像的形式及获取方式均不做限制。58.可以通过对神经网络训练实现识别图像的图像内容。也可以通过其他方式进行识别。59.如果图像是图片图像时，将获取到的图片图像直接输入神经网络模型即可完成图像的图像内容识别。60.如果图像是视频帧图像，需要先将获取到的视频进行处理得到视频帧图像。61.在一个实施例中，图像为视频帧图像，识别n张图像的图像内容图像之前，该方法还包括：62.获取目标视频中标记记录的标记点；63.根据标记点，确定目标视频中标记点对应的视频帧图像。64.具体的，目标视频为用户录制的视频或是存储的视频或是下载得到的视频等中带有标记记录的标记点的视频。其中，标记记录的标记点可以是用户输入的，也可以是终端设备等输入的，标记点的个数为n，n为正整数。视频帧图像可以为图像中任意一帧图像，本实施例中视频帧图像为目标视频中标记点处对应的视频帧图像，标记n个标记点，即对应n张视频帧图像。65.在一个实施例中，获取目标视频中标记记录的标记点之前，还包括：66.在目标视频录制过程中或者在目标视频播放过程中，接收在目标视频上的标记输入；67.响应于标记输入，在目标视频中对应的视频帧图像标记标记点；68.其中，每一标记点处对应一张视频帧图像。69.具体的，用户在录制视频或播放视频时，根据实际需要边录制视频或边播放视频时边在视频上标记标记点。标记标记点时可以设置每隔预设时长进行自动标记，该预设时长可以根据实际需要进行设置。可以理解的，如果预设时长设置太大即间隔较长时间标记一次标记点，可能会漏标记图像内容中包含文档资料的图像；如果预设时长设置太小即间隔较短时间标记一次标记点，图像内容中包含同一文档资料的图像可能会重复多次，在识别图像时需要识别的图像会较多，耗时较长。该预设时长可以根据神经网络模型学习训练进行设置。70.标记标记点时还可以是用户边录制视频或边播放视频时边根据演讲的ppt或课件等翻页时而手动标记标记点。71.标记标记点时还可以采用判断相邻帧的图像的图像内容中包含的文档资料是否发生变化的算法进行实时判断，如果判断相邻帧的图像的图像内容中包含的文档资料发生变化时，可以自动标记标记点，也可以弹窗询问用户是否需要标记，用户根据实际需求进行选择是否标记标记点。需要说明的是，对视频标记标记点的方式还可以采用其他方式，这里对此不做限制。72.获取到目标视频及目标视频中标记记录的标记点后，根据目标视频中的标记点，即可确定标记的视频帧图像。识别图像的图像内容时，可以对所有标记的视频帧图像输入神经网络模型，即可完成确定视频帧图像的图像内容中是否包含文档资料。73.s120、当识别到n张图像的图像内容中包含文档资料时，从n张图像中截取文档资料图像，得到m张截取图像。74.具体的，当识别到图像的图像内容中包含文档资料时，由于录制的环境因素，图像可能过暗或者过曝，此时，需要将过暗或过曝的图像先进行处理至亮度正常范围，该处理可以采用现有技术，这里不再赘述。可选的，文档资料可以包括ppt文档、课件文档等中任意一种。75.对处理后的图像，根据边界识别技术检测图像中文档资料的边界，根据检测出的边界对图像进行裁切。可以理解的，为了裁切出的文档资料图像美观，根据检测出的边界对图像进行裁切时，可以将四周的边界均向外延伸(即左边界向左延伸，右边界向右延伸，上边界向上延伸，下边界向下延伸)预设长度，该四个方向延伸的预设长度可以相等，也可以不等，可以根据实际需求进行设定。76.在一个实施例中，从n张图像中截取文档资料图像，得到m张截取图像的步骤中：77.在n张图像截取的文档资料图像中存在相同的文档资料图像的情况下，将相同的文档资料图像中的其中一张作为一张截取图像。78.具体的，由于从n张图像中截取的文档资料图像可能存在相同的文档资料图像的情况，因此，可以判断截取图像的图像内容中包含的文档资料是否存在相同的文档资料，若存在，则保留相同的文档资料中的其中一份对应的截取图像，将相同的文档资料中的其余份对应的截取图像均剔除。79.在判断截取图像的图像内容中包含的文档资料是否存在相同的文档资料时，可以采用图像中文本的比对算法，对所有截取图像中包含的文档资料进行比对。80.由上，由于截取的文档资料图像中存在有相同的文档资料图像的情况，因此截取得到的截取图像的张数可能小于或等于图像的张数，即得到的截图图像的张数m为小于或等于图像张数n的正整数。81.在录制视频时，一般不会正对着屏幕录制，即录制出的视频中包含的文档资料通常是倾斜的(此处倾斜是指文档资料的任意一个边界，与文档资料所在的图像对应的边界有夹角，夹角大于夹角阈值)。因此，在截取文档资料时，需要利用倾斜检测和校正的方法对其进行处理。即先对文档资料进行倾斜检测，若文档资料倾斜时，则需要先对文档资料进行校正。通常采用的倾斜检测方法有：基于文本行的检测方法、投影轮廓分析方法和hough变换方法等。82.在一个实施例中，当识别到图像内容中包含的文档资料的任意一个边界，与文档资料所在的图像对应的边界之间存在夹角，且夹角大于夹角阈值时，对图像中的文档资料进行截取，包括：对文档资料进行透视校正裁剪。83.具体的，对文档资料进行透视校正裁剪，即将文档资料的所有边界与文档资料所在的图像对应的边界的夹角校正到夹角阈值内，可以采用photoshop技术，也可以采用扭曲文档图像恢复技术等其他技术，在此不进行限制。84.夹角阈值可以根据实际需求进行设定，示例性的，夹角阈值可以设置为5°。85.s130、对截取图像进行拼接，并以电子文档格式输出拼接文件。86.具体的，截取图像为从图像中截取的文档资料图像，对截取图像进行拼接，可以包括将截图图像拼接得到拼接图像，拼接图像以电子文档格式输出拼接文件，还可以包括将截取图像输入至word文档或ppt文档或pdf文档等中，在上述任一文档中对截取图像进行拼接，或在上述任一文档中将每一截取图像分别作为文档中的一页，然后以电子文档格式统一输出为拼接文件。以电子文档格式输出拼接文件后，可以向用户发送文件保存的路径，在文件管理器中可以查找到保存的文件。87.电子文档格式可以根据用户的实际需求进行设置，可选的，电子文档格式可以包括演示文稿文件格式、pdf(portabledocumentformat，便携式文档格式)格式、富文本(richtextformat，rtf)格式、word格式、文字编辑系统文档(wordprocessingsystem，wps)格式中任意一种。还可以报文excel工作簿格式，网页格式，mht文件格式等能显示图像的格式。88.可以理解的，在演讲者进行演讲时，经常存在跳回之前已经演讲过的ppt或课件等文档，这种情况，录制视频的人标记的标记点对应的视频帧图像或拍照的人拍的照片，可能会包含与之前标记点对应的视频帧图像或拍摄的照片相同的内容。如果直接对所有截取图像进行拼接，得到的拼接图像中可能会出现拼接的页码与原始ppt或课件等文档的页码不对应，且包含重复的内容。因此，在拼接时，需要对截取图像进行排序。89.在一个实施例中，对截取图像进行拼接，包括：90.获取m张截取图像对应的文档资料图像，在目标视频中的播放时序；91.根据播放时序，确定m张截取图像的第一拼接顺序；92.按照第一拼接顺序，拼接m张截取图像。93.具体的，文档资料图像在目标视频中的播放时序与在目标视频中标记标记点的时间相关，先标记的标记点对应的播放时序在前，后标记的标记点对应的播放时序在后，即文档资料图像在目标图像中的播放时序为标记标记点的时间顺序。94.第一拼接顺序为截取图像在输出的拼接文件中的显示顺序，该第一拼接顺序与播放时序一致，均为标记标记点时的时间顺序。按照该第一拼接顺序拼接m张截取图像。95.在一个实施例中，对截取图像进行拼接，包括：96.确定m张截取图像对应的文档资料图像的文档页码；97.根据文档页码，确定m张截取图像的第二拼接顺序；98.根据第二拼接顺序，拼接m张截取图像。99.具体的，通常情况下，ppt或课件等文档资料中，页码的位置可以设置于页码顶端或页码底端的左、中、右等位置处，对截取图像中可能设置页码的位置进行检测，确定文档资料图像的页码，根据文档资料图像的页码，确定m张截取图像的文档页码。100.第二拼接顺序为截取图像在输出的拼接文件中的显示顺序，该第二拼接顺序与ppt或课件等文档资料的页码顺序一致。按照该第二拼接顺序拼接m张截取图像。101.本技术实施例中，通过识别到n张图像的图像内容中包含文档资料时，从n张图像中截取文档资料图像，得到m张截取图像，对m张截取图像进行拼接，并以电子文档格式输出拼接文件，可以减少用户对ppt或者课件等文档进行整理的时间，提高了效率。102.下述以录制tag(标记)视频为例进行说明本技术实施例提出的图像处理方法。103.用户用相机录制tag视频(边录制边手动标记tag)，录完之后，在手机上打开tag视频相册，可以显示查看标记入口，点击查看标记入口，查看标记展开为每个标记点对应的视频帧图像所在视频中的时间数，对每个标记点对应的视频帧图像进行识别，以确定视频帧图像中是否包含文件资料，当识别到视频帧图像中包含文档资料时，可以在手机相册界面显示导出文件按钮，点击导出文件，可以将视频中的文件进行截取拼接，并对需要矫正页面进行透视矫正裁剪，拼接过程中可以基于视频帧图像的页面及时间等信息确定文档资料顺序，并判断是否存在相同的文档资料，如果存在，则去重处理，视频中文档资料以pdf格式文件导出并存储，还可以提示用户文件的存储路径，文件管理器中可查找到该文件。104.如图2为本技术实施例提供的图像处理装置200的结构示意图。如图2所示，该装置可以实现如图1所示的方法，该装置可以包括：105.识别模块210，用于识别n张图像的图像内容；106.截取模块220，用于当识别到n张图像的图像内容中包含文档资料时，从n张图像中截取文档资料图像，得到m张截取图像；107.输出模块230，用于对m张截取图像进行拼接，并以电子文档格式输出拼接文件。108.可选的，图像为视频帧图像，该装置还包括：109.第一获取模块，用于获取目标视频及目标视频中标记记录的标记点；110.确定模块，用于根据标记点，确定目标视频中标记点对应的视频帧图像。111.可选的，该装置还包括：112.输入接收模块，用于在目标视频录制过程中或者在目标视频播放过程中，接收在目标视频上的标记输入；113.响应模块，用于响应于标记输入，在目标视频中对应的视频帧图像标记标记点；114.其中，每一标记点处对应一张视频帧图像。115.可选的，输出模块230还用于：116.获取m张截取图像对应的文档资料图像，在目标视频中的播放时序；117.根据播放时序，确定m张截取图像的第一拼接顺序；118.按照第一拼接顺序，拼接m张截取图像。119.可选的，输出模块230还用于：120.确定m张截取图像对应的文档资料图像的文档页码；121.根据文档页码，确定m张截取图像的第二拼接顺序；122.按照第二拼接顺序，拼接m张截取图像。123.可选的，截取模块220还用于：124.在n张图像截取的文档资料图像中存在相同的文档资料图像的情况下，将相同的文档资料图像中的其中一张作为一张截取图像。125.可选的，当识别到图像内容中包含的文档资料的任意一个边界，与文档资料所在的图像对应的边界之间存在夹角，且夹角大于夹角阈值时，截取模块220还用于：126.对文档资料进行透视校正裁剪。127.可选的，电子文档格式包括演示文稿文件格式、pdf格式、富文本格式、word格式、文字编辑系统文档格式中任意一种。128.可选的，文档资料包括ppt文档、课件文档中任意一种。129.本实施例提供的图像处理装置，可以执行上述方法的实施例，其实现原理和技术效果类似，在此不再赘述。130.图3为本发明实施例提供的一种电子设备的结构示意图。如图3所示，示出了适于用来实现本技术实施例的电子设备300的结构示意图。131.如图3所示，电子设备300包括中央处理单元(cpu)301，其可以根据存储在只读存储器(rom)302中的程序或者从存储部分308加载到随机访问存储器(ram)303中的程序而执行各种适当的动作和处理。在ram303中，还存储有设备300操作所需的各种程序和数据。cpu301、rom302以及ram303通过总线304彼此相连。输入/输出(i/o)接口306也连接至总线304。132.以下部件连接至i/o接口305：包括键盘、鼠标等的输入部分306；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分307；包括硬盘等的存储部分308；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至i/o接口306。可拆卸介质311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器310上，以便于从其上读出的计算机程序根据需要被安装入存储部分308。133.特别地，根据本公开的实施例，上文参考图1描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行上述图像处理方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分309从网络上被下载和安装，和/或从可拆卸介质311被安装。134.附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。135.描述于本技术实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。136.作为另一方面，本技术还提供了一种存储介质，该存储介质可以是上述实施例中前述装置中所包含的存储介质；也可以是单独存在，未装配入设备中的存储介质。存储介质存储有一个或者一个以上程序，前述程序被一个或者一个以上的处理器用来执行描述于本技术的图像处理方法。137.以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本技术中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于存储器的访存权限控制方法及装置

图像处理方法、装置、设备及存储介质与流程

相关文献

最热文献