文件分类方法、文件分类装置以及记录介质与流程

2021-12-17 19:44:00 来源：中国专利 TAG：

1.本公开涉及文件分类方法、文件分类装置以及记录介质。

背景技术：

2.例如在专利文献1中，公开了用于根据内容而将电子化的大量的文件分类为类别的文件分类装置等。在专利文献1所公开的技术中，基于反复对类别分类对象的文件中的文章所包含的单词的出现频度以及共现关系进行分析来进行依存解析而获得的可靠性分数，锁定并提取成为该文章的特征的短语。然后，通过使用成为该文章的特征的短语来生成该文章的类别，从而对该文章的类别进行分类。
3.在先技术文献
4.专利文献
5.专利文献1：日本特开2014
‑
41481号公报

技术实现要素：

6.本公开的一个方式涉及的文件分类方法是由计算机进行将文件分类为至少一个类别的处理的文件分类方法，该文件分类方法包括：从作为分类对象的第1文件所包含的第1文章信息中，提取一个以上的第1特征词；基于提取出的所述一个以上的第1特征词，从包括多个预先包含第2文章信息且被赋予了预先分类的一个以上的类别的事例的数据库中，提取与所述第1文件类似的给定数量的第1事例，所述第2文章信息按照根据含义被预先分类的一个以上的项目的每个项目来表示该项目的要点；从所述给定数量的第1事例各自的第2文章信息中，提取所述给定数量的第1事例各自的一个以上的第2特征词；基于提取出的所述一个以上的第2特征词，计算所述给定数量的第1事例各自与所述第1文件的一致度；和将计算出的一致度之中一致度最大的第1事例被赋予的一个以上的类别决定为所述第1文件的类别，从而将所述第1文件分类为至少一个类别。
7.本公开的一个方式涉及的文件分类装置是将文件分类为至少一个类别的文件分类装置，具备处理器和存储器，所述处理器使用记录在所述存储器中的程序，从作为分类对象的第1文件所包含的第1文章信息中，提取一个以上的第1特征词，基于提取出的所述一个以上的第1特征词，从包括多个预先包含第2文章信息且被赋予了预先分类的一个以上的类别的事例的数据库中，提取与所述第1文件类似的给定数量的第1事例，所述第2文章信息按照根据含义被预先分类的一个以上的项目的每个项目来表示该项目的要点，从所述给定数量的第1事例各自的第2文章信息中，提取所述给定数量的第1事例各自的一个以上的第2特征词，基于提取出的所述一个以上的第2特征词，计算所述给定数量的第1事例各自与所述第1文件的一致度，将计算出的一致度之中一致度最大的第1事例被赋予的一个以上的类别决定为所述第1文件的类别，从而将所述第1文件分类为至少一个类别。
8.本公开的一个方式涉及的记录介质是记录有用于使计算机执行将文件分类为至少一个类别的文件分类方法的程序的计算机可读取的记录介质，所述程序用于使计算机执
行以下处理：从作为分类对象的第1文件所包含的第1文章信息中，提取一个以上的第1特征词，基于提取出的所述一个以上的第1特征词，从包括多个预先包含第2文章信息且被赋予了预先分类的一个以上的类别的事例的数据库中，提取与所述第1文件类似的给定数量的第1事例，所述第2文章信息按照根据含义被预先分类的一个以上的项目的每个项目来表示该项目的要点，从所述给定数量的第1事例各自的第2文章信息中，提取所述给定数量的第1事例各自的一个以上的第2特征词，基于提取出的所述一个以上的第2特征词，计算所述给定数量的第1事例各自与所述第1文件的一致度，将计算出的一致度之中一致度最大的第1事例被赋予的一个以上的类别决定为所述第1文件的类别，从而将所述第1文件分类为至少一个类别。
9.另外，这些整体性的或具体的方式既可以通过装置、方法、系统、集成电路、计算机程序或计算机可读取的cd
‑
rom等记录介质来实现，也可以通过装置、方法、系统、集成电路、计算机程序以及记录介质的任意的组合来实现。
附图说明
10.图1是示出实施方式1涉及的文件分类装置的一个例子的框图。
11.图2是示出实施方式1涉及的数据库所包括的事例的一个例子的图。
12.图3是示出实施方式1涉及的文件分类装置的功能结构例的框图。
13.图4是示出由实施方式1涉及的第1特征词提取部进行的第1特征词的提取方法的一个例子的图。
14.图5是示出实施方式1涉及的第1事例提取部提取出的第1事例的一个例子的图。
15.图6是示出图5中提取出的5个第1事例各自的项目与第1文件的一致度的一个例子的图。
16.图7是示出通过软件来实现实施方式1涉及的文件分类装置的功能的计算机的硬件结构的一个例子的图。
17.图8是示出实施方式1涉及的文件分类装置的动作例的流程图。
18.图9是示出实施方式2涉及的文件分类装置的功能结构例的框图。
19.图10是示出实施方式2涉及的由文章范围确定部确定的表示第1文件的每个项目的内容的文章范围的一个例子的图。
20.图11是示出实施方式2涉及的由要点创建部创建的第1文件中的每个项目的内容的要点的一个例子的图。
21.图12是示出实施方式2涉及的文件分类装置将文件所包含的文章以按照项目进行了整理的事例保存到数据库11中为止的处理概要的图。
22.符号说明
23.10、20：文件分类装置；
24.11：数据库；
25.101：输入部；
26.102：存储器；
27.103：第1特征词提取部；
28.104：第1事例提取部；
29.105：第2特征词提取部；
30.106：一致度计算部；
31.107：类别决定部；
32.108：输出部；
33.209：文章范围确定部；
34.210：要点创建部；
35.211：保存处理部。
具体实施方式
36.(实现本公开的经过)
37.近年来，蓄积了如例如技术报告或论文等学术文献那样电子化的大量的文件。因而，期待使用ai(artificial intelligence，人工智能)等使这样的文件自动地分类为与内容相应的类别。
38.如果对电子化的大量的文件的类别进行分类，则容易对这些文件进行检索。其结果是，可能能够不依赖于经验丰富者的知识而使用检索到的文件在短时间内进行以往依赖于经验丰富者的知识的不良情况的产生原因的把握和不良情况的解决。进而，如果能够使用学术文献的大数据分析或机器学习来进行学术文献的内容的分析，则可能能够在更短时间内进行不良情况的产生原因的把握和不良情况的解决，可能能够抑制伴随着不良情况的巨大的召回费用的产生。因此，可以说自动对电子化的文件的类别进行分类给社会带来的冲击较大。
39.相对于此，如上述那样，在专利文献1中，公开了用于根据内容将电子化的大量的文件分类为类别的文件分类装置等。
40.然而，在专利文献1所公开的技术中，存在如果不能高精度地提取成为文章的特征的短语，则不能高精度地对类别进行分类这样的问题。为了高精度地提取成为文章的特征的短语，需要反复进行对出现频度以及共现关系进行分析从而进行依存解析之类的高级的自然语言处理，以获得阈值以上的可靠性分数。即，在专利文献1所公开的技术中，在锁定并提取文件所包含的成为文章的特征的短语时，需要烦杂且高级的自然语言处理。计算机进行这样的高级的自然语言处理时，负荷较高(换言之计算量较多)，需要处理能力，因而有时难以提取高精度的短语。
41.因而，期待削减计算机的计算量，并且即使在不能高精度地提取成为文章的特征的短语的情况下也能高精度地对类别进行分类。
42.本公开是鉴于上述的事情而实现的发明，其目的在于，提供能够高精度地对文件的类别进行分类的文件分类方法等。
43.因此，本公开的一个方式涉及的文件分类方法是由计算机进行将文件分类为至少一个类别的处理的文件分类方法，从作为分类对象的第1文件所包含的第1文章信息中，提取一个以上的第1特征词，基于提取出的所述一个以上的第1特征词，从包括多个预先包含第2文章信息且被赋予了预先分类的一个以上的类别的事例的数据库中，提取与所述第1文件类似的给定数量的第1事例，所述第2文章信息按照根据含义被预先分类的一个以上的项目的每个项目来表示该项目的要点，从所述给定数量的第1事例各自的第2文章信息中，提
取所述给定数量的第1事例各自的一个以上的第2特征词，基于提取出的所述一个以上的第2特征词，计算所述给定数量的第1事例各自与所述第1文件的一致度，将计算出的一致度之中一致度最大的第1事例被赋予的一个以上的类别决定为所述第1文件的类别，从而将所述第1文件分类为至少一个类别。
44.通过该结构，能够高精度地对文件的类别进行分类。
45.更详细地，通过该结构，即使不能从作为分类对象的第1文件所包含的第1文章信息高精度地提取一个以上的第1特征词，也能够使用该第1特征词，从蓄积有已经高精度地被分类的事例的数据库中提取与第1文件类似的给定数量的第1事例。使用从提取出的给定数量的第1事例各自中提取出的一个以上的第2特征词，计算与作为分类对象的第1文件的一致度，将最接近第1文件的第1事例的类别决定为第1文件的类别。即，利用蓄积有已经高精度地被分类的事例的数据库，并使用与第1文件最类似的第1事例的类别对第1文件的类别进行分类。由此，即使不能高精度地提取第1特征词，也能够高精度地对第1文件的类别进行分类。
46.此外，例如也可以是，在提取所述一个以上的第1特征词时，通过对所述第1文章信息进行词素分析来提取所述第1文章信息所包含的多个单词，根据通过进行所述多个单词的依存解析而获得的所述多个单词的出现频度以及共现关系来计算分数，通过将计算出的所述分数为阈值以上的一个以上的单词决定为所述一个以上的第1特征词，从而从所述第1文章信息中提取所述一个以上的第1特征词。
47.在此，例如也可以是，在提取所述给定数量的第1事例时，比较所述数据库所包含的所述多个事例各自的所述第2文章信息和提取出的所述一个以上的第1特征词，计算所述第2文章信息所包含的单词和所述一个以上的第1特征词的类似度，包括所述类似度为最上位的第1事例在内，从所述最上位起按照所述类似度从大到小的顺序提取所述给定数量的第1事例。
48.此外，例如也可以是，在提取所述一个以上的第2特征词时，从所述给定数量的第1事例各自的按照所述一个以上的项目的每个项目而包含的第2文章信息中，提取所述给定数量的第1事例各自中的所述一个以上的项目的每个项目的第2特征词作为所述一个以上的第2特征词。
49.此外，例如也可以是，在计算所述一致度时，比较所述给定数量的第1事例各自中的所述一个以上的项目的每个项目的第2特征词和所述第1文件所包含的所述第1文章信息，按照所述给定数量的第1事例各自中的所述一个以上的项目的每个项目，计算表示与所述第1文章信息的一致度的一致度分数，在所述给定数量的第1事例的每个第1事例中，计算对所述一致度分数进行总计而获得的总计分数，作为所述给定数量的第1事例各自与所述第1文件的一致度。
50.此外，例如也可以是，所述文件分类方法进一步使用所述一致度最大的第1事例中的所述一个以上的项目的每个项目的第2特征词来检索所述第1文件所包含的第1文章信息，基于所述第1文章信息中的所述一个以上的项目的每个项目的第2特征词的分布来确定文章范围，所述文章范围表示与所述一致度最大的第1事例中的所述一个以上的项目对应的所述第1文件中的一个以上的项目的每个项目的内容，根据确定出的所述文章范围所包含的所述第1文章信息，按照所述第1文件中的一个以上的项目的每个项目来创建该项目的
内容的要点。
51.此外，例如也可以是，所述文件分类方法进一步地将所述第1文件作为包括创建的所述要点和分类得到的所述至少一个类别的新的第1事例而保存到所述数据库中。
52.此外，例如也可以是，在确定所述文章范围时，将通过检索所述第1文章信息而获得的分布所包含的所述第1文章信息的范围确定为表示每个所述项目的内容的文章范围，所述分布是所述第1文章信息中的所述一个以上的项目的每个项目的第2特征词的分布，并且是所述一个以上的项目的每个项目的第2特征词的接近度、密度以及权重之中的至少一个成为给定值以上的分布。
53.此外，本公开的一个方式涉及的文件分类装置是将文件分类为至少一个类别的文件分类装置，具备处理器和存储器，所述处理器使用记录在所述存储器中的程序，从作为分类对象的第1文件所包含的第1文章信息中，提取一个以上的第1特征词，基于提取出的所述一个以上的第1特征词，从包括多个预先包含第2文章信息且被赋予了预先分类的一个以上的类别的事例的数据库中，提取与所述第1文件类似的给定数量的第1事例，所述第2文章信息按照根据含义被预先分类的一个以上的项目的每个项目来表示该项目的要点，从所述给定数量的第1事例各自的第2文章信息中，提取所述给定数量的第1事例各自的一个以上的第2特征词，基于提取出的所述一个以上的第2特征词，计算所述给定数量的第1事例各自与所述第1文件的一致度，将计算出的一致度之中一致度最大的第1事例被赋予的一个以上的类别决定为所述第1文件的类别，从而将所述第1文件分类为至少一个类别。
54.此外，本公开的一个方式涉及的记录介质是记录有用于使计算机执行将文件分类为至少一个类别的文件分类方法的程序的计算机可读取的记录介质，其中，使计算机执行如下处理：从作为分类对象的第1文件所包含的第1文章信息中，提取一个以上的第1特征词，基于提取出的所述一个以上的第1特征词，从包括多个预先包含第2文章信息且被赋予了预先分类的一个以上的类别的事例的数据库中，提取与所述第1文件类似的给定数量的第1事例，所述第2文章信息按照根据含义被预先分类的一个以上的项目的每个项目来表示该项目的要点，从所述给定数量的第1事例各自的第2文章信息中，提取所述给定数量的第1事例各自的一个以上的第2特征词，基于提取出的所述一个以上的第2特征词，计算所述给定数量的第1事例各自与所述第1文件的一致度，将计算出的一致度之中一致度最大的第1事例被赋予的一个以上的类别决定为所述第1文件的类别，从而将所述第1文件分类为至少一个类别。
55.以下说明的实施方式均用于表示本公开的一个具体例。由以下的实施方式示出的数值、形状、构成要素、步骤、步骤的顺序等是一个例子，主旨不在于限定本公开。此外，对于以下的实施方式中的构成要素之中未记载在表示最上位概念的独立技术方案中的构成要素，可作为任意的构成要素来说明。此外，在所有实施方式中，能够对各个内容进行组合。
56.(实施方式1)
57.以下，一边参照附图，一边进行对实施方式1中的文件分类装置等的说明。
58.[结构]
[0059]
图1是示出实施方式1涉及的文件分类装置10的一个例子的框图。
[0060]
如图1所示，实施方式1涉及的文件分类装置10用于利用蓄积有已经高精度地被分类的事例的数据库11，将分类对象的文件分类为至少一个类别。实施方式1涉及的文件分类
装置10输出分类得到的类别作为针对分类对象的文件的分类结果。
[0061]
在此，对实施方式1涉及的数据库11进行说明。
[0062]
[数据库11]
[0063]
数据库11包括多个事例，该事例预先包含第2文章信息，并且被赋予了预先分类的一个以上的类别，所述第2文章信息按照根据含义被预先分类的一个以上的项目的每个项目来表示该项目的要点。
[0064]
更具体地，在数据库11中保存有多个事例，该事例包含专家将包括技术报告或论文等学术文献的文件在理解该文件包含的文章的含义的基础上分类为类别来对该文件进行整理后的文章。在数据库11中，这样由专家整理得到的事例从过去起被积累从而被大量蓄积(保存)。换言之，关于存储在数据库11的事例，专家在理解了文件所包含的文章的含义的基础上进行了类别分类。此外，在存储在数据库11的事例中包含：每个类别的专家在理解了该文件所包含的文章的含义的基础上按照根据含义被分类(或带标签)的每个项目对该文章的内容进行整理来表示要点的文章(相当于第2文件信息表示的文章)。
[0065]
在此，关于项目，在整理为事例的文件是与不良解析相关的技术报告的情况下，例如带有称为“现象”、“机理”，“原因”，“处置或对策”的名称。项目的名称不限定于这些例子，只要是按照整理为事例的文件所包含的文章的含义而进行了分类、且能够理解专家对该文章的内容进行了概括的名称即可。
[0066]
图2是示出实施方式1涉及的数据库11所包括的多个事例的一个例子的图。
[0067]
在本实施方式中，在数据库11中，如图2所示的例子那样，按照每个类别保存有多个事例。在图2中，项目分类事例是指按照每个项目对原本的文件的文章进行了分类且包含按照每个项目而表示要点的文章的事例。在图2中，示出了原本的文件的文章被分类为由“对象”、“故障模式”、“影响”、“原因”以及“对策”表示的项目1～项目5且包含创建的表示要点的第2文件信息(未图示)的情况的例子。更具体地，在图2中，示出了在类别a中包括项目分类事例a～项目分类事例x、在类别b中包括项目分类事例a～项目分类事例x、
……
、在类别k中仅包括项目分类事例a的例子。另外，在图2中，还附有url，使得能够参照成为事例的原本的文件。
[0068]
接下来，对图1所示的文件分类装置10的功能结构进行说明。
[0069]
[文件分类装置10]
[0070]
图3是示出实施方式1涉及的文件分类装置10的功能结构例的框图。
[0071]
文件分类装置10通过具备cpu等处理器(微处理器)、存储器等的计算机来实现。在本实施方式中，例如，如图3所示，文件分类装置10具备输入部101、存储器102、第1特征词提取部103、第1事例提取部104、第2特征词提取部105、一致度计算部106、类别决定部107和输出部108。另外，文件分类装置10并不必须具备输入部101以及输出部108。
[0072]
<输入部101>
[0073]
向输入部101输入想要对类别进行分类的文件，即分类对象的文件。在本实施方式中，向输入部101输入作为分类对象的第1文件。在此，输入到输入部101的第1文件不限于上述的技术报告或论文等学术文献，也可以是小说等。即，输入到输入部101的第1文件只要能够根据其所包含的文章进行类别分类且能够将该文章划分为根据含义分类的多个项目即可。
[0074]
<存储器102>
[0075]
存储器102是存储介质的一个例子，例如由硬盘驱动器或固态驱动器等可改写的非易失性的存储器构成。在本实施方式中，存储器102存储输入到输入部101的第1文件。
[0076]
此外，存储器102存储从数据库11提取出的多个第1事例。
[0077]
<第1特征词提取部103>
[0078]
第1特征词提取部103通过进行处理负荷较少的自然语言处理，从作为分类对象的第1文件所包含的第1文章信息中提取一个以上的第1特征词。在此，第1特征词是构成第1文件所包含的第1文章信息所表示的第1文章且成为该第1文件的特征的短语或单词。
[0079]
更具体地，首先，第1特征词提取部103通过对输入到输入部101的第1文件所包含的第1文章信息进行词素分析，从而提取第1文章信息所包含的多个单词。接下来，第1特征词提取部103根据通过进行多个单词的依存解析而获得的多个单词的出现频度以及共现关系来计算分数。然后，第1特征词提取部103通过将计算出的分数为阈值以上的一个以上的单词决定为一个以上的第1特征词，从而从第1文章信息中提取一个以上的第1特征词。
[0080]
这样，第1特征词提取部103通过根据构成输入到输入部101的第1文件所包含的第1文章信息的多个单词的出现频度以及共现关系来进行依存解析，提取计算出的分数较大的多个第1特征词。另外，第1特征词提取部103不进行反复进行自然语言处理的处理而提取第1特征词。即，第1特征词提取部103根据进行处理负荷较少的自然语言处理而计算出的分数来提取第1特征词。
[0081]
图4是示出由实施方式1涉及的第1特征词提取部103进行的第1特征词的提取方法的一个例子的图。
[0082]
在本实施方式中，如图4所示的例子那样，第1特征词提取部103从第1文件所包含的第1文章信息中提取多个单词，并计算提取出的多个单词各自的频度和分数。然后，第1特征词提取部103提取图4所示的最左侧的一栏所示的单词之中分数为阈值以上的单词，作为上述的一个以上的第1特征词。在图4所示的例子中，第1特征词提取部103提取了“lsi”、“可靠性”、“密封材料”、“包装”以及“潮湿”作为一个以上的第1特征词。由此可知，第1特征词提取部103不进行反复进行自然语言处理的处理而使用计算出的分数提取了第1特征词。
[0083]
<第1事例提取部104>
[0084]
第1事例提取部104基于由第1特征词提取部103从数据库11提取出的一个以上的第1特征词，提取与第1文件类似的给定数量的第1事例。
[0085]
更具体地，首先，第1事例提取部104对数据库11所包括的多个事例各自的第2文章信息和由第1特征词提取部103提取出的一个以上的第1特征词进行比较，计算第2文章信息所包含的单词与一个以上的第1特征词的类似度。然后，包括计算出的类似度为最上位的第1事例在内，第1事例提取部104从最上位起按照该类似度从大到小的顺序提取给定数量的第1事例。另外，第2文章信息所包含的单词与一个以上的第1特征词的类似度也可以作为分数来计算。
[0086]
这样，第1事例提取部104使用第1文件所包含的一个以上的第1特征词从数据库11中提取与第1文件类似的给定个第1事例。
[0087]
图5是示出实施方式1涉及的第1事例提取部104提取出的第1事例的一个例子的图。另外，对与图2同样的要素标注了同一名称等，并省略详细的说明。
[0088]
在图5中，示出了从数据库11提取出分类为类别a、类别d和类别e的5个第1事例的例子。更具体地，示出了对于类别a从数据库11提取了no.502和no.503的第1事例、对于类别d从数据库11提取了no.10521和no.10525的第1事例、对于类别e从数据库11提取了no.15231的第1事例的例子。
[0089]
<第2特征词提取部105>
[0090]
第2特征词提取部105从由第1事例提取部104提取出的给定数量的第1事例各自的第2文章信息中，提取给定数量的第1事例各自的一个以上的第2特征词。
[0091]
更具体地，第2特征词提取部105从给定数量的第1事例各自的按照一个以上的项目的每个项目而包含的第2文章信息中，提取给定数量的第1事例各自中的一个以上的项目的每个项目的第2特征词，作为一个以上的第2特征词。
[0092]
这样，第2特征词提取部105按照由第1事例提取部104提取出的给定数量的第1事例各自所包含的每个项目，提取作为其特征词的第2特征词。
[0093]
<一致度计算部106>
[0094]
一致度计算部106基于第2特征词提取部105提取出的一个以上的第2特征词，计算给定数量的第1事例各自与第1文件的一致度。
[0095]
更具体地，首先，一致度计算部106对给定数量的第1事例各自中的一个以上的项目的每个项目的第2特征词和第1文件所包含的第1文章信息进行比较。接下来，一致度计算部106按照给定数量的第1事例各自中的一个以上的项目的每个项目，计算表示与第1文章信息的一致度的一致度分数。然后，一致度计算部106在给定数量的第1事例的每个第1事例中，计算对一致度分数总计而获得的总计分数，作为给定数量的第1事例各自与第1文件的一致度。
[0096]
这样，一致度计算部106使用在给定数量的第1事例各自中按照每个项目而提取出的第2特征词来与第1文件比较，从而计算给定数量的第1事例各自与第1文件的一致度。
[0097]
图6是示出在图5中提取出的5个第1事例各自的项目与第1文件的一致度的一个例子的图。另外，对与图5同样的要素标注了同一名称等，并省略详细的说明。
[0098]
在图6中，示出了按照类别a中的no.502以及no.503、类别d中的no.10521以及no.10525、类别e中的no.15231的第1事例各自的每个项目提取第2特征词，并计算与第1文件的一致度而得到的结果的一个例子。此外，在图6中，将与第1文件的一致度最高的项目表现为a，并且从a起按照一致度下降的顺序设为a
→
b
→
c
→
d。另外，a示出了表示一致度的分数为70以上的情况，b示出了表示一致度的分数小于70且为60以上的情况，c示出了表示一致度的分数小于50且为30以上的情况。d未表现在图6中，示出表示一致度的分数小于30的情况。
[0099]
从图6中可知，在图5中提取出的5个第1事例之中，与第1文件的一致度最高的第1事例为no.503的第1事例。
[0100]
<类别决定部107>
[0101]
类别决定部107将一致度计算部106计算出的一致度之中一致度最大的第1事例被赋予的一个以上的类别决定为第1文件的类别，从而将第1文件分类为至少一个类别。
[0102]
另外，在图6所示的例子中，与第1文件的一致度最高的第1事例为no.503，所以类别决定部107分类为第1文件的类别是类别a。
[0103]
这样，类别决定部107选出具有较多一致度最大的项目的第1事例，并将选出的第1事例的类别决定为第1文件的类别。
[0104]
<输出部108>
[0105]
输出部108将由类别决定部107决定出的第1文件的类别作为分类结果即分类出的第1文件的类别而输出。
[0106]
[文件分类装置10的硬件结构]
[0107]
接下来，对于本实施方式涉及的文件分类装置10的硬件结构，使用图7来进行说明。图7是示出通过软件来实现本实施方式涉及的文件分类装置10的功能的计算机1000的硬件结构的一个例子的图。
[0108]
如图7所示，计算机1000是具备输入装置1001、输出装置1002、cpu 1003、内置存储器1004、ram 1005、读取装置1007、收发装置1008以及总线1009的计算机。输入装置1001、输出装置1002、cpu 1003、内置存储器1004、ram 1005、读取装置1007以及收发装置1008由总线1009连接。
[0109]
输入装置1001是输入按键、触摸板、触摸屏显示器等成为用户接口的装置，接收用户的操作。另外，输入装置1001也可以是除接收用户的接触操作之外，还接收利用声音的操作、利用遥控器等的远程操作的结构。
[0110]
内置存储器1004是闪速存储器等。此外，内置存储器1004也可以预先存储有用于实现文件分类装置10的功能的程序以及利用了文件分类装置10的功能结构的应用的至少一者。
[0111]
ram 1005是随机存取存储器(random access memory)，在程序或应用的执行时用于数据等的存储。
[0112]
读取装置1007从usb(universal serial bus，通用串行总线)存储器等记录介质读取信息。读取装置1007从记录有如上述那样的程序、应用的记录介质读取该程序、应用，并存储在内置存储器1004中。
[0113]
收发装置1008是用于通过无线或有线方式进行通信的通信电路。收发装置1008例如与连接于网络的服务器装置进行通信，从服务器装置下载如上述那样的程序、应用，并存储在内置存储器1004中。
[0114]
cpu 1003是中央运算处理装置(central processing unit)，将存储在内置存储器1004中的程序、应用复制到ram 1005中，并且从ram 1005依次读取并执行该程序、应用所包含的命令。
[0115]
[动作]
[0116]
接着，以下对如上述那样构成的文件分类装置10的动作的一个例子进行说明。
[0117]
图8是示出实施方式1涉及的文件分类装置10的动作例的流程图。
[0118]
文件分类装置10具备处理器和存储器，使用处理器和记录在存储器中的程序，进行以下的步骤s101～步骤s105的处理。更具体地，首先，文件分类装置10从作为分类对象的第1文件所包含的第1文章信息中，提取一个以上的第1特征词(s101)。接下来，文件分类装置10基于在步骤s101中提取出的一个以上的第1特征词，从包括多个事例的数据库11中提取与第1文件类似的给定数量的第1事例(s102)。接下来，文件分类装置10从在步骤s102中提取出的给定数量的第1事例各自的第2文章信息中，提取给定数量的第1事例各自的一个
以上的第2特征词(s103)。接下来，文件分类装置10基于在步骤s103中提取出的一个以上的第2特征词，计算给定数量的第1事例各自与第1文件的一致度(s104)。接下来，文件分类装置10将步骤s104中计算出的一致度之中一致度最大的第1事例被赋予的一个以上的类别决定为第1文件的类别(s105)。
[0119]
然后，文件分类装置10将在步骤s104中决定出的第1文件的类别作为分类结果即分类出的第1文件的类别而输出。
[0120]
[效果等]
[0121]
如以上所述，文件分类装置10即使未从作为分类对象的第1文件所包含的第1文章信息中高精度地提取一个以上的第1特征词，也能够通过利用蓄积有已经高精度地被分类的事例的数据库11来高精度地对文件的类别进行分类。
[0122]
更具体地，文件分类装置10从作为分类对象的第1文件所包含的第1文章信息中提取多个第1特征词，使用在提取一个以上的第1特征词时计算出的分数较高的一个以上的第1特征词，从数据库11中提取与第1文件类似的给定数量的第1事例。由此，文件分类装置10相较于专利文献1所公开的技术，不进行反复进行自然语言处理的处理而从作为分类对象的第1文件所包含的第1文章信息中提取一个以上的第1特征词。即，文件分类装置10能够在削减计算机的计算量的同时，提取一个以上的第1特征词。
[0123]
进而，文件分类装置10使用从提取出的给定数量的第1事例各自中提取出的一个以上的第2特征词，计算与作为分类对象的第1文件的一致度，将最接近第1文件的第1事例的类别决定为第1文件的类别。即，文件分类装置10利用蓄积有已经高精度地被分类的事例的数据库11，将与第1文件最类似的第1事例的类别作为第1文件的类别，从而对第1文件的类别进行分类。由此，文件分类装置10即使不高精度地提取第1特征词，也能够高精度地对第1文件的类别进行分类。
[0124]
因此，文件分类装置10不需要自然语言处理的反复执行等复杂的处理，因而能够在削减计算机的计算量的同时，高精度地对文件的类别进行分类。
[0125]
另外，在本实施方式中，在即使利用数据库11也没有与第1文件类似的第1事例的情况下，文件分类装置10可以对该第1文件分类新的类别。此外，在通过利用数据库11而与第1文件最类似的第1事例有多个的情况下，文件分类装置10可以将多个第1事例各自的类别的全部类别分类为第1文件的类别。
[0126]
如以上那样，根据本实施方式，文件分类装置10能够高精度地对文件的类别进行分类。
[0127]
(实施方式2)
[0128]
在实施方式1中，对利用数据库11将分类对象的文件分类为至少一个类别的文件分类装置10进行了说明，但不限于此。文件分类装置也可以利用数据库11对分类对象的文件的类别进行分类，并且将该文件所包含的文章根据其内容而按照每个项目进行分类，创建作为整理且概括出的句子的要点。对于在该情况下的文件分类装置20等，作为实施方式2来进行说明。另外，以下，以与实施方式1的不同之处为中心而进行说明。
[0129]
[文件分类装置20]
[0130]
图9是示出实施方式2涉及的文件分类装置20的功能结构例的框图。图9所示的文件分类装置20相对于实施方式1涉及的文件分类装置10的不同点在于，追加了文章范围确
定部209、要点创建部210和保存处理部211的结构。
[0131]
<文章范围确定部209>
[0132]
文章范围确定部209使用一致度计算部106计算出的一致度之中一致度最大的第1事例中的一个以上的项目的每个项目的第2特征词，检索第1文件所包含的第1文章信息。文章范围确定部209基于通过检索而获得的第1文章信息中的一个以上的项目的每个项目的第2特征词的分布来确定文章范围，该文章范围表示与该一致度最大的第1事例中的一个以上的项目对应的第1文件中的一个以上的项目的每个项目的内容。更具体地，文章范围确定部209通过检索第1文章信息，获得第1文章信息中的一个以上的项目的每个项目的第2特征词的分布，该分布是一个以上的项目的每个项目的第2特征词的接近度、密度以及权重之中的至少的一个成为给定值以上的分布。然后，文章范围确定部209将通过检索第1文章信息而获得的该分布所包含的第1文章信息的范围确定为表示每个项目的内容的文章范围。
[0133]
在本实施方式中，文章范围确定部209针对该一致度最大的第1事例，使用由第2特征词提取部105提取出的第2特征词来检索第1文件所包含的第1文章信息。例如，文章范围确定部209也可以首先检索第1文章信息，并标记第1文章信息表示的文章中的第2特征词。接下来，文章范围确定部209根据标记出的该第2特征词之间的接近度以及密度(频度)，进而根据该第2特征词的加权等，创建表示该第2特征词的密集度的分布，并对第1文章信息进行高亮处理或热图处理。然后，文章范围确定部209将高亮处理或热图处理后的第1文章信息的区域之中的适当的阈值以上的区域确定为表示每个项目的内容的文章范围。
[0134]
另外，文章范围确定部209不限于使用从该一致度最大的第1事例中提取出的第2特征词来检索第1文件所包含的第1文章信息的情况。文章范围确定部209也可以使用从该一致度最大的第1事例中提取出的第2特征词和从近似词辞典等中提取出的与该第2特征词关联的作为重要关键词的关联词，检索第1文章信息。
[0135]
图10是示出由实施方式2涉及的文章范围确定部209确定出的表示第1文件的每个项目的内容的文章范围的一个例子的图。在图10中，示出了例如在技术报告等第1文件所包含的第1文章信息表示的文章中，通过标注了阴影线的框而确定出例如表示“现象”、“机理”、“原因”以及“对策”等项目1～项目4的内容的文章范围的情况的一个例子。
[0136]
这样，文章范围确定部209能够使用按照与第1文件类似的第1事例的每个项目而提取出的第2特征词，确定表示第1文件的每个项目的内容的文章范围。
[0137]
<要点创建部210>
[0138]
要点创建部210根据由文章范围确定部209确定出的文章范围所包含的第1文章信息，按照第1文件中的一个以上的项目的每个项目来创建该项目的内容的要点。
[0139]
要点创建部210通过针对由文章范围确定部209确定出的文章范围进行自然语言处理，创建第1文件中的每个项目的内容的要点。另外，在此的自然语言处理可通过导入既有的软件来实现，因而省略详细的说明。
[0140]
图11是示出由实施方式2涉及的要点创建部210创建的第1文件中的每个项目的内容的要点的一个例子的图。
[0141]
在图11所示的例子中，在第1文件是与不良解析相关的技术报告的情况下，按照作为“现象”、“机理”、“原因”、“对策”的多个项目中的每个项目，根据由文章范围确定部209确定出的文章范围所包含的第1文章信息而创建了内容的要点。
[0142]
从图11中可知，通过创建内容的要点，即使不精读第1文件，也能够一目了然地确认第1文件的每个项目的要点，因而能够理解第1文件所包含的第1文章信息的含义。
[0143]
<保存处理部211>
[0144]
保存处理部211能够将第1文件作为包括要点创建部210创建的要点和分类得到的至少一个类别的新的第1事例而保存到数据库11中。
[0145]
[效果等]
[0146]
如以上那样，文件分类装置20能够通过利用蓄积有已经高精度地被分类的事例的数据库11对第1文件的类别进行分类，并且能够按照项目对第1文件的文章进行分类整理，从而创建按照项目的要点。
[0147]
即，首先，文件分类装置20相较于专利文献1所公开的技术，也能够不进行反复进行自然语言处理的处理而利用数据库11来高精度地对第1文件的类别进行分类。另外，文件分类装置20利用数据库11对第1文件的类别进行分类，因而即使是包括冗长的文章的第1文件，也能够高精度地对第1文件的类别进行分类。因此，文件分类装置20不需要自然语言处理的反复执行等复杂的处理，因而能够在削减计算机的计算量的同时，高精度地对第1文件的类别进行分类。
[0148]
进而，文件分类装置20能够利用数据库11，创建按照有助于第1文件所包含的第1文章的含义理解的项目来分类时的各个项目的要点。由此，即使不精读第1文件所包含的第1文章信息所表示的文章，也能够容易地理解该文章所记述的含义。
[0149]
此外，文件分类装置20将第1文件作为包括其每个项目的内容的要点和其类别的事例而保存到数据库11中。由此，文件的检索者能够不是对能检索记述有想知道的内容的文件的以往的数据库进行检索，而是对保存有包括将在文件所包含的文章中存在的零散的含义概念化而明示的文章的事例的数据库11进行检索。因此，检索者即使不花费大量时间来精读文件，也能够通过利用将文件保存为事例的数据库11而在短时间内知道是否记述有想知道的内容。即，在数据库11中蓄积有将要点按照项目进行了整理的事例，因而能够容易地理解成为事例的原本的文件所记述的含义，能够大幅地缩短类似的文件的搜索时间。
[0150]
图12是示出实施方式2涉及的文件分类装置20将文件所包含的文章以按照项目进行了整理的事例保存到数据库11中为止的处理概要的图。
[0151]
图12所示的各个要素在上文进行了描述，因而省略详细说明，但实施方式2涉及的文件分类装置20能够通过进行图12所示的处理，在数据库11中蓄积按照项目对文件所包含的文章进行了整理的事例。
[0152]
另外，数据库11将文件所包含的文章以按照项目进行了整理的事例来进行蓄积，从而在文件所包含的文章之间还能够通过含义网络来联系。因此，通过利用数据库11，还具有计算机还可进行知识表现这样的进一步的效果。
[0153]
(其他实施方式的可能性)
[0154]
以上，在实施方式中，对本公开的文件分类装置、文件分类方法以及程序进行了说明，但关于实施各处理的主体、装置没有特别限定。可以通过组装于配置在本地的特定的装置内的处理器等(在以下说明)来处理。此外，也可以通过配置在与本地的装置不同的场所的云服务器等来处理。
[0155]
另外，本公开不限定于上述实施方式。例如，可以任意地组合在本说明书中记载的
构成要素，此外将若干构成要素除外而实现的另外的实施方式作为本公开的实施方式。此外，针对上述实施方式，在不脱离本公开的主旨即记载于请求的范围的语言表示的含义的范围内，实施本领域技术人员想到的各种变形而获得的变形例也包括在本公开中。
[0156]
此外，本公开还进一步包括如以下那样的情况。
[0157]
(1)上述装置具体地是由微处理器、rom、ram、硬盘单元、显示器单元、键盘、鼠标等构成的计算机系统。在所述ram或硬盘单元中，存储有计算机程序。通过所述微处理器根据所述计算机程序而动作，从而各装置实现其功能。在此，计算机程序为了实现给定功能，将表示针对计算机的指令的命令代码组合多个而构成。
[0158]
(2)构成上述装置的构成要素的一部分或全部也可以由一个系统lsi(large scale integration：大规模集成电路)构成。系统lsi是将多个结构部集成在一个芯片上而制造的超多功能lsi，具体地是构成为包括微处理器、rom、ram等的计算机系统。在所述ram中存储有计算机程序。通过所述微处理器根据所述计算机程序而动作，从而系统lsi实现其功能。
[0159]
(3)构成上述装置的构成要素的一部分或全部也可以由能够相对于各装置拆装的ic卡或单体的模块构成。所述ic卡或所述模块是包括微处理器、rom、ram等的计算机系统。所述ic卡或所述模块可以包括上述的超多功能lsi。通过微处理器根据计算机程序而动作，从而所述ic卡或所述模块实现其功能。该ic卡或该模块也可以具有防篡改性。
[0160]
(4)此外，本公开也可以设为上述所示的方法。此外，也可以设为通过计算机来实现这些方法的计算机程序，也可以设为由所述计算机程序构成的数字信号。
[0161]
(5)此外，本公开也可以将所述计算机程序或所述数字信号记录在计算机可读取的记录介质例如软盘、硬盘、cd
‑
rom、mo、dvd、dvd
‑
rom、dvd
‑
ram、bd(blu
‑
ray(注册商标)disc，蓝光光盘)、半导体存储器等中。此外，也可以设为记录在这些记录介质的所述数字信号。
[0162]
此外，本公开也可以经由电通信线路、无线或有线通信线路、以因特网为代表的网络、数据广播等来传输所述计算机程序或所述数字信号。
[0163]
此外，也可以是，本公开是具备微处理器和存储器的计算机系统，所述存储器存储有上述计算机程序，所述微处理器根据所述计算机程序而动作。
[0164]
此外，也可以设为通过将所述程序或所述数字信号记录在所述记录介质并进行移送，或通过经由所述网络等移送所述程序或所述数字信号，从而通过独立的其他计算机系统来实施。
[0165]
产业上的可利用性
[0166]
本公开能够利用于文件分类方法、文件分类装置以及程序，特别地，能够利用于为了将文件分类为至少一个类别而使用的文件分类方法、文件分类装置以及程序。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：信息展示方法、装置、计算设备及介质与流程

文件分类方法、文件分类装置以及记录介质与流程

相关文献

最热文献