一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

靶点信息挖掘和检索方法、装置、电子设备和存储介质与流程

2022-03-30 10:05:39 来源:中国专利 TAG:


1.本发明涉及数据挖掘技术领域,尤其涉及一种靶点信息挖掘和检索方法、装置、电子设备和存储介质。


背景技术:

2.药物靶点是指存在于组织细胞内外与药物相互作用,并赋予药物效应的特定分子,大多数为蛋白质,包括多种受体、酶等。现代新药研究与开发的关键一环是选择确定新颖的有效药物靶点。为此,医药企业需要持续跟踪药物靶点的研究动态,及时捕获符合企业目标阶段的药物靶点。
3.目前,传统的针对药物靶点信息的挖掘多是通过人工整理实现的,比如,药企工作人员阅读最新的医药文献来保持对靶点信息的跟踪。人工整理的方式费时费力,且受限于数据完整性或个人认知,导致挖掘所得的靶点信息可靠性和准确性较差。


技术实现要素:

4.本发明提供一种靶点信息挖掘和检索方法、装置、电子设备和存储介质,用以解决现有的靶点信息挖掘需要人工整理,费时费力且可靠性较差的问题。
5.本发明提供一种靶点信息挖掘方法,包括:
6.获取与转化医学相关的目标文献,并确定所述目标文献对应的靶点和所述目标文献针对对应靶点的研发阶段;
7.基于所述靶点对应的各目标文献的研发阶段和发表时间,确定所述靶点的研发里程碑信息;
8.基于所述靶点的研发里程碑信息,构建靶点信息集合。
9.根据本发明提供的一种靶点信息挖掘方法,所述确定所述目标文献对应的靶点,包括:
10.对所述目标文献的标题和/或摘要进行实体识别,得到所述目标文献对应的靶点。
11.根据本发明提供的一种靶点信息挖掘方法,所述对所述目标文献的标题和/或摘要进行实体识别,得到所述目标文献对应的靶点,包括:
12.对所述目标文献的标题进行实体识别,若在所述标题中识别得到药品实体和/或靶点实体,则基于在所述标题中识别得到的药品实体和/或靶点实体确定所述目标文献对应的药品实体和/或靶点实体;
13.若在所述标题中未识别到药品实体和靶点实体,则对所述目标文献的摘要进行实体识别,并基于在所述摘要中识别得到的药品实体和/或靶点实体确定所述目标文献对应的药品实体和/或靶点实体;
14.基于所述目标文献对应的药品实体和/或靶点实体,确定所述目标文献对应的靶点。
15.根据本发明提供的一种靶点信息挖掘方法,所述基于在所述摘要中识别得到的药
品实体和/或靶点实体确定所述目标文献对应的靶点,包括:
16.基于在所述摘要中识别得到的药品实体和/或靶点实体,以及药品实体在所述摘要中出现的次数和/或靶点实体在所述摘要中出现的次数,确定所述目标文献对应的药品实体和/或靶点实体。
17.根据本发明提供的一种靶点信息挖掘方法,所述基于所述目标文献对应的药品实体和/或靶点实体,确定所述目标文献对应的靶点,包括:
18.若存在对应的靶点实体,则基于靶点字典对所述靶点实体进行标准化,得到所述目标文献对应的靶点,若在所述靶点字典中未匹配到所述靶点实体,则将所述靶点实体添加至所述靶点字典,并推送至用户终端;
19.若存在对应的药品实体,则基于药品字典对所述药品实体进行标准化,得到所述目标文献对应的药品,并基于目标文献对应的药品和靶点之间的关系,补充药品与靶点关系图谱,若在所述药品字典中未匹配到所述药品实体,则将所述药品实体添加至所述药品字典;
20.若不存在对应的靶点实体但存在对应的药品实体,则基于预设的药品与靶点关系图谱,确定所述目标文献对应的靶点。
21.根据本发明提供的一种靶点信息挖掘方法,所述基于所述靶点对应的各目标文献的研发阶段和发表时间,确定所述靶点的研发里程碑信息,包括:
22.基于所述靶点在各研发阶段下对应的目标文献的发表时间,确定所述靶点在各研发阶段下的文献最早发表时间;
23.基于所述靶点在各研发阶段下的文献最早发表时间,确定所述靶点的研发里程碑信息。
24.根据本发明提供的一种靶点信息挖掘方法,所述获取与转化医学相关的目标文献,包括:
25.从目标范畴里获取与转化医学相关的目标文献,所述目标范畴是基于各文献的发表期刊影响因子和/或各研究机构的排名确定的。
26.根据本发明提供的一种靶点信息挖掘方法,确定所述目标文献针对对应靶点的研发阶段,之后还包括:
27.若所述目标文献针对对应靶点的研发阶段,在所述靶点的研发里程碑信息示出的研发阶段之后,则生成所述靶点的里程碑更新信息,并推送至用户终端。
28.本发明还提供一种靶点信息检索方法,包括:
29.接收用户终端发送的目标靶点;
30.从靶点信息集合中筛选得到所述目标靶点对应的靶点研发里程碑信息并返回所述用户终端,其中,所述靶点信息集合是基于上述任一种所述的靶点信息挖掘方法确定的。
31.根据本发明提供的一种靶点信息检索方法,所述接收用户终端发送的目标靶点,之后还包括:
32.获取所述目标靶点对应的药品的最高研发进度并返回所述用户终端,所述目标靶点对应的药品的最高研发进度是基于所述药品的上市信息、申报信息和临床试验信息中至少一种确定的。
33.本发明还提供一种靶点信息挖掘装置,包括:
34.靶点和研发阶段确定单元,用于获取与转化医学相关的目标文献,并确定所述目标文献对应的靶点和所述目标文献针对对应靶点的研发阶段;
35.研发里程碑信息确定单元,用于基于所述靶点对应的各目标文献的研发阶段和发表时间,确定所述靶点的研发里程碑信息;
36.靶点信息集合构建单元,用于基于所述靶点的研发里程碑信息,构建靶点信息集合。
37.本发明还提供一种靶点信息检索装置,包括:
38.目标靶点接收单元,用于接收用户终端发送的目标靶点;
39.里程碑信息筛选单元,用于从靶点信息集合中筛选得到所述目标靶点对应的靶点研发里程碑信息并返回所述用户终端,其中,所述靶点信息集合是基于上述任一项所述的靶点信息挖掘方法确定的。
40.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述靶点信息挖掘或检索方法的步骤。
41.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述靶点信息挖掘或检索方法的步骤。
42.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述靶点信息挖掘或检索方法的步骤。
43.本发明提供的靶点信息挖掘和检索方法、装置、电子设备和存储介质,通过对与转化医学相关的目标文献进行文本分析,得到目标文献对应的靶点和靶点的研发里程碑信息对靶点信息进行挖掘,并以此构建靶点信息集合。在实现全面、可靠的靶点信息挖掘的同时,有效提高了靶点信息挖掘的实现效率,降低了靶点信息挖掘的成本。
附图说明
44.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
45.图1是本发明提供的靶点信息挖掘方法的流程示意图;
46.图2是本发明提供的靶点信息检索方法的流程示意图;
47.图3是本发明提供的靶点信息挖掘装置的结构示意图;
48.图4是本发明提供的靶点信息检索装置的结构示意图;
49.图5是本发明提供的电子设备的结构示意图。
具体实施方式
50.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
51.随着现代分子生物学技术的发展和人类基因组计划的完成,出现了大量可供治疗干预的新型分子靶点,药物靶点的筛选已经成了新药研发中至关重要的一环。
52.另外,并非所有的靶点都能够成为与疾病有关的有效靶点,已知大量的靶点并不具有良好的成药性而造成新药研发失败。一般来说,当一个新的靶点被发现,还需要经过确认和试验等一系列过程,其成药性与价值才能被不断确认和发掘。其次,一个靶点的新药在临床上被大量使用后,往往也会产生耐药,这时研发下一代抗耐药药物的需求与时间窗也随之而来。
53.随着靶点成药性与价值的不断被确认,其研发成功率不断提高,大量的药企会涌入这个靶点赛道,进而造成研发竞争的拥挤。当然,后续的药企即使研发成功,也往往不会获得与先行者相当的回报。
54.因此,对于不同类型的医药企业,会根据自身实力与竞争需求,筛选不同确定性或成功率的靶点开展药物研发。尤其对国内一些制药企业,参与新药研发的经验较少,往往会选择初步临床验证阶段的靶点,开始跟随研发。研发越晚,意味着同质化竞争越激烈,未来潜在收益越低。
55.因此,企业需要持续跟踪全球药物靶点的研究动态,及时捕获符合企业目标阶段的药物靶点。当一个靶点研究进入某个新阶段,企业发现后,会第一时间启动该靶点的药物筛选和研发工作,以争取先于更多竞争对手。
56.传统上,企业有专门情报部门来跟踪全球医药文献,每天阅读大量的最新文献来保持对靶点信息的跟踪。然而,每天产生的文献数量是海量的,需要高度专业的人员和较大规模团队才有可能保持及时跟踪。以pubmed文献为例,目前共有文献约4000万篇,完全靠人力保持全面的跟踪几乎是不现实的,也难以保持时效性。
57.综上,目前亟需一种高效、敏捷并且客观可靠的靶点信息挖掘方法,从而帮助药企持续跟踪药物靶点的研究动态,及时获取符合企业目标阶段的药物靶点信息,为新药研发提供参考。
58.针对上述问题,本发明实施例提供一种靶点信息挖掘方法。图1是本发明提供的靶点信息挖掘方法的流程示意图,如图1所示,该方法包括:
59.步骤110,获取与转化医学相关的目标文献,并确定目标文献对应的靶点和目标文献针对对应靶点的研发阶段。
60.具体地,针对靶点信息的挖掘方法,可以从与转化医学相关的目标文献入手,通过分析目标文献中记载的研究成果实现。
61.此处,转化医学是医学研究的一个分支,试图在基础研究和临床医疗之间建立更直接的联系。在药物研发过程中,转化医学的研究是将实验室研发的药物带到患者病床边,把基础研究获得的知识成果快速转化为临床和公共卫生方面的防治的关键。与转化医学相关的目标文献可以反映创新药物所处的转化医学研究阶段,与药物研发的最终结局高度相关。
62.目标文献可以从全球出版商科学出版物出版平台(例如,转化医学杂志等)、各类文献数据库(例如,pubmed、web of science等)或学术会议官网中的学术会议观点论著信息中获取。
63.获取到目标文献后,对目标文献进行信息抽取,即可得到目标文献对应的靶点和
目标文献针对对应靶点的研发阶段。此处,目标文献对应的靶点即目标文献研究的药物靶点,该靶点可以是目前已经发现的靶点,也可以是首次公开的新靶点。如果是首次公开的新靶点,则可以将新靶点相关的信息及时通知药企,为新药开发提供参考。通常情况下一篇目标文献对应的靶点只有一个,由于研究机构众多,一个靶点可以对应多篇目标文献。
64.针对目标文献对应的靶点信息的挖掘,可以通过实体识别、规则匹配等方式实现,本发明实施例对此不作具体限定。
65.目标文献针对对应靶点的研发阶段是指针对该靶点,目标文献公开的研究成果所处的转化医学研究阶段,可以首先对目标文献进行文本分类,此处的文本分类可以是将目标文献的摘要进行分类,得到目标文献揭示的研究成果的分类。然后将目标文献揭示的研究成果与各研发阶段对应的研究成果标准进行匹配,得到该目标文献针对对应靶点的研发阶段。研发阶段通常可以包括遗传学、靶点发现、结构确认、药物发现、临床前验证、初步临床验证和发生耐药这几个阶段。
66.目标文献针对对应靶点的研发阶段的挖掘,可以通过预先训练好的文本分类模型来实现。可以将目标文献的摘要输入到预先训练好的文本分类模型中,由文本分类模型对摘要进行文本分类,并基于各研发阶段的匹配标准,输出目标文献针对对应靶点的研发阶段。
67.步骤120,基于靶点对应的各目标文献的研发阶段和发表时间,确定靶点的研发里程碑信息。
68.具体地,通常一个靶点对应的目标文献会有多篇,根据各目标文献的研发阶段和发表时间,可以确定靶点的研发里程碑信息。此处,靶点的研发里程碑信息是靶点开始阶段性研究的标志,标志着下一个研发阶段开始,明确了研发阶段的起始点,各个研发阶段的起始点就构成了靶点研发进展的里程碑信息。
69.例如,某一个靶点的研发里程碑信息可以用表格的形式对数据进行展示,如表1所示,截止到目前共有4个里程碑,分别是遗传学、靶点发现、靶点结构和药物发现,2015年x月x日,某一转化医学文献披露了该靶点的结构,2016年x月x日,某一转化医学文献披露了针对该靶点的药物。当然,也可以按照时间轴对数据进行展示,本发明实施例对此不作具体限定。
70.表1
71.遗传学靶点发现靶点结构药物发现2013年x月x日2014年x月x日2015年x月x日2016年x月x日
72.通常情况下,可以根据该靶点在每一个研发阶段下对应的目标文献的发表时间,确定该靶点在每一个研发阶段下的文献最早发表时间,而该靶点在每一个研发阶段下的文献最早发表时间可以理解为该靶点每个研发阶段的起始时间,从而可以确定该靶点研发进展的里程碑信息。
73.步骤130,基于靶点的研发里程碑信息,构建靶点信息集合。
74.具体地,确定了每一个靶点的研发里程碑信息后,可以基于各个靶点的研发里程碑信息,构建靶点信息集合。靶点信息集合包含了目标文献对应的所有靶点的研发里程碑信息,通过构建的靶点信息集合,可以检索到目标靶点对应的研发里程碑信息,当一个靶点研究进入某个里程碑节点,企业发现后,会第一时间启动该靶点的药物筛选和研发工作,以
争取先于更多竞争对手。药企还可以通过构建的靶点信息集合,持续跟踪药物靶点的研究动态,及时捕获符合企业目标阶段的药物靶点,从而为新药开发提供参考。
75.本发明实施例提供的靶点信息挖掘方法,通过对与转化医学相关的目标文献进行文本分析,得到目标文献对应的靶点和靶点的研发里程碑信息对靶点信息进行挖掘,并以此构建靶点信息集合。在实现全面、可靠的靶点信息挖掘的同时,有效提高了靶点信息挖掘的实现效率,降低了靶点信息挖掘的成本。
76.基于上述实施例,各研发阶段的匹配标准可以如下表2所示,例如,如果目标文献揭示了蛋白质组学与疾病之间的关系并发现了潜在的创新药物靶点,则文本分类模型自动将目标文献针对对应靶点的研发阶段划分为靶点发现阶段。
77.表2
[0078][0079][0080]
基于上述实施例,步骤110中确定目标文献对应的靶点,包括:对目标文献的标题和/或摘要进行实体识别,得到目标文献对应的靶点。
[0081]
具体地,通常目标文献的标题和/或摘要可以反映该文献研究的主要研究成果,为了进一步提高靶点信息挖掘的效率,可以对目标文献的标题和/或摘要进行实体识别来得到目标文献对应的靶点。
[0082]
为了实现针对目标文献的标题和/或摘要的实体识别,可以预先训练实体识别模型。此处所指的实体,包括目标文献包含的药品名称和靶点名称,可以将标题和/或摘要输入到预先训练好的实体识别模型中,由实体识别模型对标题和/或摘要进行实体识别,并输出实体文本中每个字的实体标注,此处实体识别的标注体系可以是bio、bioes等,b表示实体开头,e表示实体结尾,i表示实体中间词,o表示非实体,s表示单个实体。
[0083]
在确定标题和/或摘要中包含的药品名称和/或靶点名称实体后,即可得到目标文献对应的靶点。
[0084]
在执行步骤110之前,可以对实体识别模型进行训练,其中实体识别模型的训练方法可以包括如下步骤:首先采集大量样本标题和/或摘要,并人工标注样本标题和/或摘要中的实体和实体类型。随即,基于样本标题和/或摘要以及其中标注的实体和实体类型,对
初始实体识别模型进行训练,从而得到实体识别模型。
[0085]
本发明实施例提供的靶点信息挖掘方法,通过对目标文献的标题和/或摘要进行实体识别,得到目标文献对应的靶点,有效提高了靶点信息挖掘的实现效率,降低了靶点信息挖掘的成本。
[0086]
基于上述任一实施例,对目标文献的标题和/或摘要进行实体识别,得到目标文献对应的靶点,具体包括:
[0087]
对目标文献的标题进行实体识别,若在标题中识别得到药品实体和/或靶点实体,则基于在标题中识别得到的药品实体和/或靶点实体确定目标文献对应的药品实体和/或靶点实体;
[0088]
若在标题中未识别到药品实体和靶点实体,则对目标文献的摘要进行实体识别,并基于在摘要中识别得到的药品实体和/或靶点实体确定目标文献对应的药品实体和/或靶点实体;
[0089]
基于目标文献对应的药品实体和/或靶点实体,确定目标文献对应的靶点。
[0090]
具体地,可以对目标文献的标题和/或摘要进行实体识别,得到目标文献对应的药品实体和/或靶点实体,然后根据目标文献对应的药品实体和/或靶点实体,确定目标文献对应的靶点。
[0091]
对目标文献的标题和/或摘要进行实体识别,得到目标文献对应的药品实体和/或靶点实体,可以首先对目标文献的标题进行实体识别,若在标题中识别得到药品实体和/或靶点实体,则直接将在标题中识别得到的药品实体和/或靶点实体确定为目标文献对应的药品实体和/或靶点实体;若在标题既未识别到药品实体,也未识别到靶点实体,则对目标文献的摘要进行实体识别,并将在摘要中识别得到的药品实体和/或靶点实体确定为目标文献对应的药品实体和/或靶点实体。
[0092]
本发明实施例提供的靶点信息挖掘方法,首先对目标文献的标题进行实体识别,如果没识别到药品实体和/或靶点实体,再对目标文献的摘要进行实体识别,通过这种分级分层次的实体识别方法,进一步提高了靶点信息挖掘的效率。
[0093]
基于上述任一实施例,基于在摘要中识别得到的药品实体和/或靶点实体确定目标文献对应的药品实体和/或靶点实体,包括:
[0094]
基于在摘要中识别得到的药品实体和/或靶点实体,以及药品实体在摘要中出现的次数和/或靶点实体在摘要中出现的次数,确定目标文献对应的药品实体和/或靶点实体。
[0095]
具体地,考虑到摘要中包含的信息比较多,可能在一次实体识别过程中,识别得到多个不同的药品实体和/或多个不同的靶点实体,则以获取到的出现次数最多的药品实体和/或出现次数最多的靶点实体作为目标文献对应的药品实体和/或靶点实体。
[0096]
进一步地,如果识别得到多个不同的药品实体和/或多个不同的靶点实体,还可以将该目标文献推送给人工进行审核以确保数据的准确性。
[0097]
本发明实施例提供的方法,通过将在摘要中出现的次数最多的药品实体和/或出现次数最多的靶点实体作为目标文献对应的药品实体和/或靶点实体,在实现全面、可靠的靶点信息挖掘的同时,有效提高了靶点信息挖掘的实现效率,降低了靶点信息挖掘的成本。
[0098]
基于上述任一实施例,基于目标文献对应的药品实体和/或靶点实体,确定目标文
献对应的靶点,具体包括:
[0099]
若存在对应的靶点实体,则基于靶点字典对靶点实体进行标准化,得到目标文献对应的靶点,若在靶点字典中未匹配到靶点实体,则将靶点实体添加至靶点字典,并推送至用户终端;
[0100]
若存在对应的药品实体,则基于药品字典对药品实体进行标准化,得到目标文献对应的药品,并基于目标文献对应的药品和靶点之间的关系,补充药品与靶点关系图谱,若在药品字典中未匹配到药品实体,则将药品实体添加至药品字典;
[0101]
若不存在对应的靶点实体但存在对应的药品实体,则基于药品与靶点关系图谱,确定目标文献对应的靶点。
[0102]
具体地,根据目标文献对应的药品实体和/或靶点实体,可以确定目标文献对应的靶点。
[0103]
如果实体识别结果中包含了目标文献对应的靶点实体,则将获取到的靶点实体于已建立的靶点字典中进行匹配,得到标准的靶点名称,并将标准的靶点名称作为目标文献对应的靶点;如果在靶点字典中未匹配到获取到的靶点实体,代表该靶点实体可能是新的靶点,是首次公开的靶点,则将该靶点实体添加至靶点字典,对字典进行补充。并将该靶点信息推送至用户终端,例如,可以通过微信、邮件等方式及时推送给至用户终端,从而可以进行靶点预警,方便用户保持对新靶点的敏捷监测,帮助用户第一时间捕获高价值靶点情报,进而取得新药研发先机。
[0104]
如果实体识别结果中包含了目标文献对应的靶点实体,同时包含了目标文献对应的药品实体,则将获取到的药品实体于已建立的药品字典中进行匹配,得到标准的药品名称,并基于标准的药品名称和靶点名称之间的关系,补充药品与靶点关系图谱。如果在药品字典中未匹配到获取到的药品实体,代表该药品实体可能是新的药品,则将该药品实体添加至药品字典,对字典进行补充。
[0105]
如果实体识别结果中不包含目标文献对应的靶点实体,但包含了目标文献对应的药品实体,则根据预设的药品与靶点关系图谱,确定目标文献对应的靶点。
[0106]
需要说明的是,靶点字典、药品字典和药品与靶点关系图谱均是预先设置好的。
[0107]
本发明实施例提供的方法,针对实体识别结果中包含的三种情况,分别进行相对应的数据处理,得到目标文献对应的靶点。同时,对字典和/或药品与靶点关系图谱进行了补充,对新靶点进行靶点预警,第一时间提供高价值靶点情报,实现了全面、可靠的靶点信息挖掘。
[0108]
基于上述任一实施例,步骤110中获取与转化医学相关的目标文献,包括:从目标范畴里获取与转化医学相关的目标文献,目标范畴是基于各文献的发表期刊影响因子和/或各研究机构的排名确定的。
[0109]
进一步地,考虑到目标文献的获取来源广泛,并且每天产生的文献数量是巨大的,为了提高靶点信息挖掘的效率,可以通过筛选缩小目标文献的获取范畴,在目标范畴内获取转化医学相关的目标文献,可以根据各文献的发表期刊影响因子和/或各研究机构的排名确定目标范畴。
[0110]
例如,可以对所有文献所在的期刊统计其影响因子,对影响因子按照分数倒序排列,优选的,取排名0-30%的期刊所刊登的与转化医学相关的文献作为目标文献;还可以获
取文献的研究机构,对研究机构分为企业、科研院所/大学,优选的,取研究机构为企业、esi-全球top300(全球基本科学指标数据库(esi)中全球排名top300的知名科研院所或大学)、esi-中国top100(esi中国大学排名top100的知名科研院所或大学)所发表的与转化医学相关的文献作为目标文献。
[0111]
本发明实施例提供的方法,通过根据各文献的发表期刊影响因子和/或各研究机构的排名确定目标范畴,在目标范畴里获取目标文献,进一步提高了靶点信息挖掘的效率。
[0112]
基于上述任一实施例,步骤120具体包括:
[0113]
基于靶点在各研发阶段下对应的目标文献的发表时间,确定靶点在各研发阶段下的文献最早发表时间;
[0114]
基于靶点在各研发阶段下的文献最早发表时间,确定靶点的研发里程碑信息。
[0115]
具体地,靶点在每一个研发阶段下对应的目标文献可能有多篇,可以根据该多篇目标文献的发表时间,确定靶点在每一个研发阶段下的文献最早发表时间。而靶点在每一个研发阶段下的文献最早发表时间可以理解为靶点每个研发阶段的起始时间,从而可以根据靶点各个研发阶段的起始时间构成靶点的研发里程碑信息。
[0116]
本发明实施例提供的方法,通过靶点对应的各目标文献的研发阶段和发表时间,确定靶点的研发里程碑信息,实现了全面、可靠的靶点信息挖掘,同时方便用户保持对靶点里程碑的敏捷监测。
[0117]
基于上述任一实施例,步骤110中确定目标文献针对对应靶点的研发阶段,之后还包括:
[0118]
若目标文献针对对应靶点的研发阶段,在靶点的研发里程碑信息示出的研发阶段之后,则生成靶点的里程碑更新信息,并推送至用户终端。
[0119]
具体地,对目标文献针对对应靶点的研发阶段进行挖掘时,如果挖掘得到的目标文献针对对应靶点的研发阶段,在靶点的研发里程碑信息示出的研发阶段之后,代表该靶点的研究进展进入了下一个里程碑节点,也就是说,该靶点取得新的研究里程碑,则生成靶点的里程碑更新信息,并推送至用户终端。此处靶点的里程碑更新信息可以包括靶点的最新研发里程碑信息、新的研究里程碑示出的研发阶段对应的最早发表时间文献。可以通过微信、邮件等方式将里程碑更新信息及时推送给用户,及时通知用户目前靶点的最新里程碑的研发进展。
[0120]
此外,如果挖掘得到的目标文献针对对应靶点的研发阶段为靶点发现阶段,表明该靶点可能是首次发现的新靶点。可以将该靶点信息推送至用户终端进行靶点预警,例如,可以通过微信、邮件等方式及时推送给至用户终端,从而方便用户保持对新靶点的敏捷监测,帮助用户第一时间捕获高价值靶点情报,进而取得新药研发先机。
[0121]
本发明实施例提供的方法,通过监测并更新已知靶点的研究里程碑信息,可以第一时间向用户发出预警消息,帮助用户第一时间捕获高价值靶点情报,进而取得新药研发先机。
[0122]
图2是本发明提供的靶点信息检索方法的流程示意图,如图2所示,该方法包括:
[0123]
步骤210,接收用户终端发送的目标靶点;
[0124]
步骤220,从靶点信息集合中筛选得到目标靶点对应的靶点研发里程碑信息并返回用户终端,其中,靶点信息集合是基于上述的靶点信息挖掘方法确定的。
[0125]
具体地,根据上述实施例描述的靶点信息挖掘方法,得到靶点信息集合后,可以搭建靶点信息检索平台,方便用户日常高效检索。接收到用户终端发送的目标靶点后,可以在靶点信息集合中进行匹配检索,筛选得到目标靶点对应的靶点研发里程碑信息,并将检索得到的靶点研发里程碑信息返回用户终端。靶点研发里程碑信息可以按照表格形式对数据进行展示,也可以按照时间轴对数据进行展示。
[0126]
本发明实施例提供的方法,可以基于目标靶点,快速获取目标靶点对应的靶点研发里程碑信息,提高了数据检索的效率。
[0127]
基于上述实施例,步骤210之后还包括:
[0128]
获取目标靶点对应的药品的最高研发进度并返回用户终端,目标靶点对应的药品的最高研发进度是基于药品的上市信息、申报信息和临床试验信息中至少一种确定的。
[0129]
进一步地,对一个靶点成熟度的评判指标,除上述的研究里程碑节点,其关联药物的最高研发阶段也代表了相应靶点的成熟度或风险度。此处所指的最高研发阶段,可以是针对国内研发而言的,也可以是针对全球研发而言的。但目前市面上尚没有一款数据产品,可以直接通过药物研发阶段来筛选或定义靶点。本发明实施例提供的方法在对目标靶点进行筛选时,可以同时获取目标靶点对应的药品的最高研发进度并返回用户终端。相应地,用户可以通过药物最高研发阶段或靶点的研究里程碑节点来进一步筛选或定义靶点,以第一时间获得高价值靶点情报。
[0130]
药品的最高研发进度可以根据药品的上市信息、申报信息和临床试验信息中至少一种确定。
[0131]
其中,药品的上市信息用于表征已上市药品的信息,上市药品是指经国家药品监督管理部门审查批准,并发给药品生产(或试生产)批准文号或者进口药品注册证书的药品。上市信息具体可以包含上市药品的药物名称、规格、批准文号、生产单位或者上市许可持有人等。
[0132]
申报信息用于表征已注册申报药品的信息,注册申报药品是指依照法定程序和相关要求提出注册申请,国家药品监督管理部门对其进行审查并做出行政许可决定的药品。申报信息具体可以包含但不限于申报药品的药物名称、注册申报类别、注册申报人等。
[0133]
临床试验信息用于表征正在进行或者已完成临床试验的药品信息,临床试验信息具体可以包含但不限于药品的药物名称、企业信息、试验分期和试验状态等。
[0134]
药品的最高研发进度可以是“已上市”、“申请上市”、“批准临床”或者“申请临床”等。可以采用如下方式确定目标药品的最高研发进度:
[0135]
首先确定目标药品的标识信息,目标药品是指需要确定其最高研发进度的药品,目标药品的标识信息可以包含药品的通用名和剂型。
[0136]
然后,在上市信息中查找是否存在与目标药品的标识信息相关的数据,若上市信息中存在与目标药品的标识信息相关的数据,则基于目标药品的上市信息,确定目标药品的研发进度,否则在申报信息中查找是否存在与目标药品的标识信息相关的数据;
[0137]
若申报信息中存在与目标药品的标识信息相关的数据,则基于目标药品申报信息中的审评事项和/或审评结论,确定目标药品的研发进度,否则基于目标药品临床试验信息中的试验分期和/或试验状态,确定目标药品的研发进度。
[0138]
本发明实施例提供的靶点检索方法,可以按照靶点里程碑和/或药物最高研发阶
段来自由筛选靶点,以帮助用户第一时间获得高价值靶点情报。
[0139]
基于上述实施例,目标靶点对应的药品的最高研发进度是基于如下步骤确定的:
[0140]
i、药物在全球的研发进度获取方法:
[0141]
(1)构建全球药品上市信息表:基于各国如,nmpa/fda/ema/hma/pfda药品信息官网,获取已上市的药品数据,提取药品名称,于已构建的药品字典中进行匹配得到标准的药品名称,构建全球上市药品信息表;
[0142]
(2)构建全球药品临床信息表:基于全球临床登记官网如clinicaltrials.gov,获取试验药品信息和试验分期;
[0143]
基于药品名称于已构建的药品字典中进行匹配得到标准的药品名称,基于从官网中获取的试验分期,按照一定规则进行清洗获得标准的试验分期,如,获取的原始数据为:phase 1,phase 2,清洗标准化的临床阶段分别对应的是i期、ii期;基于药品名称及对应的试验分期构建全球临床研究药品信息表;
[0144]
(3)药品在全球的最高进度计算:获取目标靶点对应的药品信息,先于全球药品上市信息表中查找,若目标靶点下任一药品在全球上市药品信息表中匹配得到,则全球最高进度为:已上市;
[0145]
若所有药品在全球上市药品信息表中均匹配不到,则于全球药品临床信息表中查找,若能匹配到,则以药品对应的最高试验分期作为全球最高进度;
[0146]
若所有药品在全球临床研究药品信息表中均匹配不到,则全球最高进度为:临床前;
[0147]
ii、药物在国内的研发进度获取方法:
[0148]
(1)构建国内药品上市信息表:于nmpa获取药品上市信息中药品名称,于已构建的药品字典中进行匹配,得到标准的药品名称;
[0149]
(2)构建国内药品申报信息表:从cde、nmpa获取药品注册申报阶段的信息,所述药品注册申报阶段的信息包括受理号、药品信息、申请事项、审评结论;
[0150]
其中,所述药品信息可以通过从cde中获取药品名称,于已构建的药品字典中进行匹配,得到标准的药品名称;
[0151]
所述申请事项根据受理号对审评事项进行判断,并填入信息;如,当受理号以jt开头时,申请事项为jt,表示:一次性进口;当受理号以cqz开头或以jqz开头或以csz开头或以jsz开头,申请事项为s,表示:申请生产;其他的取受理号第4位的字符为申请事项的值,如l,表示:申请临床;等。
[0152]
所述审评结论基于采集到的信息对审评结论进行实时计算,如:
[0153]
初始化审评结论信息为:暂无
[0154]
首先根据采集到的信息确定相应的审评结论(如审评结论a或审评结论b),然后将其与已存储的审评结论进行比较,判断是否发生变化,如果发生变化,则记录相应的审评结论并存储。
[0155]
审评结论信息包括但不限于:批准生产,批准补充,批准再注册,批准一次性进口,批准技术转移,批准分包装,通过一次性进口等;
[0156]
审评结论的确定规则如表3所示:
[0157]
如果采集到临床试验通知书发放目录信息,并且已存储的审评结论信息为暂无,
则确定审评结论为批准临床;
[0158]
如果采集到上市药品的信息(包括技术审评报告与说明书),并且已存储的审评结论的信息为暂无,则确定审评结论为批准生产;
[0159]
如果采集到特定药品的旧证换新证待领信息,并且已存储的审评结论信息为暂无,则当检测受理号头部为jyhb、jysb、jyzb、jybb或jyfb字段时,将确定审评结论为“批准补充”;
[0160]
表3
[0161][0162][0163]
(3)构建国内药品临床信息表:从chictr、cde获取药品临床信息,所述药品临床信息包括:登记号、药品名称、试验分期、试验状态等;
[0164]
其中,从chictr无法直接获得药品名称信息,需先获取其登记的“研究名称”,如:“评价蛇脂参黄软膏治疗浅部真菌病有效性和安全性的一项开放、多中心iv期临床研究;评价蛇脂参黄软膏治疗浅部真菌病有效性和安全性的一项开放、多中心iv期临床研究”,从中提取出药品名称,进一步,将获取到的药品名称于构建的药品字典中进行匹配,得到标准的药品名称;
[0165]
所述试验分期从原网站获取临床登记的“试验标题”及“试验分期”,由于部分临床登记在原网站中无“试验分期”,所以需要从“试验标题”中进行提取,对提取得到试验分期按照一定规则进行清洗成标准试验分期,如表4所示:
[0166]
表4
[0167]
原始试验分期清洗后的标准试验分期be试验bebe研究beiiib-iv期phase iiib/iv3b、4期phase iiib/iv三/四期phase iii/iviii、ⅳ期phase iii/iv..............
[0168]
所述试验状态包括进行中(尚未招募)、进行中(招募中)、进行中(招募完成)、已完成、主动暂停或终止,被叫停等;根据抓取到的试验状态,对试验状态标准化,如表5所示:
[0169]
1)若采集到的试验状态以“主动暂停”或“主动终止”开头,则返回“主动暂停或终止”;
[0170]
2)若采集到的试验状态以“责令暂停”或“责令终止”开头,则返回“被叫停”,等。
[0171]
表5
[0172][0173]
(4)药品在国内的最高进度计算:获取目标靶点下对应的所有药品信息,基于所有药品名称进行如下判断:
[0174]
先基于药品上市信息判断:
[0175]
根据药品名称于药品上市信息中查找,若能查到数据,则最高研发进展为“已上市”;
[0176]
若未查询到对应的通用名 剂型信息,则进一步查找药品审评信息;
[0177]
基于药品审评信息判断:
[0178]
根据药品名称于药品审评信息中查找,若能查到数据,进一步根据“审评事项”和“审评结论”进行判断;若未查到数据,则直接查找药品临床信息;
[0179]
若“申请事项”或“审评结论”的信息包含有关于药品上市相关事项,如,“申请事项”包含t(技术转移),或“审评结论”包含“批准生产”、“批准进口”等,则最高研发进度为“已上市”;
[0180]
若均不包含上述信息,则判断“申请事项”或“审评结论”的信息是否包含有关于药品申请上市相关事项,如,若“申请事项”包含s(申请生产)且暂无审评结论,则最高研发进度为“申请上市”;
[0181]
若均不包含上述信息,则判断“申请事项”或“审评结论”的信息是否包含有关于药品批准临床相关事项,如,若“审评结论”包括“批准临床”,则最高研发进度为“批准临床”;
[0182]
若均不包含上述信息,则判断“申请事项”或“审评结论”的信息是否包含有关于药品申请临床相关事项,如,若“申请事项”包括l(申请临床)且暂无审评结论,则最高研发进度为“申请临床”;
[0183]
基于药品临床信息判断:
[0184]
按照如下优先级获取国内最高进度:
[0185]
若“试验分期”包含临床iv期,且“试验状态”不包括主动暂停或终止、被叫停等,则最高研发进度为“已上市”;若“试验状态”包括上述信息,则最高研发进度为“已上市(inactive)”;
[0186]
若“试验分期”不为“other”,且“试验状态”不包括主动暂停或终止、被叫停等,则最高研发进度为当前“试验分期”所代表的研发阶段;若“试验状态”包括上述信息,则最高研发进度为当前“试验分期”所代表的研发阶段的inactive状态;
[0187]
若试验分期为“other”,且“试验状态”不包括主动暂停或终止、被叫停等,则最高研发进度为“临床研究”;若“试验状态”包括上述信息,则最高研发进度为“临床研究(inactive)”;
[0188]
若未在药品临床信息中查找到对应的通用名 剂型信息,则代表该目标药品尚未申报,则最高研发进度为“无申报”。
[0189]
下面对本发明提供的靶点信息挖掘装置进行描述,下文描述的靶点信息挖掘装置与上文描述的靶点信息挖掘方法可相互对应参照。图3是本发明提供的靶点信息挖掘装置的结构示意图,如图3所示,该装置包括:
[0190]
靶点和研发阶段确定单元310,用于获取与转化医学相关的目标文献,并确定所述目标文献对应的靶点和所述目标文献针对对应靶点的研发阶段;
[0191]
研发里程碑信息确定单元320,用于基于所述靶点对应的各目标文献的研发阶段和发表时间,确定所述靶点的研发里程碑信息;
[0192]
靶点信息集合构建单元330,用于基于所述靶点的研发里程碑信息,构建靶点信息集合。
[0193]
本发明实施例提供的靶点信息挖掘装置,通过对与转化医学相关的目标文献进行文本分析,得到目标文献对应的靶点和靶点的研发里程碑信息对靶点信息进行挖掘,并以此构建靶点信息集合。在实现全面、可靠的靶点信息挖掘的同时,有效提高了靶点信息挖掘的实现效率,降低了靶点信息挖掘的成本。
[0194]
基于上述实施例,靶点和研发阶段确定单元310进一步用于:
[0195]
对所述目标文献的标题和/或摘要进行实体识别,得到所述目标文献对应的靶点。
[0196]
基于上述实施例,靶点和研发阶段确定单元310进一步用于:
[0197]
对所述目标文献的标题进行实体识别,若在所述标题中识别得到药品实体和/或靶点实体,则基于在所述标题中识别得到的药品实体和/或靶点实体确定所述目标文献对应的药品实体和/或靶点实体;
[0198]
若在所述标题中未识别到药品实体和靶点实体,则对所述目标文献的摘要进行实体识别,并基于在所述摘要中识别得到的药品实体和/或靶点实体确定所述目标文献对应的药品实体和/或靶点实体;
[0199]
基于所述目标文献对应的药品实体和/或靶点实体,确定所述目标文献对应的靶点。
[0200]
基于上述实施例,靶点和研发阶段确定单元310进一步用于:
[0201]
基于在所述摘要中识别得到的药品实体和/或靶点实体,以及药品实体在所述摘要中出现的次数和/或靶点实体在所述摘要中出现的次数,确定所述目标文献对应的药品实体和/或靶点实体。
[0202]
基于上述实施例,靶点和研发阶段确定单元310进一步用于:
[0203]
若存在对应的靶点实体,则基于靶点字典对所述靶点实体进行标准化,得到所述目标文献对应的靶点,若在所述靶点字典中未匹配到所述靶点实体,则将所述靶点实体添加至所述靶点字典,并推送至用户终端;
[0204]
若存在对应的药品实体,则基于药品字典对所述药品实体进行标准化,得到所述目标文献对应的药品,并基于目标文献对应的药品和靶点之间的关系,补充药品与靶点关系图谱,若在所述药品字典中未匹配到所述药品实体,则将所述药品实体添加至所述药品字典;
[0205]
若不存在对应的靶点实体但存在对应的药品实体,则基于预设的药品与靶点关系图谱,确定所述目标文献对应的靶点。
[0206]
基于上述实施例,靶点和研发阶段确定单元310进一步用于:
[0207]
从目标范畴里获取与转化医学相关的目标文献,所述目标范畴是基于各文献的发表期刊影响因子和/或各研究机构的排名确定的。
[0208]
基于上述实施例,研发里程碑信息确定单元320进一步用于:
[0209]
基于所述靶点在各研发阶段下对应的目标文献的发表时间,确定所述靶点在各研发阶段下的文献最早发表时间;
[0210]
基于所述靶点在各研发阶段下的文献最早发表时间,确定所述靶点的研发里程碑信息。
[0211]
基于上述实施例,本发明实施例提供的靶点信息挖掘装置还包括里程碑更新信息生成单元,里程碑更新信息生成单元用于:
[0212]
若所述目标文献针对对应靶点的研发阶段,在所述靶点的研发里程碑信息示出的研发阶段之后,则生成所述靶点的里程碑更新信息,并推送至用户终端。
[0213]
下面对本发明提供的靶点信息检索装置进行描述,下文描述的靶点信息检索装置与上文描述的靶点信息检索方法可相互对应参照。图4是本发明提供的靶点信息检索装置的结构示意图,如图4所示,该装置包括:
[0214]
目标靶点接收单元410,用于接收用户终端发送的目标靶点;
[0215]
里程碑信息筛选单元420,用于从靶点信息集合中筛选得到所述目标靶点对应的靶点研发里程碑信息并返回所述用户终端,其中,所述靶点信息集合是基于上述任一项所述的靶点信息挖掘方法确定的。
[0216]
本发明实施例提供的靶点信息检索装置,可以基于目标靶点,快速获取目标靶点对应的靶点研发里程碑信息,提高了数据检索的效率。
[0217]
基于上述实施例,本发明实施例提供的靶点信息检索装置还包括研发进度获取单元,研发进度获取单元用于:
[0218]
获取所述目标靶点对应的药品的最高研发进度并返回所述用户终端,所述目标靶点对应的药品的最高研发进度是基于所述药品的上市信息、申报信息和临床试验信息中至少一种确定的。
[0219]
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(communications interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行靶点信息挖掘或检索方法,其中,靶点信息挖掘方法包括:获取与转化医学相关的目标文献,并确定所述目标文献对应的靶点和所述目标文献针对对应靶点的研发阶段;基于所述靶点对应的各目标文献的研发阶段和发表时间,确定所述靶点的研发里程碑信息;基于所述靶点的研发里程碑信息,构建靶点信息集合。靶点信息检索方法包括:接收用户终端发送的目标靶点;从靶点信息集合中筛选得到所述目标靶点对应的靶点研发里程碑信息并返回所述用户终端,其中,所述靶点信息集合是基于所述的靶点信息挖掘方法确定的。
[0220]
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以
使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0221]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的靶点信息挖掘或检索方法,其中,靶点信息挖掘方法包括:获取与转化医学相关的目标文献,并确定所述目标文献对应的靶点和所述目标文献针对对应靶点的研发阶段;基于所述靶点对应的各目标文献的研发阶段和发表时间,确定所述靶点的研发里程碑信息;基于所述靶点的研发里程碑信息,构建靶点信息集合。靶点信息检索方法包括:接收用户终端发送的目标靶点;从靶点信息集合中筛选得到所述目标靶点对应的靶点研发里程碑信息并返回所述用户终端,其中,所述靶点信息集合是基于所述的靶点信息挖掘方法确定的。
[0222]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的靶点信息挖掘或检索方法,其中,靶点信息挖掘方法包括:获取与转化医学相关的目标文献,并确定所述目标文献对应的靶点和所述目标文献针对对应靶点的研发阶段;基于所述靶点对应的各目标文献的研发阶段和发表时间,确定所述靶点的研发里程碑信息;基于所述靶点的研发里程碑信息,构建靶点信息集合。靶点信息检索方法包括:接收用户终端发送的目标靶点;从靶点信息集合中筛选得到所述目标靶点对应的靶点研发里程碑信息并返回所述用户终端,其中,所述靶点信息集合是基于所述的靶点信息挖掘方法确定的。
[0223]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0224]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0225]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献