一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基因脱靶预测模型训练方法、预测方法、装置及电子设备与流程

2022-04-14 00:53:59 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,更具体地,涉及一种基因脱靶预测模型训练 方法、预测方法、装置及电子设备。


背景技术:

2.基因是产生一条多肽链或功能rna所需的全部核苷酸序列,储存着生命 的孕育、生长、凋亡等过程的全部信息。随着科学技术的发展,科学家们从 读取基因信息转换为修改基因信息也就是基因编辑。基因编辑技术是对生物 体dna断裂的现象及其修复机制的应用。作为一种常见的分子生物学事件, 在分裂活跃的哺乳动物细胞中,dna双链断裂(dna double-strand breaks, dsbs)每天会发生。dsbs发生后细胞可以通过多种方式进行修复包括删除、 添加。但是由于基因的复杂性,删除或者添加很容易产生危险,例如,当目 标是修复某个基因点,可是却作用了别的基因点,那么就发生了脱靶。
3.目前,脱靶可引起非预期的基因突变,甚至导致癌变发生,因此,脱靶 都是影响临床治疗效果和实验结果可靠性的关键。导致脱靶的发生可能是基 因组中的基因序列的容错性,即基因序列不仅能与完全互补配对的靶点相结 合并切割,同时也会与基因组上其他相似序列结合而发生切割,因此,准确 预测出基因组中的基因在进行基因编辑过程中发生脱靶的概率,从而避免基 因组中的某一基因序列与该基因组中其他基因序列结合而发生切割的概率是 亟待解决的技术问题。


技术实现要素:

4.鉴于上述问题,本技术实施例提出了一种基因脱靶预测模型训练、预测方法、 装置及电子设备,以改善上述问题。
5.第一方面,本技术实施例提供了一种基因脱靶预测模型训练方法,所述方 法包括:获取第一样本集合和第二样本集合,所述第一样本集合中包括多条第 一样本基因序列,所述第二样本集合中包括多组样本序列和每组样本序列对应 的相似度标签,每组样本序列由两条第二样本基因序列构成;按照目标切分方 式对每条所述第一样本基因序列进行切分处理,得到每条所述第一样本基因序 列各自包括的多个碱基组,每个碱基组中包括至少一个碱基;对每条所述第一 样本基因序列中的至少一个碱基组进行掩码处理得到每条第一样本基因序列各 自对应的训练基因序列,并利用每条所述第一样本基因序列以及每条第一样本 基因序列各自对应的训练基因序列,对预测模型进行预训练,得到预训练后的 预测模型;利用所述第二样本集合中包括的多组样本序列以及每组样本序列对 应的相似度标签,对所述预训练后的预测模型进行微调训练,得到目标预测模 型,其中,所述目标预测模型用于预测两条基因序列的相似度,所述两条基因 序列的相似度用于表征基因脱靶的概率。
6.第二方面,本技术实施例提供了一种基因脱靶预测方法,所述方法包括: 获取待预测基因序列组,所述待预测基因序列组包括两条基因序列;将所述待 预测基因序列组输
入至利用上述的基因脱靶预测模型训练方法获得的目标预测 模型,得到所述待预测基因序列组中的两条基因序列的相似度,该相似度用于 表征所述待预测基因序列组中的两条基因序列中的基因脱靶的概率。
7.第三方面,本技术实施例提供了一种基因脱靶预测模型训练装置,该装置 包括:样本集合获取模块、切分处理模块、预训练模块以及微调训练模块。样 本集合获取模块,用于获取第一样本集合和第二样本集合,所述第一样本集合 中包括多条第一样本基因序列,所述第二样本集合中包括多组样本序列和每组 样本序列对应的相似度标签,每组样本序列由两条第二样本基因序列构成;切 分处理模块,用于按照目标切分方式对每条所述第一样本基因序列进行切分处 理,得到每条所述第一样本基因序列各自包括的多个碱基组,每个碱基组中包 括至少一个碱基;预训练模块,用于对每条所述第一样本基因序列中的至少一 个碱基组进行掩码处理得到每条第一样本基因序列各自对应的训练基因序列, 并利用每条所述第一样本基因序列以及每条第一样本基因序列各自对应的训练 基因序列,对预测模型进行预训练,得到预训练后的预测模型;微调训练模块, 用于利用所述第二样本集合中包括的多组样本序列以及每组样本序列对应的相 似度标签,对所述预训练后的预测模型进行微调训练,得到目标预测模型,其 中,所述目标预测模型用于预测两条基因序列的相似度,所述两条基因序列的 相似度用于表征基因脱靶的概率。
8.在一种可实施方式中,所述装置还包括:对应关系获得模块和切分方式确 定模块。切分处理模块,还用于对第三样本集合中的每条第三样本基因序列按 照多种切分方式分别进行切分处理,得到每条所述第三样本基因序列按照每种 切分方式切分得到的多个碱基组,同种切分方式切分得到的碱基组中包括的碱 基的数量相同;预训练模块,还用于针对每种切分方式,对每条所述第三样本 基因序列按照该切分方式切分得到的至少一个碱基组进行掩码处理,得到该切 分方式下每条第三样本基因序列对应的训练基因序列,利用每条所述第三样本 基因序列以及该切分方式下每条第三样本基因序列对应的训练基因序列,对预 测模型进行预训练;对应关系获得模块,还用于获取对预测模型进行预训练过 程中,得到的每种切分方式下的模型精度与训练次数之间的对应关系;切分方 式确定模块,用于根据预测模型在每种切分方式下的模型精度与训练次数之间 的对应关系,从所述多种切分方式中选取一种切分方式作为所述目标切分方式。
9.在一种可实施方式中,切分方式确认模块,还用于根据预测模型在每种切 分方式下的模型精度与训练次数之间的对应关系,得到每种切分方式对应的精 度拟合曲线;根据每种切分方式对应的精度拟合曲线,确定每种切分方式对应 的精度均值,选取最大的精度均值对应的切分方式作为所述目标切分方式。
10.在一种可实施方式中,多种切分方式包括第一切分方式、第二切分方式以 及第三切分方式,所述第一切分方式切分得到的碱基组中包括的碱基的数量小 于第二切分方式切分得到的碱基组中包括的碱基的数量,所述第二切分方式切 分得到的碱基组中包括的碱基的数量小于所述第三切分方式切分得到的碱基组 中包括的碱基的数量。
11.在一种可实施方式中,所述第一切分方式切分得到的碱基组中的碱基数量 为2个,第二切分方式切分得到的碱基组中的碱基数量为3个,第三切分方式 切分得到的碱基组中的碱基数量为4个。
12.在一种可实施方式中,所述第一样本集合包括所述第三样本集合。
的相似度用于表征基因脱靶的概率。可以实现对基因脱靶概率的准确预测。
附图说明
20.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术 的实施例,并与说明书一起用于解释本技术的原理。显而易见地,下面描述中 的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出 创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1示出了可以应用本技术实施例的技术方案的示例性系统架构的示意 图;
22.图2是根据本技术实施例提供的一种基因脱靶预测模型训练方法的流程图;
23.图3示出了本技术实施例提供的一种检测模型的结构示意图;
24.图4示出了本技术实施例提供的一种transformer模型的模型结构示意图;
25.图5示出了图2中步骤s130的流程示意图;
26.图6示出了本技术实施例提供的第二样本集合中包括的多组样本序列的 示意图;
27.图7是根据本技术实施例提供的一种基因脱靶预测模型训练方法的另一流 程图;
28.图8示出了多种切分方式中每种切分方式的模型精度随训练次数的变化曲 线的示意图;
29.图9是根据本技术实施例提供的一种基因脱靶预测方法的流程图;
30.图10是根据本技术的一实施例示出的基因脱靶预测模型训练装置的连接 框图;
31.图11是根据本技术的一实施例示出的基因脱靶预测装置的连接框图;
32.图12示出了适于用来实现本技术实施例的电子设备的结构示意图。
具体实施方式
33.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以 多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方 式使得本技术将更加全面和完整,并将示例实施方式的构思全面地传达给本领 域的技术人员。
34.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更 多实施例中。在下面的描述中,提供许多具体细节从而给出对本技术的实施例 的充分理解。然而,本领域技术人员将意识到,可以实践本技术的技术方案而 没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤 等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免 模糊本技术的各方面。
35.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相 对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块 或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制 器装置中实现这些功能实体。
36.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/ 步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解, 而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际 情况改变。
37.需要说明的是:在本文中提及的“多个”是指两个或两个以上。
38.随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用, 并发挥越来越重要的价值。
39.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控 制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最 佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的 一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似 的方式作出反应的智能机器。以人工智能应用在机器学习上为例进行说明:
40.其中,机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率 论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机 怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知 识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具 有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通 常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习 等技术。本技术的方案主要是机器学习对待预测基因序列组进行基因脱靶预测。
41.在进行具体说明之前,对本技术涉及的术语进行如下解释:
42.基因序列,是使用一串字母表示的真实的或者假设的携带基因信息的 dna分子的一级结构。部分dna序列或基因序列使用一串字母表示的真实的 或者假设的携带基因信息的dna分子的一级结构。字母表示的携带基因信息 的dna分子的一级结构中可能的字母只有a、c、g和t,分别代表组成dna 的四种核苷酸。其中,a表示腺嘌呤,c表示胞嘧啶,g表示鸟嘌呤,t表示 胸腺嘧啶。每个字母代表一种碱基,两个碱基形成一个碱基对,碱基对的配对 规律是固定的,即是:a-t形成一个碱基对,c-g形成一个碱基对。典型的多 个碱基无间隔地排列在一起可以组成基因序列,例如基因序列aaagtctgac。 应当理解,任意碱基长度大于4的一串核苷酸(包括至少4个碱基的一串核苷 酸序列)被称作一个基因序列。
43.第一样本集合,是指由多条第一样本基因序列组成的集合,各第一样本基 因序列未对应有标签信息。在对每条第一样本基因序列按照目标切分方式进行 划分后,可以得到多个碱基组,且按照目标切分方式获得的各碱基组中包括的 碱基的数量相同,例如可以是1个、2个、3个或者4个等。
44.掩码处理,是指针对每条第一样本基因序列各自包括的多个碱基组,对其 中的至少一个碱基组进行遮盖或替换处理,以构建与该第一样本基因序列相似 的基因序列,也即与第一样本基因序列对应的训练基因序列。
45.以下对本技术实施例的技术方案的实现细节进行详细阐述:
46.图1是根据本技术一实施例示出的应用场景的示意图,如图1所示,该应 用场景包括终端10和通过网络与终端10通信连接的服务器20,网络多可以 是广域网或者局域网,或者是二者的组合。终端10可以是智能手机、平板电 脑、电脑或等设备。图1中仅示出了终端为智能手机的示意图。
47.用户可以向终端10输入基因序列,如输入第一样本基因序列和多组样本序 列以及每组样本序列的相似度,以及在终端10建立第一样本集合和第二样本集 合,以使第一样本集合包括多条第一样本基因序列,以及使第二样本集合包括 多组样本序列,每组样本序列包括两条第二样本基因序列及对应的相似度标签。 实例性地,如图1所示,终端10上示出了用户在终端上输入的基因序列 aaagtctgac。在终端10完成建立第一样本集合和第二样本集合后可以上传 至服务器20,或者可以直接存储以便被服务器20调用。
48.服务器20可以获取第一样本集合和第二样本集合;按照目标切分方式对每 条第一样本基因序列进行切分处理,得到每条第一样本基因序列各自包括的多 个碱基组,每个碱基组中包括至少一个碱基;对每条第一样本基因序列中的至 少一个碱基组进行掩码处理得到每条第一样本基因序列各自对应的训练基因序 列,并利用每条第一样本基因序列以及每条第一样本基因序列各自对应的训练 基因序列,对预测模型进行预训练,得到预训练后的预测模型;利用第二样本 集合中包括的多组样本序列以及每组样本序列对应的相似度标签,对预训练后 的预测模型进行微调训练,得到目标预测模型,其中,目标预测模型用于预测 两条基因序列的相似度,两条基因序列的相似度用于表征基因脱靶的概率。
49.通过采用上述的方法,可以完成对基因脱靶预测模型(也即目标模型)的 训练,从而在后续需要对待预测的两条基因序列进行脱靶预测时,只需将两条 基因序列输入至训练得到的目标模型中,即可实现脱靶预测。
50.应当理解,上述的预测过程可以是在服务器20上执行,也可以是在终端 10上执行。当预测过程在服务器20上执行时,目标模型部署在服务器20上; 当预测过程是在终端10上执行时,目标模型部署在终端10上。类似的,上述 的模型训练过程除了可以在服务器20上执行,也可以是在终端10上执行。
51.图2是根据本技术的一个实施例示出的目标区域检测方法的流程图,该方 法可以由具备处理能力的电子设备执行,例如由服务器、终端、或者由服务器 和终端交互实现本方案等,在此不进行具体限定。参照图2所示,该方法至少 包括步骤s110至s140,详细介绍如下:
52.步骤s110,获取第一样本集合和第二样本集合。
53.其中,第一样本集合中包括多条第一样本基因序列,第二样本集合中包括 多组样本序列和每组样本序列对应的相似度标签,每组样本序列由两条第二样 本基因序列构成。
54.获取第一样本集合方式可以有多种,例如,可以是接收用户输入的多条第 一样本基因序列,也可以是从电子设备或者与电子设备关联的存储设备或云平 台中获取第一样本集合,还可以是从实验平台中获取第一样本集合,此处不作 具体限定。
55.获取第二样本集合的方式也可以有多种,例如,可以是接收用户输入的多 组样本序列和每组样本序列对应的相似度标签,也可以是从公开数据集中整理 得到的多组样本序列和每组样本序列对应的相似度标签,此处不作具体限定, 根据实际需求进行限定即可。
56.步骤s120:按照目标切分方式对每条第一样本基因序列进行切分处理,得 到每条第一样本基因序列各自包括的多个碱基组,每个碱基组中包括至少一个 碱基。
57.其中,目标切分方式可以是预先设置的。目标切分方式也可以是从多种切 分方式中选取的一种切分方式,例如,可以是从多种切分方式中随机选取的一 种切分方式,也可以是对多种切分方式进行比较之后选取的一种最优的切分方 式。
58.在一种可实施方式中,若目标切分方式为对多种切分方式进行比较之后选 取的一种最优的切分方式时,目标切分方式的具体选取方式可以是:针对一包 括多个第三样本基因序列的第三样本集合,对每条第三样本基因序列分别按照 每种切分方式进行切分,得到每条第三样本基因序列按照每种切分方式对应的 多个碱基组;针对每种切分方式,利用无监督学习模型对该种切分方式获得的 每条第三样本基因序列各自包括的多个碱基组进
行学习,得到目标无监督学习 模型,并将具有标签的多条待识别基因序列分别输入至每种切分方式对应的目 标无监督学习模型中,得到每种切分方式下,对多条待识别基因序列分别进行 识别得到的识别结果;根据每种切分方式下多条待识别基因序列各自对应的识 别结果和标签,从多种切分方式中选取一目标切分方式。
59.在该种方式下,根据每种切分方式下多条待识别基因序列各自对应的识别 结果和标签,从多种切分方式中选取一目标切分方式,具体可以是:根据每种 切分方式下多条待识别基因序列各自对应的识别结果和标签得到每种切分方式 对应的预测结果准确度,根据每种切分方式对应的准确度确定一种目标切分方 式。其中,确定目标切分方式具体可以是:根据每种切分方式对应的准确度选 取准确度为最高的切分方式作为目标切分方式;也可以是,按照准确度对各切 分方式进行排序,获取排序为前设定数量的切分方式,并从获取的切分方式中 随机选取一种切分方式作为目标切分方式。
60.按照目标切分方式对各第一样本序列进行切分,得到的每条第一样本序列 各自包括的碱基组中,各碱基组包括的碱基的数量可以是相同的,也可以是不 同。此处不作具体限定,根据目标切分方式确定。
61.步骤s130:对每条第一样本基因序列中的至少一个碱基组进行掩码处理得 到每条第一样本基因序列各自对应的训练基因序列,并利用每条第一样本基因 序列以及每条第一样本基因序列各自对应的训练基因序列,对预测模型进行预 训练,得到预训练后的预测模型。
62.其中,对每条第一样本基因序列中的至少一个碱基组进行掩码处理,是指 针对每个样本基因序列而言,对于该第一样本基因序列中的至少一个碱基组采 用设定掩码规则,进行替换或者更改,以获得与每条第一样本基因序列相似的 基因序列(每条第一样本基因序列各自对应的训练基因序列)。
63.如,可以将多个第一基因序列中需要进行中遮掩处理的碱基组中的80%替 换为掩码标识,10%替换为其他字符,10%保持不变。从而在后续预训练过程 中,上下文信息来预测被遮掩处理后的碱基组,从而得到训练误差进行反向传 播。
64.在选取用于进行掩码处理的碱基组时,可以采用随机选取的方式进行选取, 也可以是按照一定的规则进行选取,此处不作具体限定,根据实际需求进行设 置即可。
65.上述的预测模型具体可以是任意可以执行基因序列相似度预测的模型或进 行基因序列匹配的模型,例如,可以是bert模型,也可以是mlm模型。
66.在本本技术的一种可实施方式中,预测模型为bert模型。其中,bert模 型是一种预训练的双向语言模型,具体为一种包括双向变换器(transformer)的特 征抽取模型。通过在大规模文本数据上进行预训练,得到强大的文本序列建模 能力。该bert模型以transformer的编码器框架作为基础,通过完形填空式的 遮掩方法来达到构造双向语言模型的目的,在自然语言处理的多个任务上取得 了很好的效果。
67.如图3所示,bert是由多层双向的transformer连接而成,一般可以是12 层或者24层等。图3中的e1、e2

en表示输入,t1、t2

tn表示输出,trm 表示bert的每个transformer节点,连线表示的是词与词之间的依赖关系,bert 中的依赖关系既有前文又有后文。bert可以是通过预训练加微调得到的,bert 的训练数据为语料信息,bert在预训练时主要包含两个任务,第一个是随机扣 掉训练语料中的词(第一训练样本基因序列中的碱基组),并用
掩码(mask)来代 替,让模型去预测被替代的词;第二个任务是每个训练数据是一个上下句(若 上句是指第一样本基因序列,则下句是指该第一样本基因序列对应的训练基因 序列),其中,部分训练数据的下句和上句是真实关联的,而部分训练数据的 下句和上句是无关的,需要让模型去判断训练数据中上下句的关系。基于两个 任务的损失值来对模型进行优化。bert的训练过程可以充分利用上下文的信息, 使模型具有更强的表达能力。
68.transformer是一种神经网络框架,包括编码部分和解码部分,编码部分包 括多个依次连接的编码层,解码部分包括多个依次连接的解码层,每个编码层 和解码层均包括自注意力层,自注意力层可以采用多头注意力机制。利用注意 力机制可以使得模型对输入的基因序列进行充分交互,可以有效捕捉输入的基 因序列的全局信息,得到丰富的上下文表示。
69.请参照图4,为一种transformer模型的模型结构,该transformer模型包括 编码部分和解码部分,编码部分包括多个编码层,解码部分包括多个解码层,
70.在对预测模型进行预训练过程中,可采用的预训练方式可以有多种。
71.在一种可实施方式中,对预测模型进行预训练过程中具体可以将每条第一 样本基因序列和每条第一样本基因序列各自对应的训练基因序列输入至预测模 型,提取训练基因序列包括的各碱基组的特征,从而获得训练基因序列的特征 向量,提取第一样本基因序列包括的各碱基组的特征从而获得第一样本基因序 列的特征向量,以及根据第一样本基因序列的特征向量和该第一样本基因序列 对应的训练基因序列的特征向量确定预测模型损失,并根据模型损失反向训练 预测模型,直至达到训练结束条件时,得到预训练后的预测模型。
72.其中,以预测模型为bert模型达到训练结束条件为例进行说明,基于该 bert模型和全连接网络可以准确预测出已掩码第一样本基因序列中被掩码的 碱基组。其中,bert模型和全连接网络模型所需满足的训练要求可以有多种可 能。
73.在一种可能的实现方式中,可以依据设定的损失函数,各样本用户已掩码 第一样本基因序列中实际被掩码的至少一个碱基组以及预测出的被掩码的至少 一个碱基组,计算损失函数值。如果当前损失函数值收敛,则说明符合训练要 求;如果损失函数值尚未收敛,则说明仍需要继续训练bert模型和全连接网 络模型。示例性的,可以是基于bert模型中掩码处理的损失函数(mask token 的损失函数)来计算损失函数值,并在损失函数值收敛的情况下,确定bert模 型和全连接网络模型的训练完成。
74.在一种可能的实现方式中,还可以是在基于第一样本基因序列的损失对模 型参数进行调整次数达到预设次数时,达到训练结束条件。
75.在又一种可能的实施方式中,还可以是在对所有的第一样本基因序列均获 取损失并执行基于损失进行参数调整的操作时,达到训练结束条件。
76.请参阅图5,在另一种可实施方式中,在对预测模型进行与训练过程中,具 体还可以包括以下步骤:
77.步骤s132:对每条第一样本基因序列各自包括的多个碱基组进行编码,得 到每条第一样本基因序列分别对应的编码向量。
78.上述对碱基组进行编码的方式可以有多种,例如可以是采用one-hot编码, 也可以采用数值编码(如二进制编码、八进制编码、十进制编码或者十六进制 编码等),还可以
采用扩展的ascii码等等。
79.在本技术的一种可实施方式中,可以采用数值编码的方式对第一样本基因 序列各自包括的碱基组进行编码。在编码过程中,电子设备中可以预先存储有 不同的碱基组与编码值之间的对应关系,在对条第一样本基因序列进行编码时, 可以根据预先存储的对应关系对每条第一样本基因序列各自包括的多个碱基组 进行编码。
80.示例性的,采用目标切分方式获得的碱基组中包括的碱基数量相同,且为3 个时,则由3个碱基构成的碱基组可以包括:aaa、aat、aac、aag、ata、 att、atc、atg、aca、act、acc、acg、aga、agt、agc、agg、taa、 tat、tac、tag、tta、ttt、ttc、ttg、tca、tct、tcc、tcg、tga、 tgt、tgc、tgg、caa、cat、cac、cag、cta、ctt、ctc、ctg、cca、 cct、ccc、ccg、cga、cgt、cgc、cgg、gaa、gat、gac、gag、gta、 gtt、gtc、gtg、gca、gct、gcc、gcg、gga、ggt、ggc、ggg共 64个,则可以依次对上述的碱基组按照数字01、02、03、
……
、64共64个数 字对上述的64种碱基组进行编码,以使每种碱基组对应一个编码。进而可以得 到一个基因序列对应的编码向量。
81.步骤s134:对每条第一样本基因序列对应的编码向量中的至少一个碱基组 对应的编码进行掩码处理,得到每条第一样本基因序列对应的训练基因序列的 编码向量。
82.其中,关于至少一个碱基组对应的编码进行掩码处理的方式可以参阅前文 对碱基组进行掩码处理的具体描述,此处不作一一赘述。
83.步骤s136:利用每条第一样本基因序列对应的编码向量以及每条第一样本 基因序列对应的训练基因序列的编码向量,对预测模型进行预训练,得到预训 练后的预测模型。
84.在预训练过程中,具体可以重复执行以下训练步骤直至预训练损失值满足 预训练结束条件,得到预训练后的预测模型:
85.训练步骤包括:对于任一第一样本基因序列对应的编码向量和对应的训练 基因序列的编码向量,将第一样本基因序列对应的编码向量和对应的训练基因 序列的编码向量输入至预测模型,以通过预测模型提取第一样本基因序列对应 的编码向量的特征,并基于训练基因序列的编码向量中各编码之间的上下文信 息,提取得到每个编码的特征,并基于各编码的特征得到训练基因序列的编码 向量的特征;基于每条第一样本基因序列对应的编码向量的特征和对应的训练 基因序列的编码向量的特征,确定损失值,若损失值满足训练结束条件,结束 训练,得到预训练后的特征提取模块;若不满足,调整预测模型的模型参数, 并重复上述的训练步骤。
86.训练步骤也可以包括:将各第一样本基因序列对应的编码向量和每条第一 样本基因序列各自对应的训练基因序列的编码向量输入至预测模型,在通过预 测模型的输出层输出一个训练基因序列的编码向量的向量特征之前,将另一个 训练基因序列的编码向量输入至预测模型中,以通过预测模型对至少两个训练 基因序列的编码向量进行并行处理,得到每个训练基因序列的编码向量的向量 特征;基于各第一样本基因序列对应的编码向量的和每条第一样本基因序列各 自对应的训练基因序列的编码向量的向量特征,确定损失值,若损失值满足训 练结束条件,结束训练,得到预训练后的预测模型;若不满足,调整预测模型 的模型参数,并重复训练步骤。在该种训练方式下,通过并行的方式处理两个 训练基因序列,相较于一个一个处理训练基因序列的方式,可以提高对预测模 型进行预训练的训练速度。
87.应当理解,上述两种训练方式中,由于训练基因序列是通过对第一样本基 因序列中的碱基组进行替换或遮盖处理的方式得到的,对于一个训练基因序列, 在基于各第一样本基因序列和各训练基因序列,对预测模型进行训练时,对于 一个训练基因序列,可基于训练基因序列中各碱基组对应的编码之间的上下文 信息,得到训练基因序列的向量特征。各字符间的上下文信息可以反映出各碱 基组之间的语义关联关系,基于上下文信息,可以更加准确的确定出被替换的 字符的语义,从而使得得到的训练基因序列的向量特征更加准确。
88.损失值表征了各第一样本基因序列的向量特征和对应的训练基因序列的向 量特征之间的差异,在损失值满足训练结束条件时,表示损失函数收敛。
89.步骤s140:利用第二样本集合中包括的多组样本序列以及每组样本序列对 应的相似度标签,对预训练后的预测模型进行微调训练,得到目标预测模型, 其中,目标预测模型用于预测两条基因序列的相似度,两条基因序列的相似度 用于表征基因脱靶的概率。
90.其中,每组样本序列中包括的两条第二样本基因序列的长度可以是相同的, 也可以是不同的。
91.在进行微调时,可以将预处理后的第二样本集合按照比例划分为训练集和 测试集,其中,第二样本集合中包括多组样本序列和每组样本序列对应的相似 度标签,每组样本序列由两条第二样本基因序列构成;加载预训练后的bert 模型,将训练集输入预训练后的bert模型,重新训练预训练后的bert模型 的输出层,利用随机梯度下降法更新预训练后的bert模型的权重和偏置,直 到损失函数收敛或迭代次数达到预设值;用测试集进行测试,若此时模型准确 度达到预设值则获得目标预测模型。
92.可以将训练集中的两条第二样本基因序列按照预设方式排列后输入至预训 练后的预测模型中以进行训练。示例性的,如图6所示,可以在微调过程中, 按照如图6所示的排列方式,将训练集中的多组样本序列进行编号,以及将每 组样本序列包括的两条第二样本基因序列和对应的相似度标签按照逗号分隔的 方式进行排列后,输入至预训练后的预测模型中以进行训练,其中,每组样本 基因序列中包括的两条第二样本基因序列中的其中一条为主样本基因序列,另 一条为脱靶预测样本基因序列。
93.在完成对预测模型的预训练后,针对特定的任务(如本技术中的脱靶概率 预测任务)对预测模型进行微调。微调(fine-tune)是深度学习领域中常用的迁移 学习技术,通过微调可以使模型更好地适用于特定场景下的语言知识。例如, 在本技术中,能够适用于本技术中对两条基因序列进行脱靶预测。
94.本技术的提供的基因脱靶预测模型训练方法,通过按照目标切分方式对每 条第一样本基因序列进行切分处理,得到每条第一样本基因序列各自包括的多 个碱基组,对每条第一样本基因序列中的至少一个碱基组进行掩码处理得到每 条第一样本基因序列各自对应的训练基因序列,并利用每条第一样本基因序列 以及每条第一样本基因序列各自对应的训练基因序列,对预测模型进行预训练, 得到预训练后的预测模型,以及利用第二样本集合中包括的多组样本序列以及 每组样本序列对应的相似度标签,对预训练后的预测模型进行微调训练,得到 目标预测模型,其中,目标预测模型用于预测两条基因序列的相似度,两条基 因序列的相似度用于表征基因脱靶的概率。可以实现对基因脱靶概率的准确预 测。
95.考虑到基因编辑过程中,通常会给定一条基因序列,并基于该基因序列进 行基因编辑,以产生多条基因序列,通过将给定的基因序列与多条基因序列分 别进行组合,以得到一组基因序列并输入到上述预测得到的目标预测模型中以 进行脱靶预测,可以得到各组基因序列之间的脱靶预测结果,从而可以依据各 组基因序列的脱靶预测结果更有效地敲除基因或者精确有效地识别并删除特定 序列基因,因此,通过采用本技术的上述方法,可以在提升了基因编辑后的基 因脱靶概率预测的精度,大大减少了科研人员的基因编辑风险的同时,还可以 极大地加速了基因编辑的效率,从而应用于临床,更快走上市场。
96.请参阅图7,本技术另一实施例提供了可应用于电子设备的一种基因脱 靶预测模型训练方法,该方法包括:
97.步骤s210:获取第一样本集合、第二样本集合以及第三样本集合。
98.第一样本集合中包括多条第一样本基因序列,第二样本集合中包括多组样 本序列和每组样本序列对应的相似度标签,每组样本序列由两条第二样本基因 序列构成,第三样本集合包括多条第三样本基因序列。
99.其中,第三样本集合中的第三样本基因序列可以与第一样本集合中的第一 样本基因序列相同,第三样本集合中的第三样本基因序列也可以是从第一样本 集合中抽取的部分样本基因序列。
100.步骤s220:对第三样本集合中的每条第三样本基因序列按照多种切分方式 分别进行切分处理,得到每条第三样本基因序列按照每种切分方式切分得到的 多个碱基组,同种切分方式切分得到的碱基组中包括的碱基的数量相同。
101.其中,多种切分方式可以是预先确定的,每种切分方式对应切分得到的碱 基组中包括的碱基的数量可以是相同的。例如多种切分方式对应切分得到的碱 基组中包的碱基的数量可以是一个、两个、三个、四个以及5个等中的至少两 种。
102.在本技术的一种可实施方式中,多种切分方式包括第一切分方式、第二切 分方式以及第三切分方式,第一切分方式切分得到的碱基组中包括的碱基的数 量小于第二切分方式切分得到的碱基组中包括的碱基的数量,第二切分方式切 分得到的碱基组中包括的碱基的数量小于第三切分方式切分得到的碱基组中包 括的碱基的数量。
103.在该种实施方式下,第一切分方式切分得到的碱基组中的碱基数量为2个, 第二切分方式切分得到的碱基组中的碱基数量为3个,第三切分方式切分得到 的碱基组中的碱基数量为4个。
104.步骤s230:针对每种切分方式,对每条第三样本基因序列按照该切分方式 切分得到的至少一个碱基组进行掩码处理,得到该切分方式下每条第三样本基 因序列对应的训练基因序列,利用每条第三样本基因序列以及该切分方式下每 条第三样本基因序列对应的训练基因序列,对预测模型进行预训练。
105.关于对每条第三样本基因序列按照各种切分方式进行切分,以及进行预训 练的步骤,可以参阅前文对步骤s120-s130的具体描述,此处不作一一赘述。
106.步骤s240:获取对预测模型进行预训练过程中,得到的每种切分方式下的 模型精度与训练次数之间的对应关系。
107.应当理解,在预训练过程中,随着训练次数的增加,模型精度会逐渐趋于 稳定,且会逐渐趋近于一个固定值,也即训练次数的增加,不同的切分方式对 应的模型精度分别会
逐渐趋于一个固定值。且不同切分方式对应的模型精度通 常不同。上述的模型精度与训练次数之间的对应关系具体可以以模型精度随训 练次数的变化曲线进行表示,也可以以集合的方式进行表示(建立多个表或集 合,每个表或集合中存储了多个训练次数及每个训练次数对应的模型精度)。
108.步骤s250:根据预测模型在每种切分方式下的模型精度与训练次数之间的 对应关系,从多种切分方式中选取一种切分方式作为目标切分方式。
109.上述根据对应关系从多种切分方式中选取一种切分方式作为目标切分方式 的方法可以有多种。
110.在一种可实施方式中,可以根据对应关系获得当训练次数达到预设次数时 每种切分方式对应的模型精度或模型精度均值,并将模型精度或模型精度均值 为最大时对应的切分方式作为目标切分方式。
111.在另一种可实施方式,还可以根据每种切分方式对应的对应关系,得到每 种切分方式对应的模型精度均值和模型精度方差,根据每种切分方式对应的对 模型精度均值和模型精度方差选取一种目标切分方式。
112.在该种实施方式下,可以对每种切分方式对应的模型精度均值和模型精度 方差进行加权计算,得到每种切分方式对应的权值,并将权值最大的切分方式 作为目标切分方式。
113.在又一种可实施方式中,还可以根据预测模型在每种切分方式下的模型精 度与训练次数之间的对应关系,得到每种切分方式对应的精度拟合曲线;根据 每种切分方式对应的精度拟合曲线,确定每种切分方式对应的精度均值,选取 最大的精度均值对应的切分方式作为目标切分方式。
114.如图8所示,示例性地示出了多种切分方式包括第一切分方式、第二切分 方式以及第三切分方式,且第一切分方式切分得到的碱基组中的碱基数量为2 个,第二切分方式切分得到的碱基组中的碱基数量为3个,第三切分方式切分 得到的碱基组中的碱基数量为4个时,利用每种切分方式获得碱基组进行预训 练过程中获得的每种切分方式的模型精度随训练次数的变化曲线。
115.从图8中可以看出,当采用第二种切分方式作为目标切分方式时,也即按 照每3个碱基作为一个碱基组的方式对样本基因序列进行划分时,获得的预训 练后的检测模型不管是精度上还是模型的稳定性上都比其他数量碱基作为一个 碱基组表现要好,因此,在本技术实施例中,采用提出3个碱基作为一个碱基 组的方式对样本基因序列(第一样本基因序列)进行划分。
116.步骤s260:按照目标切分方式对每条第一样本基因序列进行切分处理,得 到每条第一样本基因序列各自包括的多个碱基组,每个碱基组中包括至少一个 碱基。
117.步骤s270:对每条第一样本基因序列中的至少一个碱基组进行掩码处理得 到每条第一样本基因序列各自对应的训练基因序列,并利用每条第一样本基因 序列以及每条第一样本基因序列各自对应的训练基因序列,对预测模型进行预 训练,得到预训练后的预测模型。
118.步骤s280:利用第二样本集合中包括的多组样本序列以及每组样本序列对 应的相似度标签,对预训练后的预测模型进行微调训练,得到目标预测模型, 其中,目标预测模
型用于预测两条基因序列的相似度,两条基因序列的相似度 用于表征基因脱靶的概率。
119.本技术的提供的基因脱靶预测模型训练方法,通过根据多种切分方式进行 与训练得到的每种切分方式下的模型精度与训练次数之间的对应关系,从多种 切分方式中选取一目标切分方式,按照目标切分方式对每条第一样本基因序列 进行切分处理,得到每条第一样本基因序列各自包括的多个碱基组,对每条第 一样本基因序列中的至少一个碱基组进行掩码处理得到每条第一样本基因序列 各自对应的训练基因序列,并利用每条第一样本基因序列以及每条第一样本基 因序列各自对应的训练基因序列,对预测模型进行预训练,得到预训练后的预 测模型,以及利用第二样本集合中包括的多组样本序列以及每组样本序列对应 的相似度标签,对预训练后的预测模型进行微调训练,得到目标预测模型,其 中,目标预测模型用于预测两条基因序列的相似度,两条基因序列的相似度用 于表征基因脱靶的概率。可以实现对基因脱靶概率的准确预测。
120.请参阅图9,本技术实施例还提供一种可应用于电子设备的基因脱靶预测方 法,该方法包括:
121.步骤s310:获取待预测基因序列组,待预测基因序列组包括两条基因序列。
122.步骤s320:将待预测基因序列组输入至利用基因脱靶预测模型训练方法获 得的目标预测模型,得到待预测基因序列组中的两条基因序列的相似度,该相 似度用于表征待预测基因序列组中的两条基因序列中的基因脱靶的概率。
123.利用目标预测模型的具体获得方式可以参阅前述实施例对基因脱靶预测模 型训练方法的具体描述,此处不作一一赘述。
124.应当理解,上述的待预测基因序列组的数量可以为多组,多组待预测基因 序列中的基因序列中包括一条相同的待预测基因序列,通过将多组以得到一组 基因序列并输入到上述预测得到的目标预测模型中以进行脱靶预测,可以得到 各组基因序列之间的脱靶预测结果,从而可以依据各组基因序列的脱靶预测结 果更有效地敲除基因或者精确有效地识别并删除特定序列基因,因此,通过采 用本技术的上述方法,可以在提升了基因编辑后的基因脱靶概率预测的精度, 大大减少了科研人员的基因编辑风险的同时,还可以极大地加速了基因编辑的 效率,从而应用于临床,更快走上市场。
125.以下介绍本技术的装置实施例,可以用于执行本技术上述实施例中的方 法。对于本技术装置实施例中未披露的细节,请参照本技术上述方法实施例。
126.请参阅图10,本技术实施例还提供了一种可应用于电子设备的基因脱靶预 测模型训练装置400,该装置400包括样本集合获取模块410、切分处理模块420、 预训练模块430以及微调训练模块440。
127.样本集合获取模块410,用于获取第一样本集合和第二样本集合,第一样本 集合中包括多条第一样本基因序列,第二样本集合中包括多组样本序列和每组 样本序列对应的相似度标签,每组样本序列由两条第二样本基因序列构成;切 分处理模块420,用于按照目标切分方式对每条第一样本基因序列进行切分处理, 得到每条第一样本基因序列各自包括的多个碱基组,每个碱基组中包括至少一 个碱基;预训练模块430,用于对每条第一样本基因序列中的至少一个碱基组进 行掩码处理得到每条第一样本基因序列各自对应的训练基因序列,并利用每条 第一样本基因序列以及每条第一样本基因序列各自对应的训练基因序列,对预 测模型进行预训练,得到预训练后的预测模型;微调训练模块440,用于利
用第 二样本集合中包括的多组样本序列以及每组样本序列对应的相似度标签,对预 训练后的预测模型进行微调训练,得到目标预测模型,其中,目标预测模型用 于预测两条基因序列的相似度,两条基因序列的相似度用于表征基因脱靶的概 率。
128.在一种可实施方式中,装置400还包括:对应关系获得模块和切分方式确 定模块。
129.切分处理模块420,还用于对第三样本集合中的每条第三样本基因序列按照 多种切分方式分别进行切分处理,得到每条第三样本基因序列按照每种切分方 式切分得到的多个碱基组,同种切分方式切分得到的碱基组中包括的碱基的数 量相同;预训练模块430,还用于针对每种切分方式,对每条第三样本基因序列 按照该切分方式切分得到的至少一个碱基组进行掩码处理,得到该切分方式下 每条第三样本基因序列对应的训练基因序列,利用每条第三样本基因序列以及 该切分方式下每条第三样本基因序列对应的训练基因序列,对预测模型进行预 训练;对应关系获得模块,还用于获取对预测模型进行预训练过程中,得到的 每种切分方式下的模型精度与训练次数之间的对应关系;切分方式确定模块, 用于根据预测模型在每种切分方式下的模型精度与训练次数之间的对应关系, 从多种切分方式中选取一种切分方式作为目标切分方式。
130.在一种可实施方式中,切分方式确认模块,还用于根据预测模型在每种切 分方式下的模型精度与训练次数之间的对应关系,得到每种切分方式对应的精 度拟合曲线;根据每种切分方式对应的精度拟合曲线,确定每种切分方式对应 的精度均值,选取最大的精度均值对应的切分方式作为目标切分方式。
131.在一种可实施方式中,多种切分方式包括第一切分方式、第二切分方式以 及第三切分方式,第一切分方式切分得到的碱基组中包括的碱基的数量小于第 二切分方式切分得到的碱基组中包括的碱基的数量,第二切分方式切分得到的 碱基组中包括的碱基的数量小于第三切分方式切分得到的碱基组中包括的碱基 的数量。
132.在一种可实施方式中,第一切分方式切分得到的碱基组中的碱基数量为2 个,第二切分方式切分得到的碱基组中的碱基数量为3个,第三切分方式切分 得到的碱基组中的碱基数量为4个。
133.在一种可实施方式中,第一样本集合包括第三样本集合。
134.在一种可实施方式中,预训练模块430包括编码子模块、掩码处理子模块 以及预训练子模块。
135.编码子模块,用于对每条第一样本基因序列各自包括的多个碱基组进行编 码,得到每条第一样本基因序列分别对应的编码向量;掩码处理子模块,用于 对每条第一样本基因序列对应的编码向量中的至少一个碱基组对应的编码进行 掩码处理,得到每条第一样本基因序列对应的训练基因序列的编码向量;预训 练子模块,用于利用每条第一样本基因序列对应的编码向量以及每条第一样本 基因序列对应的训练基因序列的编码向量,对预测模型进行预训练,得到预训 练后的预测模型。
136.在一种可实施方式中,编码子模块,还用于对于任一第一样本基因序列对 应的编码向量和对应的训练基因序列的编码向量,将第一样本基因序列对应的 编码向量和对应的训练基因序列的编码向量输入至预测模型,以通过预测模型 提取第一样本基因序列对应的编码向量的特征,并基于训练基因序列的编码向 量中各编码之间的上下文信息,提取得到每个编码的特征,并基于各编码的特 征得到训练基因序列的编码向量的特征;基于每
条第一样本基因序列对应的编 码向量的特征和对应的训练基因序列的编码向量的特征,确定损失值,若损失 值满足训练结束条件,结束训练,得到预训练后的特征提取模块,若不满足, 调整预测模型的模型参数。
137.请参阅图11,本技术实施例还提供一种可应用于电子设备的基因脱靶预测 装置500,该装置500包括基因序列获取模块510以及脱靶预测模块520。
138.基因序列获取模块510,用于获取待预测基因序列组,待预测基因序列组包 括两条基因序列;脱靶预测模块520,用于将待预测基因序列组输入至利用基因 脱靶预测模型训练装置获得的目标预测模型,得到待预测基因序列组中的两条 基因序列的相似度,该相似度用于表征待预测基因序列组中的两条基因序列中 的基因脱靶的概率。
139.需要说明的是,本技术中装置实施例与前述方法实施例是相互对应的, 装置实施例中具体的原理可以参见前述方法实施例中的内容,此处不再赘述。
140.下面将结合图12对本技术提供的一种电子设备100进行说明。
141.请参阅图12,基于上述实施例提供的基因脱靶预测模型训练方法以及基 因脱靶预测方法,本技术实施例还提供的另一种包括可以执行前述方法的处 理器102的电子设备100,该电子设备100可以为服务器10或终端设备,终 端设备可以是智能手机、平板电脑、计算机或者便携式计算机等设备。
142.电子设备100还包括存储器104。其中,该存储器104中存储有可以执 行前述实施例中内容的程序,而处理器102可以执行该存储器104中存储的 程序。
143.其中,处理器102可以包括一个或者多个用于处理数据的核以及消息矩 阵单元。处理器102利用各种接口和线路连接整个电子设备100内的各个部 分,通过运行或执行存储在存储器104内的指令、程序、代码集或指令集, 以及调用存储在存储器104内的数据,执行电子设备100的各种功能和处理 数据。可选地,处理器102可以采用数字信号处理(digital signal processing, dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可 编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来 实现。处理器102可集成中央处理器(central processing unit,cpu)、图 像处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种 的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于 负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是, 上述调制解调器也可以不集成到处理器102中,单独通过一块通信芯片进行 实现。
144.存储器104可以包括随机存储器(random access memory,ram),也 可以包括只读存储器(read-only memory)。存储器104可用于存储指令、 程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区, 其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能 的指令、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电 子设备100在使用中所获取的数据(如,待推荐数据以及操作方式)等。
145.电子设备100还可以包括网络模块以及屏幕,网络模块用于接收以及发 送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备 进行通讯,例如和音频播放设备进行通讯。网络模块可包括各种现有的用于 执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加 密/解密芯片、用户身份模块(sim)卡、存储器等等。网络模块可与各种网 络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其
他设备 进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。 屏幕可以进行界面内容的显示以及进行数据交互。
146.在一些实施例中,电子设备100还可以包括有:外设接口106和至少一个 外围设备。处理器102、存储器104和外设接口106之间可以通过总线或信号线 相连。各个外围设备可以通过总线、信号线或电路板与外设接口连接。具体地, 外围设备包括:射频组件108、定位组件112、摄像头114、音频组件116、显示 屏118以及电源122等中的至少一种
147.外设接口106可被用于将i/o(input/output,输入/输出)相关的至少一个外围 设备连接到处理器102和存储器104。在一些实施例中,处理器102、存储器104 和外设接口106被集成在同一芯片或电路板上;在一些其他实施例中,处理器 102、存储器104和外设接口106中的任意一个或两个可以在单独的芯片或电路 板上实现,本技术实施例对此不加以限定。
148.射频组件108用于接收和发射rf(radio frequency,射频)信号,也称电磁 信号。射频组件108通过电磁信号与通信网络以及其他通信设备进行通信。射 频组件108将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转 换为电信号。可选地,射频组件108包括:天线系统、rf收发器、一个或多个 放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡 等等。射频组件108可以通过至少一种无线通信协议来与其它终端进行通信。 该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2g、 3g、4g及5g)、无线局域网和/或wifi(wireless fidelity,无线保真)网络。在一 些实施例中,射频组件108还可以包括nfc(near field communication,近距离 无线通信)有关的电路,本技术对此不加以限定。
149.定位组件112用于定位电子设备100的当前地理位置,以实现导航或 lbs(locationbased service,基于位置的服务)。定位组件112可以是基于美国的 gps(globalpositioning system,全球定位系统)、中国的北斗系统或伽利略系统 的定位组件。
150.摄像头114用于采集图像或视频(如采集本方案中的待检测图像)。可选 地,摄像头114包括前置摄像头和后置摄像头。通常,前置摄像头设置在电子 设备100的前面板,后置摄像头设置在电子设备100的背面。在一些实施例中, 后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄 像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主 摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality,虚拟现实)拍摄 功能或者其它融合拍摄功能。在一些实施例中,摄像头114还可以包括闪光灯。 闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光 闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
151.音频组件116可以包括麦克风和扬声器。麦克风用于采集用户及环境的声 波,并将声波转换为电信号输入至处理器102进行处理,或者输入至射频组件 108以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别 设置在电子设备100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦 克风。扬声器则用于将来自处理器102或射频组件108的电信号转换为声波。 扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电 陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号 转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频组件
114 还可以包括耳机插孔。
152.显示屏118用于显示ui(user interface,用户界面)。该ui可以包括图形、 文本、图标、视频及其它们的任意组合。当显示屏118是触摸显示屏时,显示 屏118还具有采集在显示屏118的表面或表面上方的触摸信号的能力。该触摸 信号可以作为控制信号输入至处理器102进行处理。此时,显示屏118还可以 用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中, 显示屏118可以为一个,设置电子设备100的前面板;在另一些实施例中,显 示屏118可以为至少两个,分别设置在电子设备100的不同表面或呈折叠设计; 在又一些实施例中,显示屏118可以是柔性显示屏,设置在电子设备100的弯 曲表面上或折叠面上。甚至,显示屏118还可以设置成非矩形的不规则图形, 也即异形屏。显示屏118可以采用lcd(liquid crystal display,液晶显示屏)、 oled(organic light-emitting diode,机发光二极管)等材质制备。
153.电源122用于为电子设备100中的各个组件进行供电。电源122可以是交 流电、直流电、一次性电池或可充电电池。当电源122包括可充电电池时,该 可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线 路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可 以用于支持快充技术。
154.本技术实施例还提供一种计算机可读存储介质。该计算机可读介质中存储 有程序代码,程序代码可被处理器调用执行上述方法实施例中所描述的方法。
155.计算机可读存储介质可以是诸如闪存、eeprom(电可擦除可编程只读存 储器)、eprom、硬盘或者rom之类的电子存储器。可选地,计算机可读存 储介质包括非易失性计算机可读介质(non-transitory computer-readable storagemedium)。计算机可读存储介质具有执行上述方法中的任何方法步骤的程序代 码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者 写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行 压缩。
156.本技术实施例还提供了一种计算机程序产品或计算机程序,该计算机程序 产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质 中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执 行该计算机指令,使得该计算机设备执行上述各种可选实现方式中描述的方法。
157.综上,本技术实施例提供的一种基因脱靶预测模型训练方法、预测方法、 装置及电子设备,通过按照目标切分方式对每条第一样本基因序列进行切分处 理,得到每条第一样本基因序列各自包括的多个碱基组,对每条第一样本基因 序列中的至少一个碱基组进行掩码处理得到每条第一样本基因序列各自对应的 训练基因序列,并利用每条第一样本基因序列以及每条第一样本基因序列各自 对应的训练基因序列,对预测模型进行预训练,得到预训练后的预测模型,以 及利用第二样本集合中包括的多组样本序列以及每组样本序列对应的相似度标 签,对预训练后的预测模型进行微调训练,得到目标预测模型,其中,目标预 测模型用于预测两条基因序列的相似度,两条基因序列的相似度用于表征基因 脱靶的概率。可以实现对基因脱靶概率的准确预测。
158.进一步地,考虑到基因编辑过程中,通常会给定一条基因序列,并基于该 基因序列进行基因编辑,以产生多条基因序列,通过将给定的基因序列与多条 基因序列分别进行组合,以得到一组基因序列并输入到上述预测得到的目标预 测模型中以进行脱靶预测,可
以得到各组基因序列之间的脱靶预测结果,从而 可以依据各组基因序列的脱靶预测结果更有效地敲除基因或者精确有效地识别 并删除特定序列基因,因此,通过采用本技术的上述方法,可以在提升了基因 编辑后的基因脱靶概率预测的精度,大大减少了科研人员的基因编辑风险的同 时,还可以极大地加速了基因编辑的效率,从而应用于临床,更快走上市场。
159.应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块 或者单元,但是这种划分并非强制性的。实际上,根据本技术的实施方式,上 文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中 具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为 由多个模块或者单元来具体化。
160.通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示 例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。 因此,根据本技术实施方式的技术方案可以以软件产品的形式体现出来,该软 件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬 盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、 服务器、触控终端、或者网络设备等)执行根据本技术实施方式的方法。
161.本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到 本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性 变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术 未公开的本技术领域中的公知常识或惯用技术手段。
162.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结 构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的 权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献