对具有非天然碱基对的核酸进行测序的方法与流程

2021-10-20 02:27:00 来源：中国专利 TAG：

1.本发明涉及核酸化学。具体而言，本发明涉及对具有非天然碱基对的核酸进行测序的方法。
2.发明背景
3.沃森
‑
克里克碱基配对(a
‑
t和g
‑
c)，是最基本的规则之一，不仅定义了地球上所有生物的中心法则，而且还定义了当前的基因工程技术。然而，这种排他性的碱基配对规则限制了生物技术的进一步发展，因为仅仅依赖四个字母的遗传字母表限制了核酸和蛋白质的功能性。为了克服这一限制，通过创造额外的人工碱基对(非天然碱基对，ubp)来扩展dna的遗传字母表引起了研究人员的注意。
4.最近，已经产生了在复制、转录和/或翻译中起第三碱基对作用的几种ubp。其中，已经对ds
–
px(ds：7
‑
(2
‑
噻吩基)
‑
咪唑并[4,5
‑
b]吡啶和px：二醇
‑
修饰的2
‑
硝基
‑4‑
丙炔基吡咯)对和p
–
z对进行了进化工程方法selex(通过指数富集的配体系统进化)，产生与靶蛋白和细胞特异性结合的含非天然碱基dna(ub
‑
dna)适配子。ub
‑
dna适配子中的疏水性ds碱基在增强适配子对靶标的亲和力方面起着重要作用。半合成细菌也通过并入一系列的其ubp，包括5sics
–
nam而产生。具有扩展的遗传字母表的细菌可以产生含有非天然氨基酸的蛋白质。
[0005]
遗传字母表扩展技术的这些进展迅速增加了对涉及ubp的dna测序方法的需求。特别是，通过selex产生ub
‑
dna适配子需要一种测序方法，该方法可以确定富集文库中含有ub的每个适配子候选体的序列，所述富集文库是在selex中几轮选择和扩增程序后获得的不同序列的混合物。以前，开发了改良的sanger测序方法用于含有ds碱基的单个dna克隆。在改进的sanger测序方法中，ds位置在天然碱基峰模式上显示为缺口。这种测序方法不仅用于ub
‑
dna适配子生成，也用于半合成细菌的创建以确定ub位置。然而，为了执行这种测序方法，每个适配子候选克隆必须从富集文库中分离出来。换句话说，为了执行本领域的测序方法，需要预先知道ds位置。如果ds碱基的位置未知，则本领域的测序方法将不能对含有ubp的dna进行测序。因此，需要提供一种对含有ubp的dna进行测序的替代方法。
[0006]
发明概述
[0007]
在一方面，提供了一种对含有非天然碱基对(ubp)的核酸进行测序的方法，包括执行两个或更多个替换复制反应，其中使用非天然碱基的两个或更多个中间体来复制核酸；对由替换复制反应产生的核酸进行测序；对经测序的核酸进行聚类并鉴定非天然碱基对的候选位置；确定在非天然碱基对的候选位置处，中间体至天然碱基对中每一个的转换比率；根据与非天然碱基对的候选位置相邻的一个或多个天然碱基对的序列，比较中间体的转换比率与预先确定转换率的文库；其中中间体的转换比率与预先确定转换率的文库中的值的基本匹配证实了非天然碱基对的位置，从而确定含有非天然碱基对的核酸的序列。
[0008]
在一些实例中，该方法包括两个替换复制反应。
[0009]
在一些实例中，两个替换复制反应包括执行第一替换复制反应，其中使用非天然碱基对的第一中间体来复制核酸；和执行第二替换复制反应，其中使用非天然碱基对的第
二中间体来复制核酸。
[0010]
在一些实例中，两个替换反应同时地、顺序地和/或分开地执行。
[0011]
在一些实例中，第一中间体和第二中间体是非天然碱基对的不同中间体。
[0012]
在一些实例中，非天然碱基对的中间体选自由pa'、pa、pn和px组成的组。
[0013]
在一些实例中，非天然碱基对由选自由以下组成的组的核碱基组成：
[0014]7‑
(2
‑
噻吩基)咪唑并[4,5
‑
b]吡啶
‑3‑
基基团(ds)；
[0015]7‑
(2,2'
‑
二噻吩
‑5‑
基)咪唑并[4,5
‑
b]吡啶
‑3‑
基基团(dss)；
[0016]7‑
(2,2',5',2
”‑
三噻吩
‑5‑
基)咪唑并[4,5
‑
b]吡啶
‑3‑
基基团(dsss)；
[0017]2‑
氨基
‑6‑
(2
‑
噻吩基)嘌呤
‑9‑
基基团(s)；
[0018]2‑
氨基
‑6‑
(2,2'
‑
二噻吩
‑5‑
基)嘌呤
‑9‑
基基团(ss)；
[0019]2‑
氨基
‑6‑
(2,2',5',2"
‑
三噻吩
‑5‑
基)嘌呤
‑9‑
基基团(sss)；
[0020]4‑
(2
‑
噻吩基)
‑
吡咯并[2,3
‑
b]吡啶
‑1‑
基基团(ddsa)；
[0021]4‑
(2,2'
‑
二噻吩
‑5‑
基)
‑
吡咯并[2,3
‑
b]吡啶
‑1‑
基基团(dsas)；
[0022]4‑
[2
‑
(2
‑
噻唑基)噻吩
‑5‑
基]吡咯并[2,3
‑
b]吡啶
‑1‑
基基团(dsav)；
[0023]4‑
(2
‑
噻唑基)
‑
吡咯并[2,3
‑
b]吡啶
‑1‑
基基团(ddva)；
[0024]4‑
[5
‑
(2
‑
噻吩基)噻唑
‑2‑
基]吡咯并[2,3
‑
b]吡啶
‑1‑
基基团(dvas)；
[0025]4‑
(2
‑
咪唑基)
‑
吡咯并[2,3
‑
b]吡啶
‑1‑
基基团(ddia)；和
[0026]
ds衍生物：
[0027]
其中r和r'各自独立地代表由下式代表的任何部分：
[0028][0029]
‑
cho；
[0030]
‑
sh；
[0031][0032][0033]
[0034][0035]
其中n1＝2至10；n2＝1或3；n3＝1、6或9；n4＝1或3；n5＝3或6；r1＝phe(苯丙氨酸)、tyr(酪氨酸)、trp(色氨酸)、his(组氨酸)、ser(丝氨酸)或lys(赖氨酸)；以及r2、r3和
r4＝分别地leu(亮氨酸)、leu和leu，或分别地trp、phe和pro(脯氨酸)。
[0036]
在一些实例中，天然碱基对由选自由a、g、c、u和t组成的组中的核碱基构成。
[0037]
在一些实例中，核酸为dna链。
[0038]
在一些实例中，预先确定转换率的文库包括非天然碱基对至天然碱基对中任一个的转换比率。
[0039]
在一些实例中，预先确定转换率的文库包括基于一个或多个相邻碱基对的序列，非天然碱基对至天然碱基对中任一个的转换比率。
[0040]
在一些实例中，替换复制反应还包括使用天然碱基对来复制核酸。
[0041]
在一些实例中，替换复制反应是替换聚合酶链式反应(pcr)。
[0042]
在一些实例中，替换复制反应包括
[0043]
使用含有非天然碱对的中间体的第一复制底物执行第一核酸复制反应，从而用非天然碱对的中间体替换非天然碱基对；和
[0044]
使用含有天然碱基对的第二复制底物执行第二核酸复制反应，从而用天然碱对替换非天然碱基对的中间体。
[0045]
在一些实例中，替换复制反应还包括
[0046]
由第二核酸复制反应复制或扩增核酸，从而具有由第二核酸复制反应产生的具有天然碱基对的多个核酸。
[0047]
在一些实例中，使用深度测序方法执行测序。
[0048]
在一些实例中，鉴定非天然碱基对的候选位置包括比对经测序的核酸并确定含有变化核碱基的位置。
[0049]
在一些实例中，使用公式计算在非天然碱基对候选位置处，中间体至天然碱基对中每一个的转换比率：
[0050]
％ra(在位置i处)＝cr(a，i)＝s(a，i)/[s(a，i) s(g，i) s(c，i) s(t，i)]x 100
[0051]
其中s(n，i)是在位置i处具有天然碱基n的序列的读取数量。
[0052]
在一些实例中，中间体的转换率的基本匹配是在预先确定转换率的文库中的值的约10％内的值。
[0053]
在另一方面，提供了用于执行上述权利要求中任一项的方法的装置。
[0054]
附图简要说明
[0055]
通过以下仅作为实例的书面描述并结合附图，本领域的普通技术人员将更好地理解和容易地理解本发明的示例性实施方案，其中：
[0056]
图1是本公开内容的示例性工作流程。图1(a)显示了天然a
–
t和g
–
c对、非天然ds
–
px对和非天然px衍生物碱基pa、pa
′
和pn的化学结构。图1(b)显示了对含有ds的dna的测序方案。在常规深度测序之前，在天然dntp和额外的非天然pa'或其他非天然碱基底物(例如pa、pn或px)存在下，通过短循环的替换pcr将序列中的ds碱基替换为天然碱基，主要是a或t。所得的天然碱基组成率会有所不同，这取决于替换pcr过程。
[0057]
图2示出了用于从通过使用真实的包含ds的文库对替换pcr产物进行深度测序而获得的数据生成百科全书的概念的示意图。天然碱基组成率会有所不同，这取决于围绕ds碱基的局部序列环境。
[0058]
图3示出了使用中间体ub底物pa
′
的替换pcr的示例性分析,减少了围绕ds碱基的
环境中的序列偏差。图3(a)是在替换pcr中不使用/使用pa
′
底物，使用天然碱基替换ds的方案。图3(b
‑
c)是热图，表明对于围绕ds碱基的每个序列环境，不使用pa
′
底物(b)或使用pa
′
底物(c)的天然碱基替换效率。将读取计数标准化为每百万的读取(rpm)。
[0059]
图4示出了被替换的天然碱基的组成的实例和替换效率，其取决于围绕ds碱基的局部序列环境。在该研究中调查了被替换的天然碱的代表性实例和六种不同替换pcr条件的效率。在每个替换pcr条件下的全序列数据中(图8
‑
13)，选择了一些序列环境。根据阅读计数分布，将它们分为四组，ds
→
a率，ds
→
t率和ds
→
g/c率。每种颜色代表从ds碱基替换的天然碱基(实心，a；点状，t；线状，g；空心，c)。
[0060]
图5示出了确定含有ds的dna序列的示例性过程的示意图。在dpa'tp或dpxtp存在下，通过两种替换pcr方法替换序列中的ds碱基，并通过深度测序获得它们的序列数据。天然碱基组成率取决于ds碱基周围的局部序列环境。因此，使用制备的“百科全书”(enbre)扫描聚集的序列家族中在a/t可变位点处的a/t比率，该百科全书由46个局部序列环境的天然碱基替换模式的训练数据构成。替换模式还取决于替换pcr条件，并因此可以将具有变化a/t比率(取决于每种条件)并具有接近百科全书中的参考值的比率的位置鉴定为可能的ds位置。
[0061]
图6参考百科全书数据，其允许简单且快速地确定ds位置。图6(a)示出了对含有ds的dna文库进行测序用于ub
‑
dna适配子生成的实验方案。图6(b
‑
c)显示了通过深度测序分析确定的家族1抗ifnγ适配子克隆的比对。在每个位置处的天然碱组成率如图17所示。家族1中最高频率的序列如顶行所示并且对碱基中的变化上色(实心，a；点状，t；灰色，g；空心，c)。在使用dpa'tp(b)或使用dpxtp(c)的替换pcr中，在预先确定位置处的三个ds碱基(箭头所示)被天然碱基替换。深度测序中出现的每个序列的比例在第一列中指出。在生物学一式三份数据中，显示一组作为代表。图6(d)示出了对于家族1抗ifnγ适配子序列中三个ds位置，在enbre数据和实际序列数据之间ds
→
a转换率(％ra)的比较。获得的序列数据中的％ra值计算为一式三份执行的生物学实验的平均值。图6(e)示出了本领域已知的抗ifnγub
‑
dna适配子的二级结构的示意图。
[0062]
图7示出了两种条件之间的替换模式的比较，使得ds位置能够与其他天然碱基位置区分开来。图7(a
‑
b)使用dpa'tp的替换pcr后，从富集的文库#1(a)和文库#4(b)(用于抗vwf适配子生成)获得的靠前家族的比对。在红色箭头所示位置处的三个或两个ds碱基被天然碱基替换。图17b中示出了在每个位置处的天然碱组成率。在两个重复的数据分析中，显示一组作为代表。图7(c)对于三个ds位置，enbre数据和实际序列数据之间的ds
→
a的转换率(％ra)的比较。实际序列数据中的％ra值计算为以一式两份进行的技术测序的平均值。图7(d)抗vwf
‑
ub
‑
dna适配子的二级结构示意图。这个适配子是从两个富集选择文库#1和#4中获得的。这两者之间的序列差异是在位置22处的ds或t，这在先前基于sanger方法的测序方法中得到了证实。
[0063]
图8示出了在cond.1(ub
‑
/accuprime pfx dna pol)中ndsn2
‑
29的每个序列环境的天然碱基替换效率。每个条形图显示dsn2
‑
49的替换pcr后通过深度测序分析确定的每个序列环境的读取计数。将读取计数标准化为每百万的读取(rpm)。每种颜色代表用ds碱基替换的天然碱基(实心，a；点状，t；线状，g；空心，c)。
[0064]
图9示出了在cond.2(pa' /accuprime pfx dna pol)中ndsn2
‑
49的每个序列环境
的天然碱基替换效率。每种颜色代表用ds碱基替换的天然碱基(实心，a；点状，t；线状，g；空心，c)。
[0065]
图10示出了在cond.3(pa /accuprime pfx dna pol)中ndsn2
‑
49的每个序列环境的天然碱基替换效率。每种颜色代表用ds碱基替换的天然碱基(实心，a；点状，t；线状，g；空心，c)。
[0066]
图11示出了在cond.4(px /accuprime pfx dna pol)中ndsn2
‑
49的每个序列环境的天然碱基替换效率。每种颜色代表用ds碱基替换的天然碱基(实心，a；点状，t；线状，g；空心，c)。
[0067]
图12示出了在cond.5(ub
‑
/taq dna pol)中ndsn2
‑
49的每个序列环境的天然碱基替换效率。每种颜色代表用ds碱基替换的天然碱基(实心，a；点状，t；线状，g；空心，c)。
[0068]
图13示出了在cond.6(pa' /taq
‑
dna
‑
pol)中ndsn2
‑
49的每个序列环境的天然碱基替换效率。每种颜色代表用ds碱基替换的天然碱基(实心，a；点状，t；线状，g；空心，c)。
[0069]
图14示出了通过使用pa'或px与accuprime pfx dna pol在替换pcr中的低天然碱基替换偏差。图14(a)示出了在每个替换pcr条件下(cond.1到cond.6)，基于提取的序列长度的相对读取计数。y轴表示每个长度的读取比率，并且100％代表由引物退火区域包围的1到20个碱基的总读取计数(参见材料和方法)。图14(b)示出了在六种不同条件下，ndsn2
‑
49的替换pcr后通过深度测序分析确定的256个序列环境的读取计数的直方图。
[0070]
图15示出了方框图，其显示了在ndsn2
‑
49的256个序列环境中，从ds碱基替换的每个天然碱基的百分比(％rn，天然碱基组成率)。每个图绘制了在不同条件下从替换pcr获得的数据。三角形代表平均数。
[0071]
图16示出了散点图，其显示了对于ndsn3
‑
49的4,096个序列环境，ds转换率的再现性。对于使用dpa
′
tp或dpxtp的每个替换pcr，计算了生物学一式三份中ds
→
a率(％ra，如a所示)和ds
→
t率(％rt，如b所示)的平均值和标准偏差(一致性)。
[0072]
图17示出了在每个碱基处的天然碱基组成率与enbre的比较。通过使用从每个富集的文库的用dpa
′
tp或dpxtp的替换pcr获得的序列读取，计算排名靠前的聚类序列(家族1)中至每个天然碱基的转换率(％rn)。将比率与enbre中的比率进行比较。图17(a)示出了n43ds
‑
p001 mix(抗ifnγub
‑
dna适配子)。图17(b)示出了n30ds
‑
s6
‑
006文库#1和#4(抗vwf ub
‑
dna适配子)。
[0073]
图18示出了使用enbre确定ds位置的准确性、敏感性和特异性。图18(a)示出了对于ds位置的初始扫描的实例。例如，在家族1抗ifnγ适配子序列(排名靠前)中的所有a位置处，将％ra值与enbre中的相应参考％ra值进行比较(假设ds碱基位于每个序列环境中)。正值表示enbre中的参考值高于实际值。图18(b)示出了enbre预测％ra值的准确性。y轴表示％ra偏差[误差％＝(enbre中的参考值)
–
(从实际序列数据获得的％ra)]。在使用dpa
′
tp或dpxtp的两种替换pcr方法中，绘制了前10个家族抗ifnγ适配子序列中总共20个原始ds位置的计算的偏差。三角形代表平均数。图18(c)示出了用于使用enbre确定ds位置的流程图。图18(d)示出了抗ifnγ适配子选择的案例的roc曲线分析(参见材料和方法)。当标准1的可接受误差范围为
±
10％(以黑点显示)时，敏感性(真阳性率)和特异性(1
–
假阳性率)如表所示。即使％ra与enbre不很好地匹配，使用标准2增加了敏感性而不损失特异性(以实线显示)。
[0074]
详细说明
[0075]
非天然碱基对(ubp)的创建迅速推进了dna的遗传字母表扩展技术，需要一种新的测序方法用于具有五个或更多个字母的含有ub的dna。疏水ubp，ds
‑
px，在pcr中表现出高保真度，并已应用于以ds为第五碱基的dna适配子生成。本公开内容描述了一种用于含有ubp(例如ds
‑
px)的dna的测序方法，其中通过使用中间体ub底物的pcr(替换pcr)将ubp(例如ds
‑
px)碱基替换为天然碱基，进行常规深度测序。本公开内容的发明人发现，取决于ub(例如ds)和一个或多个不同的中间体底物周围的序列环境，从ub(例如ds)转换的天然碱基的组成率(即转换率)显著变化(或是唯一的)。利用从ub(如ds)转换的天然碱基的组成率或转换率随ub周围的序列环境而变化(或是唯一的)的发现，本公开内容的发明人开发了与使用不同中间体底物的每个替换pcr方法的所有序列上下文相对应的天然碱基组成(或转换)率的百科全书(或文库)。本发明人发现，使用百科全书/文库，可以通过比较在替换pcr后通过深度测序获得的dna的每个位置处，实际和百科全书数据(即文库数据)中的天然碱基组成/转换率来确定dna中的ubp位置。
[0076]
因此，在一个方面中，提供了一种对包含非天然碱基对(ubp)的核酸进行测序的方法，包括执行两个或更多个替换复制反应，其中使用所述非天然碱基对的两个或更多个中间体来复制核酸；对由替换复制反应产生的核酸进行测序；将经测序的核酸聚类并鉴定非天然碱基对的候选位置；确定在所述非天然碱基对的候选位置处，中间体至天然碱基对中每一个的转换比率；基于与所述非天然碱基对的候选位置相邻的一个或多个天然碱基对的序列，比较中间体的转换比率与预先确定转换/组成率的文库；其中中间体的转换比率与预先确定转换/组成率的库中的值的基本匹配证实非天然碱基对的位置，从而确定含有非天然碱基对的核酸的序列。
[0077]
在一些实例中，其中所述方法进一步包括第二替换复制反应，其中使用非天然碱基对的第二中间体来复制核酸。在一些实例中，所述方法可以包括两个替换复制反应。在此类实例中，两个替换复制反应可以包括执行第一替换复制反应，其中使用非天然碱基对的第一中间体来复制核酸；和执行第二替换复制反应，其中使用非天然碱基对的第二中间体来复制核酸。因此，在一些实例中，两个替换反应可以同时地、顺序地和/或分开地执行。
[0078]
在一些实例中，本公开内容的对包含非天然碱基对(ubp)的核酸进行测序的方法可以包括执行第一替换复制反应，其中使用非天然碱基的第一中间体来复制核酸；执行第二替换复制反应，其中使用非天然碱基的第二中间体来复制核酸；对由第一和第二替换复制反应产生的核酸进行测序；对经测序的核酸进行聚类并鉴定非天然碱基的候选位置；确定在非天然核碱基的候选位置处，第一中间体至天然核碱基的每个核碱基的第一转换比率；确定在非天然核碱基的候选位置处，第二中间体至天然核碱基的每个核碱基的第二转换比率；根据与非天然碱基的候选位置相邻的天然碱基的序列，比较第一比率和第二比率与预先确定组成率的文库；其中第一比率和第二比率与预先确定组成率的基本匹配证实非天然碱基对的位置，从而确定含有非天然碱基对的核酸的序列。
[0079]
在一些实例中，本公开内容还提供了一种鉴定核酸序列中非天然碱基对(ubp)的位置的方法，包括上述步骤。例如，所述方法可以包括执行第一替换复制反应，其中在包含非天然碱基对的第一中间体的第一模板上复制核酸；执行第二替换复制反应，其中在包含非天然碱基对的第二中间体的第二模板上复制核酸；对由第一和第二替换复制反应产生的
核酸进行测序；将经测序的核酸聚类并鉴定非天然碱基对的候选位置；确定在非天然碱基对的候选位置处，第一中间体至天然碱基对的每个碱基的第一转换比率；确定在非天然碱基对的候选位置处，第二中间体至天然碱基对的每个碱基的第二转换比率；基于与非天然碱基对的候选位置相邻的天然碱基对的序列，比较第一比率和第二比率与预先确定组成率的文库；其中第一比率和第二比率与预先确定组成率的基本匹配证实非天然碱基对的位置，从而鉴定非天然碱基对的位置。
[0080]
相反地，如本文所述的方法可以包括三个、或四个、或五个或更多个替换复制反应，其中使用非天然碱基对的第三中间体、或第四中间体、或第五中间体或第更多中间体来复制核酸。
[0081]
本公开内容的发明人发现使用非天然碱基对的中间体底物是有用的。例如，当在没有非天然碱基对的中间体底物的情况下执行替换pcr时，发现替换pcr大大降低了转换效率(关于得到的转换，参见图3a左列和图3b)。
[0082]
为了提供可用于确定含有非天然碱基对的核酸的序列的附加参数，在一些实例中，一个或多个中间体可以是相同非天然碱基对的不同中间体。例如，第一中间体和第二中间体是一个非天然碱基对的不同中间体。在一些实例中，如果非天然碱对由非天然碱7
‑
(2
‑
噻吩基)咪唑并[4,5
‑
b]吡啶
‑3‑
基基团(即ds)构成，则非天然碱基的中间体可包括但不限于pa'、pa、pn、px等。中间体如下所示：
[0083][0084]
其中r可以是以下官能团中任何一种：
[0085]
[0086][0087]
或
[0088][0089]
其中r可以是以下中任何一种：
[0090]
[0091]
或者
[0092]
pn衍生物，例如
[0093]
其中r代表由下式代表的任何部分：
[0094]
[0095][0096]
其中n1＝1或3，n2＝2至10，n3＝1、6、9；n4＝1或2，n5＝3或6；r1＝phe、tyr、trp、his、ser或lys；以及r2、r3和r4＝分别地leu、leu和leu，或分别地trp、phe和pro；或者
[0097]
pa衍生物，例如
[0098]
其中r代表由如下式代表的任何部分：
[0099]
[0100][0101]
其中n1＝1或3；n2＝2至10；n3＝1、6或9；n4＝1或3；n5＝3或6；r1＝phe、tyr、trp、his、ser或lys；并且r2、r3和r4＝分别地leu、leu和leu，或分别地trp、phe和pro。
[0102]
如本领域技术人员所理解的，pn是r＝h(无丙炔基基团/三键)，2
‑
硝基吡咯；并且其中，px用于具有三键的衍生物。
[0103]
在一些实例中，可提供中间体作为适于替换复制反应(例如替换pcr)的底物。在一些实例中，中间体可以是非天然碱基对的三磷酸盐底物。在一些实例中，中间体可以作为底物提供，例如但不限于dpa'tp、dpatp、dpntp和/或dpxtp。在一些实例中，第一中间体和第二中间体不是非天然碱基对的相同中间体。在一些实例中，第一或第二中间体之一可以是
dpa'tp。在一些实例中，第一或第二中间体之一可以是dpxtp。当第一中间体是dpa'tp时，第二中间体将是dpxtp，反之亦可。
[0104]
如本文所用，术语“非天然碱基对”是指由人工制造的或非标准的碱基对构成的核酸碱基对。因此，在一些实例中，非天然碱基对由核碱基(或非天然碱基)构成，其例如但不限于：
[0105]7‑
(2
‑
噻吩基)咪唑并[4,5
‑
b]吡啶
‑3‑
基基团(ds)；
[0106]7‑
(2,2'
‑
二噻吩
‑5‑
基)咪唑并[4,5
‑
b]吡啶
‑3‑
基基团(dss)；
[0107]7‑
(2,2',5',2
”‑
三噻吩
‑5‑
基)咪唑并[4,5
‑
b]吡啶
‑3‑
基基团(dsss)；
[0108]2‑
氨基
‑6‑
(2
‑
噻吩基)嘌呤
‑9‑
基基团(s)；
[0109]2‑
氨基
‑6‑
(2,2'
‑
二噻吩
‑5‑
基)嘌呤
‑9‑
基基团(ss)；
[0110]2‑
氨基
‑6‑
(2,2',5',2"
‑
三噻吩
‑5‑
基)嘌呤
‑9‑
基基团(sss)；
[0111]4‑
(2
‑
噻吩基)
‑
吡咯并[2,3
‑
b]吡啶
‑1‑
基基团(ddsa)；
[0112]4‑
(2,2'
‑
二噻吩
‑5‑
基)
‑
吡咯并[2,3
‑
b]吡啶
‑1‑
基基团(dsas)；
[0113]4‑
[2
‑
(2
‑
噻唑基)噻吩
‑5‑
基]吡咯并[2,3
‑
b]吡啶
‑1‑
基基团(dsav)；
[0114]4‑
(2
‑
噻唑基)
‑
吡咯并[2,3
‑
b]吡啶
‑1‑
基基团(ddva)；
[0115]4‑
[5
‑
(2
‑
噻吩基)噻唑
‑2‑
基]吡咯并[2,3
‑
b]吡啶
‑1‑
基基团(dvas)；
[0116]4‑
(2
‑
咪唑基)
‑
吡咯并[2,3
‑
b]吡啶
‑1‑
基基团(ddia)；或
[0117]
ds衍生物，例如：
[0118]
其中r和r'各自独立地代表由下式代表的任何部分：
[0119][0120]
‑
cho；
[0121]
‑
sh；
[0122]
[0123][0124]
其中n1＝2至10；n2＝1或3；n3＝1、6或9；n4＝1或3；n5＝3或6；r1＝phe(苯丙氨酸)、tyr(酪氨酸)、trp(色氨酸)、his(组氨酸)、ser(丝氨酸)或lys(赖氨酸)；以及r2、r3和r4＝分别地leu(亮氨酸)、leu和leu，或分别地trp、phe和pro(脯氨酸)。
[0125]
然而，本领域技术人员将理解，如本文所述的方法可用于本领域已知的任何非天然碱基对，前提是非天然碱基对的中间体是已知的。
[0126]
在一些实例中，非天然碱基对可以是如下所示的ds
‑
px对：
[0127][0128]
与术语“非天然碱基对”相反，如本文所使用，术语“天然碱基对”指由标准或天然存在的核碱基(例如腺嘌呤(a)、鸟嘌呤(g)、胸腺嘧啶(t)、尿嘧啶(u)和胞嘧啶(c))的对构成的核酸碱基。因此，在一些实例中，天然碱基对可由选自由a、g、c、u及t组成的组的核碱基构成。
[0129]
在一些实例中，如本文所述的核酸包括包含一个或多个天然碱基对和一个或多个非天然碱基对的核酸序列。在一些实例中，本文所述的核酸包括具有不超过20％的非天然碱基对，或不超过15％的非天然碱基对，或不超过14％的非天然碱基对，或不超过13％的非天然碱基对，或不超过12％的非天然碱基对，或不超过11％的非天然碱基对，或不超过10％的非天然碱基对，或不超过9％的非天然碱基对，或不超过8％的非天然碱基对，或不超过7％的非天然碱基对，或不超过6％的非天然碱基对，或不超过5％的非天然碱基对，或不超过4％的非天然碱基对，或不超过3％的非天然碱基对，或不超过2％的非天然碱基对，或不
超过1％的非天然碱基对的核酸。
[0130]
在一些实例中，具有5'
‑
n
2
n
1
x
y
n
‑1n
‑2‑
3'的模板的核酸可以包括不超过20％的非天然碱基对，或不超过15％的非天然碱基对，或不超过14％的非天然碱基对，或不超过13％的非天然碱基对，或不超过12％的非天然碱基对，或不超过11％的非天然碱基对，或不超过10％的非天然碱基对，或不超过9％的非天然碱基对，或不超过8％的非天然碱基对，或不超过7％的非天然碱基对，或不超过6％的非天然碱基对，或不超过5％的非天然碱基对，或不超过4％的非天然碱基对，或不超过3％的非天然碱基对，或不超过2％的非天然碱基对，或不超过1％的非天然碱基对。
[0131]
在一些实例中，具有5'
‑
n
3
n
2
n
1
x
y
n
‑1n
‑2n
‑3‑
3'的模板的核酸可以包括不超过15％的非天然碱基对，或不超过14％的非天然碱基对，或不超过13％的非天然碱基对，或不超过12％的非天然碱基对，或不超过11％的非天然碱基对，或不超过10％的非天然碱基对，或不超过9％的非天然碱基对，或不超过8％的非天然碱基对，或不超过7％的非天然碱基对，或不超过6％的非天然碱基对，或不超过5％的非天然碱基对，或不超过4％的非天然碱基对，或不超过3％的非天然碱基对，或不超过2％的非天然碱基对，或者不超过1％的非天然碱基对。
[0132]
据信，现所公开的方法可以用于dna和/或rna链的测序。因此，本公开内容的方法可以在为dna和/或rna链的核酸上执行。在一些实例中，核酸可以是dna和/或rna链。在一些实例中，核酸是dna链。当核酸是dna链时，天然碱基对由例如a、g、c和t的天然核碱基构成。在一些实例中，天然碱基对可以是如下所示：
[0133][0134]
本公开内容的发明人发现，取决于与非天然碱基对的位置紧邻的天然碱基对的序列，非天然碱基对至天然碱基对中任一个的转换/组成的比率变化(并是唯一的)。。因此，当确定非天然碱基对的存在或不存在时，转换的比率的变化和唯一性可以用作参考。
[0135]
如本文所用，术语“组成率”或“转换率”可互换使用以指在与非天然碱基对的位置紧邻的一个或多个天然核碱基的序列的环境中(或取决于与非天然碱基对的位置紧邻的一个或多个天然核碱基的序列)，非天然碱基对被四种天然核碱基中的一种替换(在替换pcr中)的概率(或比率)。
[0136]
如以下实验部分和图2中举例说明的，预先确定转换/组成率的文库可以使用含有天然核碱基(即天然碱基)随机化序列和非天然碱基对(例如ds)的dna文库来生成。在一些实例中，预先确定转换/组成率的文库包括非天然碱基对至天然碱基对中任一个的转换比率。预先确定转换/组成率的文库的一个可能的实例是表3。然而，通常可以理解，使用本公开内容中描述的概念可以容易地生成这样的文库。
[0137]
在一些实例中，预先确定转换/组成率的文库可以通过如下生成：(1)提供含有天
然核碱基(即天然碱基)随机化序列和非天然碱基对(例如ds)的多个模板核酸；(2)用非天然碱基对(或核碱基)的一个中间体在多个模板核酸上进行替换复制反应；(3)用天然碱基对(或核碱基)在来自(2)的核酸上执行进一步替换复制反应，从而得到不具有非天然碱基对(或核碱基)的多个核酸；(4)对来自(3)的所得核酸进行测序；(5)对从测序步骤获得的核酸的序列进行聚类和/或鉴定非天然碱基对(或核碱基)的位置；(6)确定非天然碱基对(或核碱基)至每个天然碱基对(或核碱基)的转换比率(或率或概率)；其中比率是对于模板核酸的序列唯一的、预先确定转换/组成率文库中的值点(数据点)。每个模板核酸序列的文库中的值点/比率/率/数据点用作含有非天然碱基对(或核碱基)的核酸序列的独特鉴定点。为了构建文库，如果(1)中的多个模板核酸的序列是已知的或预先确定的或预先设计的，将是有利的。在一些实例中，多个模板核酸可以是5'
‑
n
1
x
y
n
‑1‑
3'、5'
‑
n
2
n
1
x
y
n
‑1n
‑2‑
3'、5'
‑
n
3
n
2
n
1
x
y
n
‑1n
‑2n
‑3‑
3'、5'
‑
n
m
n
(m
‑
1)
…
n
2
n
1
x
y
n
‑1n
‑2…
n
‑
(m
‑
1)
n
‑
m
‑
3'等等，其中x是非天然核碱基(例如ds)，n独立地是a、g、c或u/t中的任一个，y是具有1至3的值的整数，并且m是具有1至50的值的整数。在一些实例中，m可以是30、31、32、33、34、35、36、37、38、39或40。
[0138]
因此，预先确定转换/组成率的文库包括基于与非天然碱基对的位置紧邻的一个或多个天然碱基对的序列，非天然碱基对至天然碱基对中任一个的转换率。在一些实例中，预先确定转换/组成率的文库包括基于与非天然碱基对相邻(紧邻)的一、或二、或三、或四、或五、或六、或七、或八、或九或十个天然碱基对的序列，非天然碱基对至天然碱基对中任一个的转换比例。在一些实例中，预先确定转换/组成率的文库可以包括5'
‑
n
1
x
y
n
‑1‑
3'的转换率、5'
‑
n
2
n
1
x
y
n
‑1n
‑2‑
3'的转换率，5'
‑
n
3
n
2
n
1
x
y
n
‑1n
‑2n
‑3‑
3'的转换率，5'
‑
n
m
n
(m
‑
1)
....n
2
n
1
x
y
n
‑1n
‑2...n
‑
(m
‑
1)
n
‑
m
‑
3'的转换率等等，其中x是非天然核碱基(例如ds)，n独立地是a、g、c或u/t中的任一个，y是具有1至3的值的整数，并且m是具有1至50的值的整数。在一些实例中，m可以是30、31、32、33、34、35、36、37、38、39或40。
[0139]
在一些实例中，预先确定组成率的文库包括取决于一个或多个相邻核碱基的序列，非天然核碱基至天然核碱基中任一个的比率或概率。在一些实例中，组成率可以使用以下公式计算：
[0140][0141]
其中s(n,i)是在位置i处具有天然碱基n的序列的读取数量，以及cr(n,i)是在位置i处至天然碱基n的组成率。
[0142]
在一些实例中，组成率可以使用以下公式计算：cr(n,i)＝％rn(在位置i处)＝s(n,i)/[s(a,i) s(g,i) s(c,i) s(t,i)]x 100，其中s(n,i)是在位置i处具有天然碱基n的序列的读取数量，以及cr(n,i)是在位置i处至天然碱基n的组成率。
[0143]
在一些实例中，替换复制反应还包括使用天然碱基对来复制核酸。
[0144]
在一些实例中，替换复制反应可以是替换聚合酶链式反应(pcr)。在一些实例中，当核酸是rna链时，替换复制反应可以包括逆转录，然后是替换聚合酶链式反应(pcr)。在一些实例中，当核酸是一条rna链时，可以包括逆转录，并且还可以利用引物延伸。
[0145]
如图1b所示，替换复制反应的目的是最终用天然碱基对替换非天然碱基对(这样可以对目标核酸执行测序)。因此，在每个替换复制反应中，该方法可以包括以下步骤：(a)
使用含有非天然碱基对的中间体的第一复制底物执行第一核酸复制反应，从而用非天然碱基对的中间体替换非天然碱基对；和(b)使用含有天然碱基对的第二复制底物执行第二核酸复制反应，从而用天然碱基对替换非天然碱基对的中间体。
[0146]
为避免疑问，如果执行两次替换复制反应，替换复制反应可包括以下步骤：(a)使用含有非天然碱基对的第一中间体的第一复制底物执行第一核酸复制反应，从而用非天然碱基对的第一中间体替换非天然碱基对；(b)使用含有天然碱基对的第二复制底物执行第二核酸复制反应，从而用天然碱基对替换非天然碱基对的第一中间体，(c)使用含有非天然碱基对的第二中间体的第三复制底物执行第三核酸复制反应，从而用非天然碱基对的第二中间体替换非天然碱基对；(d)使用含有天然碱基对的第四复制底物执行第四核酸复制反应，从而用天然碱基对替换非天然碱基对的第二中间体。应当理解，步骤(a)至(b)和(c)至(d)是顺序的步骤。即，步骤(a)之后是步骤(b)并且步骤(c)之后是步骤(d)。然而，(a)至(b)和(c)至(d)可以分开地、同时地或一起执行。即，(a)至(b)可以与(c)至(d)同时但在不同的反应中执行。
[0147]
在一些实例中，替换复制反应可进一步包括复制或扩增来自第二核酸复制反应的核酸，从而具有由第二核酸复制反应产生的具有天然碱基对的多个核酸。该复制或扩增步骤有助于对已通过替换pcr处理的核酸进行测序。
[0148]
在一些实例中，可以使用本领域已知的任何高通量测序方法执行测序。例如，可以使用深度测序方法或任何类型的常规下一代测序执行测序，以处理大量读数而无需克隆过程。
[0149]
在一些实例中，鉴定非天然碱基对的候选位置可以包括比对经测序的核酸并确定包含变化核碱基的位置。如本领域技术人员将理解的，可以使用数据处理设备例如数据处理器来执行对经测序的核酸的聚类和/或比对的处理以鉴定非天然碱基的候选位置。
[0150]
在一些实例中，使用以下公式计算在非天然碱基对的候选位置处中间体至天然碱基对每一个的转换比率：
[0151]
％ra(在位置i处)＝cr(a,i)＝s(a,i)/[s(a,i) s(g,i) s(c,i) s(t,i)]
×
100
[0152]
其中s(n,i)是在位置i处具有天然碱基n的序列的读取数量。
[0153]
在一些实例中，中间体的转换比率的基本匹配将导致约70％或更高的检测灵敏性，或约80％或更高的检测灵敏性，或约85％或更高的检测灵敏性，约90％或更高的检测灵敏性，或约91％或更高的检测灵敏性，或约92％或更高的检测灵敏性，或约93％或更高的检测灵敏性，或约94％或更高的检测灵敏性，或约95％或更高的检测灵敏性，或约96％或更高的检测灵敏性，或约97％或更高的检测灵敏性，或约98％或更高的检测灵敏性，或约99％或更高的检测灵敏性。在一些实例中，中间体的转换比率的基本匹配是不大于(或小于)约1％，或不大于(或小于)约2％，或不大于(或小于)约3％，或不大于(或小于)约4％，或不大于(或小于)约5％，或不大于(或小于)约6％，不大于(或小于)约7％，或不大于(或小于)约8％，或不大于(或小于)约9％，或不大于(或小于)约10％的在预先确定转换/组成率的文库中的值的值。在一些实例中，基本匹配是基于％ra差异/偏差计算的。在一些实例中，％ra差异/偏差可以基于预先确定转换/比较率的文库中的值与来自替换pcr的中间体的转换比率/实际值之间的差异来计算(参见例如在图18a中)。
[0154]
在一些实例中，其中未实现中间体的转换比率与预先确定转换/组成率的文库的
值的基本匹配时，非天然碱基对的位置可通过比较第一中间体的转换比率与第二中间体的转换比率来确定。在此类实例中，第一中间体的转换比率与第二中间体的转换比率的可接受偏差/差异将导致约90％或更高的检测灵敏性，或约91％或更高的检测灵敏性，或约92％或更高的检测灵敏性，或约93％或更高的检测灵敏性，或约94％或更高的检测灵敏性，或约95％或更高的检测灵敏性，或约96％或更高的检测灵敏性，或约97％或更高的检测灵敏性，或约98％或更高的检测灵敏性，或约99％或更高的检测灵敏性。在此类实例中，第一中间体的转换比率与第二中间体的转换比率的变化表明和/或证实了非天然碱基对的位置。在这样的实例中，第一中间体的转换比率与第二中间体的比率的变化(即％偏差/差异)是不大于约10％，或不大于约9％，或不大于约10％，或不大于约8％，或不大于约7％，或不大于约6％，或不大于约5％，或不大于约4％，或不大于约3％，或不大于约2％，或不大于约1％的一个值至另一个值的值。在一些示例中，可以使用以下公式计算变化差异：
[0155]
vr(i)＝|crp(a,i)
‑
crq(a,i)|
[0156]
其中crp(a,i)是在位置i处，第一中间体至天然碱基a的组成率，crq(a,i)是在位置i处，第二中间体至天然碱基a的组成率，并且vr(i)是在位置i处的％偏差/差异。
[0157]
在本发明的另一方面，提供了一种用于执行如本文所述的方法的装置。例如，该装置可以包括用于执行替换复制反应(例如pcr)的设备。在一些实例中，该装置可以包括用于执行如本文所述的方法中所需的数据聚类、数据点管理和/或数据比较的设备。在一些实例中，该装置可以是具有执行如本文所述的方法所需的所有组件的集成设备。
[0158]
在一些实例中，提供了一种用于对含有非天然碱基对(ubp)的核酸进行测序的装置，其中该装置包括配置为执行一个或多个替换复制反应的系统或设备；配置为对由替换复制反应产生的核酸进行测序的系统或设备；配置为对经测序的核酸进行聚类的系统或设备；配置为鉴定非天然碱基对的候选位置的系统或设备；配置为确定在非天然碱基对的候选位置处，中间体至天然碱基对每一个的转换比率的系统或装置；配置为基于与非天然碱基对的候选位置相邻的一个或多个天然碱基对的序列，比较中间体的转换比率与预先确定转换/组成率的文库的系统或装置；和/或配置为确定中间体的转换比率与预先确定转换/组成率的文库中的值之间的偏差/差异，证实非天然碱基对的位置，从而确定含有非天然碱基对的核酸的序列的系统或装置。
[0159]
本领域技术人员将理解，在不脱离广泛描述的本发明的范围的情况下，可以对特定实施方案进行其他变化和/或修改。例如，在本文的描述中，不同示例性实施方案的特征可以在不同示例性实施方案中混合、组合、互换、合并、采用、修改、包括等。因此，本技术实施方案在所有方面都被认为是说明性的而非限制性的。
[0160]
实验部分
[0161]
材料和方法
[0162]
试剂和材料
[0163]
用于pcr的ub三磷酸底物(dpxtp(diol1
‑
dpxtp)、dpatp和dpa'tp)和dds
‑
ce
‑
亚磷酰胺是化学合成的，如前所述(5,8,24,26,27)。含有ds的dna文库(ndsn2
‑
49和ndsn3
‑
49,表1)是通过常规亚磷酰胺方法用h
‑8‑
se dna/rna合成仪(k&a laborgeraete)制备的。dna引物购自gene design and integrated dna technologies，或化学合成。通过变性凝胶电泳纯化dna。taq dna聚合酶(pol)和accuprime pfx dna pol分别购自new england biolabs
和life technologies。
[0164]
表1.本研究中使用的dna文库和pcr引物。
[0165]
为了分析替换pcr中ds处的天然碱基替换模式，本公开内容使用了dna文库，ndsn2
‑
49和ndsn3
‑
49，其包含围绕在中心的一个ds碱基的总共四个和六个天然碱基的随机区域，与每个引物组(map25
‑
013/map25
‑
010和map25
‑
011/map25
‑
10)一起用于pcr。为了验证开发的ub
‑
dna测序方法，本公开内容在最后一轮exselex中使用了两个富集的dna文库：一个用于抗ifnγub
‑
dna适配子生成(1)，另一个用于抗vwf ub
‑
dna适配子生成(2)。使用每个富集的dna文库(n43ds
‑
p001 mix或n30ds
‑
s6
‑
006)作为模板，使用每个引物组(t
‑
27ctt/rev43.29aa或mkp25
‑
006/mkp25
‑
009)执行替换pcr。最初的n43ds
‑
p001 mix文库在预定的位置处含有一到三个ds碱基，其可以通过每个子文库中的每个天然碱基标签序列进行分配(1)。
[0166]
pgm芯片上，并使用ion pgm hi
‑
q或hi
‑
q view测序试剂盒进行测序。使用的芯片列表和获得的测序读数总结在表2中。
[0172]
表2.本研究中获得的序列读数总结。
[0173]
每个dna文库中的ds碱基在指定的替换pcr条件下被替换为天然碱基，并使用指定的测序芯片通过ionpgm系统进行分析。也指示了自动qc后的测序读数和引物序列修整后的提取读数(参见材料和方法)。对于n43ds
‑
p001 mix和n30ds
‑
s6
‑
006文库，每个靶标排名靠前的适配子克隆的数量(家族1序列，带有针对提取的读数的百分比)指示在最后一列。
[0174][0175]
ndsn2
‑
49和ndsn3
‑
49的序列数据分析
[0176]
根据以下标准从深度测序数据中提取序列：5'
‑
(正向引物的完整序列)
‑
[n个碱基(n＝1
‑
20)]
‑
(反向引物的最后六个碱基的互补序列)
‑
3'。提取也是针对互补序列进行的。两个提取的序列的总数被定义为“总读取计数”。保留含有恒定区的序列(对于ndsn2
‑
49是
5'
‑
atgt
‑
(5个碱基)
‑
gtca
‑
3'和对于ndsn3
‑
49是5'
‑
atg
‑
(7个碱基)
‑
tca
‑
3')，用于进一步分析。对于ds周围的所有序列环境(ndsn2
‑
49共有44个序列，ndsn3
‑
49共有46个序列)，确定了从ds转换至的每个天然碱基的组成率(％)(％rn、n＝a、t、g和c)。为了便于跨样本比较，将每个序列环境的读取计数标准化为每百万的读取(rpm)。对于ndsn3
‑
49，一式三份执行使用accuprime pfx dna pol和dpa'tp(cond.pa'，等于cond.2)或dpxtp(cond.px，等于cond.4)的替换pcr反应，以及其后的序列分析，以计算平均值和变异性。通过该测序获得的平均％rn值用于百科全书数据。
[0177]
使用通过exselex获得的富集的文库进行序列数据分析
[0178]
首先，深度测序数据是使用n43ds
‑
p001 mix和n30ds
‑
s6
‑
006文库获得的，这些文库分别由exselex靶向干扰素
‑
γ(ifnγ)和von willebrand因子a1结构域(vwf)分离。使用以下标准提取序列：5'
‑
(正向引物的完整序列)
‑
[45个碱基(n43ds
‑
p001 mix)或42个碱基(n30ds
‑
s6
‑
006)]
‑
(反向引物的最后六个碱基的互补序列)
‑
3'。同样，提取互补序列。为了简化对于n43ds
‑
p001 mix文库的分析，仅提取了含有双碱基标签的适配子序列(2个碱基 43个随机碱基)。接下来，根据序列相似性，使用内部perl脚本将提取的序列聚类为10
‑
20个家族(如果序列与靠前序列之间的错配小于6，则聚类为同一家族)。执行n43ds
‑
p001文库的分析一式三份，执行n30ds
‑
s6
‑
006文库的分析两次，以确认重现性。然后将获得的％rn值与百科全书中的值进行比较。
[0179]
接收者操作特征(roc)曲线分析
[0180]
通过roc分析评价本公开内容中测序方法的灵敏性和选择性。针对在适配子序列的前十个家族中预先确定的位置处总共20个ds碱基验证了百科全书的％ra在抗ifnγ适配子选择中的使用(标准1，见图18)(逐渐增加百科全书(参考值)和选择文库(实际值)中的值之间偏差的可接受范围)。当偏差超出标准1中的每个可接受值时，也使用标准2，其中使用dpa'tp和dpxtp的两次替换pcr获得的数据之间的％ra差异超过10％。当标准1的可接受误差范围为
±
10％时，计算灵敏性(真阳性率)和特异性(1
–
假阳性率)。
[0181]
结果
[0182]
通过针对ds周围的所有序列环境替换pcr制作天然碱基组成率的百科全书
[0183]
通过替换pcr从ds转换的天然碱基的组成率在很大程度上取决于ds周围的天然碱基序列环境。为了同时确定针对所有序列环境的天然碱基组成率，本研究使用了含有天然碱基随机化序列和ds的dna文库(图2)。本公开内容的发明人化学合成了两个dna文库，ndsn2
‑
49和ndsn3
‑
49，分别包含随机区域nndsnn(44＝256种组合，n＝a、g、c或t)和nnndsnnn(46＝4,096种组合)(表1)。首先，使用ndsn2
‑
49优化替换pcr条件(在不存在或存在中间体ub底物(例如dpa'tp、dpatp和dpxtp)的情况下，使用accuprime pfx或taq dna pol)。接下来，使用ndsn3
‑
49获得数据以制作天然碱基替换的百科全书(enbre)。
[0184]
将替换pcr的12个循环后扩增的双链dna用ionpgm系统进行深度测序。长度正确的所有提取的序列被分类到ds周围的每个序列环境中，并在每个序列环境中确定在初始ds位置处的天然碱基组成率。然后将数据汇编为百科全书，enbre(图2)。为了评估这种测序方法的准确性，将enbre与从替换pcr(使用exselex程序后的富集的文库)获得的实际测序数据进行了比较。
[0185]
用于替换pcr的中间体ub底物
[0186]
首先，检查了nndsnn文库的替换pcr(使用没有任何中间体ub底物的accuprime pfx dna pol)(图3a，左侧流程)并收集了每个序列环境中原始ds位置处的读取计数和天然碱基组成率(图3b和图8)。由于pcr中ds
‑
px对的高保真度，大多数序列环境在没有ddstp和dpxtp的情况下难以扩增，导致低读取计数。有趣的是，nydstn(y＝c或t)环境产生了高读取计数，表明nydstn中的ds碱基容易突变为天然碱基，主要是a。相反，nrdsrn中从ds碱基的天然碱基转换(r＝a或g)非常难。这些结果为ds
‑
px对的复制提供了新的认识。在涉及ds
‑
px对的pcr中，nrdsrn环境的扩增效率低于nydsyn环境的扩增效率。然而，目前的结果表明，在pcr期间，nrdsrn环境中从ds至天然碱基的突变风险低于在nydstn环境中。因此，在ddstp和dpxtp存在的情况下，通过增加pcr循环可以充分扩增含有低效nrdsrn序列的dna，同时保持低ds突变率。实际上，在使用deep vent dna pol(exo )的pcr中，所有序列环境的保真度都非常高(>99.9％/加倍)。
[0187]
接下来，添加dpa'tp作为使用accuprime pfx dna pol进行替换pcr的中间底物(图3a，右侧流程)。dpa'tp的添加极大地加速了在所有序列环境中从ds至天然碱基的转换(图3c和图9)。从ds转换的天然碱基组成根据序列环境而显著地变化(图4)。例如，ncdstn、ncdsan和ngdsan中的ds碱基转换为a>>t>>c≈g。相反地，ntdsgn中的ds碱基转换为t≥a>>g≈c。ds
→
t转换可能通过与pa'相对的dttp的错误掺入而发生，在与ds相对的dpa'tp掺入之后。有趣的是，在一些ntdsan和nadsan环境中的ds碱基以几乎相等的比率转换为四种天然碱基。
[0188]
也检查了dpatp(pa:吡咯
‑2‑
甲醛)和dpxtp，其作为其他ub中间体底物用于使用accuprime pfx dna pol的替换pcr(图4、图10和图11)。当使用dpatp时，ds
→
a转换在大多数序列环境中占主导地位，除了xadsat(x＝a、g或t)(图10)。这可能是因为在复制中pa掺入的效率低于pa'掺入的效率，比与pa相对的的datp错误掺入更多地减少了模板中与pa相对的dttp的错误掺入。相反，作为中间体底物的dpxtp添加增加了ds
→
t转换，与ds
→
a转换一样高(图11)。由于px的氧和a的n1之间的静电排斥，与pa'相比，px的硝基中的氧有效地减少了与a相对的px错误掺入。因此，不是a错误掺入，而是与px相对的t错误掺入相对增加，并且使用dpxtp的替换pcr后天然碱基的组成变为a≈t>>c≈g。
[0189]
除了accuprime pfx dna pol外，还在存在和不存在dpa'tp的情况下对taq dna pol进行了测试(用于替换pcr)(图12和图13)。之前的研究表明，在使用taq dna pol的复制中ds
‑
px对的保真度远低于使用accuprime pfx dna pol的复制，并且ds
‑
px对在pcr中容易被taq dna pol突变为天然碱基对。正如预期的那样，在不存在任何中间体ub底物的情况下使用taq dna pol的替换pcr对大多数的序列环境继续进行(nndsgg除外)并且ds转换为任何天然碱基。然而，发现taq dna pol在替换pcr期间以高频率(62％)产生单碱基缺失(图14a)。在存在dpa'tp的情况下，taq dna pol根据序列环境促进了ds
→
a转换，但增加了转换效率的偏差(取决于序列环境)(图13和图14b)。
[0190]
总体而言，在dpa'tp存在下使用accuprime pfx dna pol的替换pcr是对于所有序列环境的最佳组合，而在dpxtp存在下的替换pcr是次好的(图14)。在每种条件下进行替换pcr后，在ds位置处的天然碱基组成率(每个天然碱基的％)取决于序列上下文而变化(图4)。此外，与使用dpa'tp的替换pcr相比，使用dpxtp的替换pcr通常增加了ds
→
t的转换(图15)。
[0191]
制备针对每个序列上下文的替换pcr的两组百科全书(enbre)
[0192]
基于上述使用nndsnn文库的结果，在存在dpa'tp或dpxtp的情况下，使用nnndsnnn(46＝4,096种组合)和accuprime pfx dna pol为替换pcr的每个序列环境制备了两组天然碱基组成率百科全书，以提高enbre的准确性(图5)。在每种替换pcr方法中，独立地执行了三次替换pcr和测序分析，并证实了对于每个序列环境的天然碱基组成率的高重现性(约<10％s.d.)(图16)。为了简化使用enbre的搜索方法，本研究重点关注ds
→
a转换率(％ra)，因为取决于序列环境，％ra值在19.2
‑
97.5％的范围内变化很大(在dpa
′
tp
‑
替换pcr中)(表3)。此外，中间底物，无论是dpa'tp还是dpxtp，也极大地改变了转换率(在相同序列环境中)。使用百科全书，可以通过比较enbre和由每个exselex程序产生的富集的文库的替换pcr获得的实际数据之间的％ra值来鉴定每个适配子候选家族中的ds位置(图5)。
[0193]
此外，根据使用dpa'tp和dpxtp的两个替换pcr之间％ra值的差异，本研究可以确认从最后一轮exselex获得的每个适配子候选中ds的存在。如果在exselex程序期间发生了从ds至天然碱基的突变，则不会观察到通过两个替换pcr获得的％ra值的差异。
[0194]
[0195]
[0196]
[0197]
[0198]
[0199]
[0200]
[0201]
[0202]
[0203][0204]
评估使用来自通过exselex获得的富集文库的ub
‑
dna适配子序列的测序方法
[0205]
为了验证enbre的准确性，使用两个实际的富集的文库对测序方法进行了测试，这些文库是通过靶向干扰素
‑
γ(ifnγ)和von willebrand因子a1结构域(vwf)的exselex程序获得的。从文库中，获得了针对两个靶标的高亲和力含有ds的dna适配子。使用约～20个
子文库构成的预先确定的文库获得了抗
‑
ifnγ适配子(k
d
＝38pm)作为第一含有ds的适配子之一。适配子含有三个ds碱基，并且两个ds碱基对于与ifnγ的紧密结合是必不可少的。以前，适配子序列中的ds位置是使用嵌入到每个子文库中的特定条形码来确定的。使用六个不同批次(#1
‑
#6)的具有包括ds碱基在内的随机化序列的化学合成dna文库通过exselex获得了抗vwf适配子(k
d
＝75pm)。本公开内容的发明人先前从文库#1和#4获得了两个适配子家族，并使用每个适配子候选物通过改良的sanger测序确定了每个适配子家族中的ds位置，每个适配子候选物通过与特定探针杂交而从富集的文库分离。
[0206]
图6a显示了测序程序。首先，在存在dpa'tp或dpxtp的情况下执行两种替换pcr方法(步骤a)。第二，使用ion pgm系统通过深度测序获得天然碱基序列数据(步骤b，表2)。第三，将使用dpa'tp和dpxtp获得的两个序列数据集进行比对和聚类以找到每个克隆家族(步骤c)。第四，将家族序列中每个位置的％ra值(或天然碱基组成率)与enbre数据进行比较(步骤d，图17)。如果每个位置的％ra值与enbre中的那些相似，则可以推断这些位置对应于原始候选序列中的ds位置(步骤e)。
[0207]
首先，为了分析抗ifnγ适配子的序列，在dpa'tp或dpxtp存在的情况下，使用先前在七轮exselex(11)后获得的富集的文库(表1中的n43ds
‑
p001 mix)进行替换pcr(图6)。在总序列中，大约50％的序列(家族1)富集到抗ifnγ适配子序列(图6e和表2)。通过与enbre数据的比率比较来扫描家族1总序列中在每个位置处的％ra值(图17a)，并且发现在18、29和40三个位置处的比率与enbre数据中的那些接近(ds
→
a转换率的偏差<10％)(图6b、6c和6d)。一个例外是通过使用dpxtp的替换pcr获得的在位置18处的值，该值显示大约30％偏差，并且实验数据的％ra远低于enbre中的％ra(图18a)。这种差异可能表明在富集的文库中的位置18是ds和天然t碱基的混合物。由于在位置18处的ds碱基对于与ifnγ的结合不是必需的，因此在exselex程序期间，ds碱基可能会突变至天然碱基。
[0208]
接下来，使用ds随机化文库(12)分析了通过exselex靶向vwf获得的两个富集的文库#1和#4(图7)。来自#1和#4的主要家族序列大部分相同，除了一个ds位置(位置22)：从#1获得的一个序列在位置10、22和33处含有三个ds碱基，而来自#4的另一个在位置10和33处含有两个ds碱基(图17d)。适配子中在位置22处的ds碱基对于与vwf的紧密结合不是必需的(12)。在此，使用文库#1和#4执行替换pcr并比对靠前的聚类序列(图7a和7b，图7b)。来自#4的在位置22处的％ra值在实际数据和enbre数据之间存在显著差异(>50％偏差)(图7c，图17b)。此外，来自#4的在位置22处的天然碱组成率在通过使用dpa'tp或dpxtp的两种替换pcr方法获得的那些之间是相同的(图17b)。因此，来自#4的在位置22处的碱基被鉴定为天然碱基(主要是t)，而不是ds。除了位置22，来自#1和#4的在位置10处的％ra值与在enbre数据中的那些有偏差(>20％偏差)。这可能是因为在七轮选择的pcr扩增(总共157个pcr循环)期间，家族中在位置10处的ds碱基部分突变至a，或者因为第一轮后的分离的文库已经包含天然碱基种类,而不是ds。这种可能性得到了vwf
‑
适配子复合物的凝胶转移测定的支持，其中使用富集的文库的vwf结合效率与使用化学合成的含有ds的适配子(对应于家族#1和#4(12))相比非常低。然而，在使用dpa
′
tp或dpxtp的两种替换pcr方法之间，在位置10处的％ra值有很大差异，因此本公开内容得出的结论是，在大多数dna中，ds碱基仍存在于位置10处。
[0209]
为了评估用于涉及ds碱基的dna测序的enbre数据的准确性，本研究广泛探讨了针
pairs for genetic alphabet expansion toward synthetic xenobiology.curr.opin.chem.biol.,46,108
‑
114.
[0215]
2.lee,k.h.,hamashima,k.,kimoto,m.and hirao,i.(2018)genetic alphabet expansion biotechnology by creating unnatural base pairs.curr.opin.biotechnol.,51,8
‑
15.
[0216]
3.dien,v.t.,morris,s.e.,karadeema,r.j.and romesberg,f.e.(2018)expansion of the genetic code via expansion of the genetic alphabet.curr.opin.chem.biol.,46,196
‑
202.
[0217]
4.karalkar,n.b.and benner,s.a.(2018)the challenge of synthetic biology.synthetic darwinism and the aperiodic crystal structure.curr.opin.chem.biol.,46,188
‑
195.
[0218]
5.kimoto,m.,kawai,r.,mitsui,t.,yokoyama,s.and hirao,i.(2009)an unnatural base pair system for efficient pcr amplification and functionalization of dna molecules.nucleic acids res.,37,e14.
[0219]
6.yamashige,r.,kimoto,m.,mitsui,t.,yokoyama,s.and hirao,i.(2011)monitoring the site
‑
specific incorporation of dual fluorophore
‑
quencher base analogues for target dna detection by an unnatural base pair system.org.biomol.chem.,9,7504
‑
7509.
[0220]
7.okamoto,i.,miyatake,y.,kimoto,m.and hirao,i.(2016)high fidelity,efficiency and functionalization of ds
‑
px unnatural base pairs in pcr amplification for a genetic alphabet expansion system.acs synth.biol.,5,1220
‑
1230.
[0221]
8.yamashige,r.,kimoto,m.,takezawa,y.,sato,a.,mitsui,t.,yokoyama,s.and hirao,i.(2012)highly specific unnatural base pair systems as a third base pair for pcr amplification.nucleic acids res.,40,2793
‑
2806.
[0222]
9.yang,z.,sismour,a.m.,sheng,p.,puskar,n.l.and benner,s.a.(2007)enzymatic incorporation of a third nucleobase pair.nucleic acids res.,35,4238
‑
4249.
[0223]
10.yang,z.,chen,f.,alvarado,j.b.and benner,s.a.(2011)amplification,mutation,and sequencing of a six
‑
letter synthetic genetic system.j.am.chem.soc.,133,15105
‑
15112.
[0224]
11.kimoto,m.,yamashige,r.,matsunaga,k.,yokoyama,s.and hirao,i.(2013)generation of high
‑
affinity dna aptamers using an expanded genetic alphabet.nat.biotechnol.,31,453
‑
457.
[0225]
12.matsunaga,k.,kimoto,m.and hirao,i.(2017)high
‑
affinity dna aptamer generation targeting von willebrand factor a1
‑
domain by genetic alphabet expansion for systematic evolution of ligands by exponential enrichment using two types of libraries composed of five different bases.j.am.chem.soc.,139,324
‑
334.
[0226]
13.sefah,k.,yang,z.,bradley,k.m.,hoshika,s.,jimenez,e.,zhang,l.,zhu,g.,shanker,s.,yu,f.,turek,d.等人(2014)in vitro selection with artificial expanded genetic information systems.proc.natl.acad.sci.u s a,111,1449
‑
1454.
[0227]
14.zhang,l.,yang,z.,sefah,k.,bradley,k.m.,hoshika,s.,kim,m.j.,kim,h.j.,zhu,g.,jimenez,e.,cansiz,s.等人(2015)evolution of functional six
‑
nucleotide dna.j.am.chem.soc.,137,6734
‑
6737.
[0228]
15.zhang,l.,yang,z.,le trinh,t.,teng,i.t.,wang,s.,bradley,k.m.,hoshika,s.,wu,q.,cansiz,s.,rowold,d.j.等人(2016)aptamers against cells overexpressing glypican 3from expanded genetic systems combined with cell engineering and laboratory evolution.angew.chem.int.ed.engl.,55,12372
‑
12375.
[0229]
16.biondi,e.,lane,j.d.,das,d.,dasgupta,s.,piccirilli,j.a.,hoshika,s.,bradley,k.m.,krantz,b.a.and benner,s.a.(2016)laboratory evolution of artificially expanded dna gives redesignable aptamers that target the toxic form of anthrax protective antigen.nucleic acids res.,44,9565
‑
9577.
[0230]
17.malyshev,d.a.,seo,y.j.,ordoukhanian,p.and romesberg,f.e.(2009)pcr with an expanded genetic alphabet.j.am.chem.soc.,131,14620
‑
14621.
[0231]
18.malyshev,d.a.,dhami,k.,quach,h.t.,lavergne,t.,ordoukhanian,p.,torkamani,a.and romesberg,f.e.(2012)efficient and sequence
‑
independent replication of dna containing a third base pair establishes a functional six
‑
letter genetic alphabet.proc.nat.acad.sci.usa,109,12005
‑
12010.
[0232]
19.li,l.,degardin,m.,lavergne,t.,malyshev,d.a.,dhami,k.,ordoukhanian,p.and romesberg,f.e.(2014)natural
‑
like replication of an unnatural base pair for the expansion of the genetic alphabet and biotechnology applications.j.am.chem.soc.,136,826
‑
829.
[0233]
20.malyshev,d.a.,dhami,k.,lavergne,t.,chen,t.,dai,n.,foster,j.m.,correa,i.r.,jr.and romesberg,f.e.(2014)a semi
‑
synthetic organism with an expanded genetic alphabet.nature,509,385
‑
388.
[0234]
21.zhang,y.,ptacin,j.l.,fischer,e.c.,aerni,h.r.,caffaro,c.e.,san jose,k.,feldman,a.w.,turner,c.r.and romesberg,f.e.(2017)a semi
‑
synthetic organism that stores and retrieves increased genetic information.nature,551,644
‑
647.
[0235]
22.dien,v.t.,holcomb,m.,feldman,a.w.,fischer,e.c.,dwyer,t.j.and romesberg,f.e.(2018)progress toward a semi
‑
synthetic organism with an unrestricted expanded genetic alphabet.j.am.chem.soc.,140,16115
‑
16123.
[0236]
23.ohtsuki,t.,kimoto,m.,ishikawa,m.,mitsui,t.,hirao,i.and yokoyama,s.(2001)unnatural base pairs for specific transcription.proc.natl.acad.sci.usa,98,4922
‑
4925.
[0237]
24.hirao,i.,kimoto,m.,mitsui,t.,fujiwara,t.,kawai,r.,sato,a.,harada,y.and yokoyama,s.(2006)an unnatural hydrophobic base pair system:site
‑
specific incorporation of nucleotide analogs into dna and rna.nat.methods,3,729
‑
735.
[0238]
25.hirao,i.,mitsui,t.,kimoto,m.and yokoyama,s.(2007)an efficient unnatural base pair for pcr amplification.j.am.chem.soc.,129,15549
‑
15555.
[0239]
26.mitsui,t.,kitamura,a.,kimoto,m.,to,t.,sato,a.,hirao,i.and yokoyama,s.(2003)an unnatural hydrophobic base pair with shape complementarity between pyrrole
‑2‑
carbaldehyde and9
‑
methylimidazo[(4,5)
‑
b]pyridine.j.am.chem.soc.,125,5298
‑
5307.
[0240]
27.mitsui,t.,kimoto,m.,sato,a.,yokoyama,s.and hirao,i.(2003)an unnatural hydrophobic base,4
‑
propynylpyrrole
‑2‑
carbaldehyde,as an efficient pairing partner of9
‑
methylimidazo[(4,5)
‑
b]pyridine.bioorg.med.chem.lett.,13,4515
‑
4518.
[0241]
28.betz,k.,kimoto,m.,diederichs,k.,hirao,i.and marx,a.(2017)structural basis for expansion of the genetic alphabet with an artificial nucleobase pair.angew.chem.int.ed.engl.。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种采用光催化多组分Petasis反应制备α-分支仲胺类化合物的方法与流程

对具有非天然碱基对的核酸进行测序的方法与流程

相关文章

最热文献