Python统计如何进行DNA序列整理
Python统计在我们的使用中有很多的障碍,其中在DNA序列上的相关问题就需要我们不断的去学习。下面我们就向大家介绍有关的问题,希望在以后Python统计的使用过程中有所收获。
给定一堆DNA序列,即由字符A, C, G, T组成的字符串,统计所有长度为n的子序列出现的频率。比如 ACGTACGT,子序列长度为2,于是 AC=2, CG=2, GT=2, TA=1,其余长度为2的子序列频率为0.
最先想到的就是建一个字典,key是所有可能的子序列,value是这个子序列出现的频率。但是当子序列比较长的时候,比如 n=8,需要一个有65536 (4的8次方) 个key-value pair的字典,且每个key的长度是8字符。这样ms有点浪费内存。。
于是想到,所有的长度为n的子序列是有序且连续的,所以可以映射到一个长度为4的n次方的的list里。令 A=0, C=1, G=2, T=3,则把子序列 ACGT 转换成 0*4^3 + 1*4^2 + 2*4 + 3 = 27, 映射到list的第27位。如此,list的index对应子序列,而list这个index位置则储存这个子序列出现的频率。
于是我们先要建立2个字典,Python统计表示ACGT和0123一一对应的关系:
i2mD = {0:'A', 1:'C', 2:'G', 3:'T'} m2iD = dict(A=0,C=1,G=2,T=3) # This is just another way to initialize a dictionary
以及下面的子序列映射成整数函数:
相关推荐
夜斗不是神 2020-11-17
huavhuahua 2020-11-20
Yasin 2020-11-16
xiaoseyihe 2020-11-16
千锋 2020-11-15
diyanpython 2020-11-12
chunjiekid 2020-11-10
wordmhg 2020-11-06
YENCSDN 2020-11-17
lsjweiyi 2020-11-17
houmenghu 2020-11-17
Erick 2020-11-17
HeyShHeyou 2020-11-17
以梦为马不负韶华 2020-10-20
lhtzbj 2020-11-17
pythonjw 2020-11-17
dingwun 2020-11-16
lhxxhl 2020-11-16