Python统计如何进行DNA序列整理

上海滩

2010-03-12

Python统计在我们的使用中有很多的障碍，其中在DNA序列上的相关问题就需要我们不断的去学习。下面我们就向大家介绍有关的问题，希望在以后Python统计的使用过程中有所收获。

给定一堆DNA序列，即由字符A, C, G, T组成的字符串，统计所有长度为n的子序列出现的频率。比如 ACGTACGT，子序列长度为2，于是 AC=2, CG=2, GT=2, TA=1，其余长度为2的子序列频率为0.

最先想到的就是建一个字典，key是所有可能的子序列，value是这个子序列出现的频率。但是当子序列比较长的时候，比如 n=8，需要一个有65536 (4的8次方) 个key-value pair的字典，且每个key的长度是8字符。这样ms有点浪费内存。。

于是想到，所有的长度为n的子序列是有序且连续的，所以可以映射到一个长度为4的n次方的的list里。令 A=0, C=1, G=2, T=3，则把子序列 ACGT 转换成 0*4^3 + 1*4^2 + 2*4 + 3 = 27, 映射到list的第27位。如此，list的index对应子序列，而list这个index位置则储存这个子序列出现的频率。

于是我们先要建立2个字典，Python统计表示ACGT和0123一一对应的关系：

i2mD = {0:'A', 1:'C', 2:'G', 3:'T'}  



m2iD = dict(A=0,C=1,G=2,T=3)  



# This is just another way to initialize a dictionary

以及下面的子序列映射成整数函数：

python python函数 dna序列

安科网

Python统计如何进行DNA序列整理

上海滩

上海滩

相关推荐

Python爬虫破解登陆哔哩哔哩的方法

致命错误！Python开发者的7个崩溃瞬间

Python五个隐藏的特性，你可能从未听说过

为什么继承 Python 内置类型会出问题？！

使用开源可视化工具来理解你的Python代码

Python代码可以有多简洁，看看它如何实现数组求极值

深入Python中引用计数

Python文本预处理，试试BAT大佬总结的实用代码！

python 发送get请求接口详解

python 使用tkinter+you-get实现视频下载器

python中requests模拟登录的三种方式(携带cookie/session进行请求网站)

python开发一个解析protobuf文件的简单编译器

python 下载文件的多种方法汇总

Linux Shell 如何获取参数的方法

python跨文件使用全局变量的实现

python调用百度API实现人脸识别

Python调用ffmpeg开源视频处理库，批量处理视频

详解python os.path.exists判断文件或文件夹是否存在

python实现在列表中查找某个元素的下标示例

python如何获得list或numpy数组中最大元素对应的索引

上海滩