您当前的位置:首页>论文资料>基于位重组的DNA序列数据无损压缩研究

基于位重组的DNA序列数据无损压缩研究

资料类别:论文资料

文档格式:PDF电子版

文件大小:2.42 MB

资料语言:中文

更新时间:2024-11-29 11:20:47



推荐标签:

内容简介

基于位重组的DNA序列数据无损压缩研究 应用研究
基于位重组的DNA序列数据无损压缩研究

(三江学院计算机科学与工程学院江苏南京210012)
数字投本与或用
摘要:在分析DNA序列数据存储结构的基础上,利用数据在计算机内的表示方法特性,提出了针对DNA序列数据进行无损压端的方法。方法是先用数字替代序列数据中的基因数据,再重组序列数据的各bt位,转数据中的高位0录可能地集中,从而出现比较长的0值数据,有利于使用无损压端工具进行压增。试验结果证实,经过处理后,可以得到比原网站提供的压增文件和直接使用压缩工具得到的压缩文件更高的压增比
关键词数据压端数据住无损压缩比
中图分类号:TP3 1引言
文献标识码:A
自20世纪末以来,生物测序技术不断发展,随之产生的各类生物数据迅速形成了庞大的生物信息数据库。如何有效地分析、管理和存储这些海量的数据,是生物学家和计算机专家们必须着力解决的棘手问题。数据压缩技术是解决这一问题的有效方法之
DNA序列数据是一类极其重要的生物数据,具有不同于其他待压缩数据的特征,采用现有的各种通用数据压缩算法,通常不能进行有效的压缩。针对DNA序列数据进行压缩所做的研究,主要有:文献[1]中,DNACompress算法是X.Chen等人以生物序列比对为基础,在2002年提出的一种基于LZ思想的压缩算法。文献[2]中, DNAPack算法是B.Behshad等人在2005年提出的。该算法在搜索近似重复片段时引人了动态规划技术,采用动态规划技术可寻找序列中编码最优匹配。文献[3]中,GeNML算法是Gkorodi和I.Tabus在
原DNA序列数据
a
66 b7h
b6
b7 129
b7。 b6.
b1-bo.
b6-C
b7。 b6.
bl-bo.
b5b4-63
b1b8
b2
b5a b5
b4a b4
b5
64
b3a b3. b3
重组后数据
b74 b6.
b1-bo.
收稿日期:201601-12
b74 b6.
b1-bo。
b7。 b6.
bl-bo.
图1
b2a b2. b2。 b7。 b6.
bl-bo.
bot bla
+
b1a b1。
bo fo
b7。 b6e
b1-bo
b74 b6a
bl-bo
文章编号:1007-9416(2016)03-0070-02
2007年提出的。该算法结合了多种编码策略。另外的压缩算法还有很多,有基于有限上下文模型与算术缩码的,基于序列残差编码的:基于多重压缩方法的编码的;基于对DNA序列进行BWT变换后,再用MTF算法和算术缩码来压缩缩码的等等算法。这些编码算法都涉及到要对基因数据进行比较复杂的编码算法处理,而且得到的压缩比并不算高。文献4和[5]中针对气象格点数据的特点,提出了对数据进行预处理,再压缩的思路,但处理对象是气象科学数据,对本文要研究的DNA序列数据有一定局限性。
本文试图分析数据存放特点,通过重组每个数据的数据位,改变DNA序列数据存放形式,使表示DNA序列数据的数值尽可能多地出现连续相同值,这样就有利于使用无损压缩工具直接压缩,达
到提高压缩比的目的。 2方法简介
2.1 DNA序列
据文献[6]中介绍,DNA是一种高分子聚合物,基本单位是脱氧核苷酸。每个脱氧核苷酸是由一个脱氧核糖(S)、一个磷酸分子(P)及
表1网站GZ压缩结果
序列 2 3 4
库列 2 3 4 5
原大小(字节) 253,404,855 247,252,752 201,322,860 194.340,237 183,930,571
GZ压缩(网站) 68,379,706 72,516,904 59,313,881 57.147.321 54,083,360
表2经本文预处理后压缩结果预处理再压缩(字节)
53,406,777 56,958,578 46,503,546 44.807,750 42.339,542
压缩比 3.71 3.41 3.39 3.40 3.40
压缩比 4.74 4.34 4.33 4.34 4.34
注:WinRAR的版本是WinRAR4.01(64位),开发环境是Visual Studio 2008,下同。
表3对DNAMasked数据压缩结果
序列
2 3 4 5
原文件大小(字节)
253,404,858 247,252,755 201,322,863 194,340,240 183,930,574
作者简介:顾洪(1968一),男,汉,江苏海安人,三江学院制教投,项士,研究方向:计算机应用与教学
Winrar压缩 37,331,663 41,139,097 32,714,028 30,947,067 29,764,359
预处理再压缩比
161 34.112,249 27,172,717 25,738,587 24,706,440
上一章:极化测量雷达的信号选择与处理方法研究 下一章:LoadRunner在基于Struts考试系统的性能测试中的应用

相关文章

DNA和蛋白质序列数据分析工具(第3版)[薛庆中 等著] GB/T 38165-2019 人体外周血中循环游离DNA浓度检测基于Ahi序列实时荧光PCR法 GB/T 38165-2019 人体外周血中循环游离DNA浓度检测 基于Alu序列实时荧光PCR法 基于优先矩阵的叶片泵装配序列规划研究 基于机床装配序列模态测试的绿色制造技术研究 风险管理及绩效评价:基于医药企业资产重组的研究 基于油液原子光谱多维时间序列模型的机械磨损状态监测研究 GB/T 42636-2023 空间数据与信息传输系统 无损数据压缩