第一篇:生物信息学简介
1、简介
生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:(1)新算法和统计学方法研究;(2)各类数据的分析和解释;(3)研制有效利用和管理数据新工具。
生物信息学是一门利用计算机技术研究生物系统之规律的学科。
目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。
1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?
生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W.Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。
生物信息学的主要研究方向: 基因组学系统生物学-比较基因组学,1989年在美国举办生物化学系统论与生物数学的计算机模型国际会议,生物信息学发展到了计算生物学、计算系统生物学的时代。
姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。
原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。
2、发展简介
生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须先对分子生物学的发展有一个简单的了解。研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在,1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色。1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等。与此同时,Wilkins与Franklin用X射线衍射技术测
定了DNA纤维的结构。1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA的三维结构(双螺旋)。DNA以磷酸糖链形成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基对。这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的遗传信息可以精确地进行复制。他们的理论奠定了分子生物学的基础。DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接成DNA。DNA的复制需要一个DNA作为模板。Meselson与Stahl(1958)用实验方法证明了DNA复制是一种半保留复制。Crick于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码得到了破译。限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程的技术基础。正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息学的出现也就成了一种必然。2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮。由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每天106bp速度增长,生物信息迅速地膨胀成数据的海洋。毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能,“生物信息学”正是从这一前提产生的交叉学科。粗略地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域。生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释。基因组信息学的关键是“读懂”基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律。它的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”,解释生命的遗传语言。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。
3、主要研究方向
生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些主要的研究重点。
1、序列比对
序列比对(Sequence Alignment)的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列。在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等。两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效。因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的。
2、蛋白质结构比对和预测
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似。蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等。氨基酸的序列内在的决定了蛋白质的3维结构。一般认为,蛋白质有四级不同的结构。研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成。直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构
在进化中更稳定的保留,同时也包含了较AA序列更多的信息。蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释。从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源建模(homology modeling)和指认(Threading)方法属于这一范畴。同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构。然而,蛋白结构预测研究现状还远远不能满足实际需要。
3、基因识别非编码区分析研究
基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制。显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中。分析非编码区DNA序列目前没有一般性的指导方法。在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等。
4、分子进化和比较基因组学
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性。通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的。早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据。近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化。在匹配不同种族的基因时,一般须处理三种情况:Orthologous:不同种族,相同功能的基因;Paralogous:相同种族,不同功能的基因;Xenologs:有机体间采用其他方式传递的基因,如被病毒注入的基因。这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现。
5、序列重叠群(Contigs)装配
根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。从算法层次来看,序列的重叠群是一个NP-完全问题。
6、遗传密码的起源
通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今。不同于这种“冻结”理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码。随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。
7、基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物。这一领域目的是发现新的基因药物,有着巨大的经济效益。
8、生物系统的建模和仿真
随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。目前来看,其研究内容包括生物系统的模拟(Curr Opin Rheumatol,2007,463-70),系统稳定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系统鲁棒性分析(Ernst Schering Res Found Workshop,2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)为代表的建模语言在迅速发展之中,以布尔网络(PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、随机过程(Neural Comput,2007,3262-92)、离散动态事件系统等(Bioinformatics,2007,336-43)方法在系统分析中已经得到应 用。很多模型的建立借鉴了电路和其它物理系统建模的方法,很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题(Anal Quant Cytol Histol,2007,296-308)。当然,建立生物系统的理论模型还需要很长时间的努力,现在实验观测数据虽然在海量增加,但是生物系统的模型辨 识所需要的数据远远超过了目前数据的产出能力。例如,对于时间序列的芯片数据,采样点的数量还不足以使用传统的时间序列建模方法,巨大的实验代价是目前系 统建模主要困难。系统描述和建模方法也需要开创性的发展。
9、生物信息学技术方法的研究
生物信息学不仅仅是生物学知识的简单整理和数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统 计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难,需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。
10、生物图像
没有血缘关系的人,为什么长得那么像呢?
外貌是像点组成的,像点愈重合两人长得愈像,那两个没有血缘关系的人像点为什么重合?有什么生物学基础?基因是不是相似?我不知道,希望专家解答。
11、其他
如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法。从现在的发展不难看出,基因工程已经进入了后基因组时代。我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识。
4、生物信息学与机器学习
生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入.常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问题.究其原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完备的生命组织理论.西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作时更有效。机器学习的目的是期望能从数据中自动地获得相应的理论,通过采用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,“噪声”模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法.机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能.机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花费巨大的人工处理方法.早期的科学方法——观测和假设——面对高数据的体积,快速的数据获取率和客观分析的要求——已经不能仅依赖于人的感知来处理了.因而,生物信息学与机器学习相结合也就成了必然.机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是统计模型拟合的延续,其目的均为提取有用信息.机器学习与模式识别和统计推理密切相关.学习方法包括数据聚类,神经网络分类器和非线性回归等等.隐马尔可夫模型也广泛用于预测DNA的基因结构.目前研究重心包括:1)观测和探索有趣的现象.目前ML研究的焦点是如何可视化和探索高维向量数据.一般的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(LocallyLinear embedding).2)生成假设
和形式化模型来解释现象[6].大多数聚类方法可看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数据库中获得相应的现象解释.机器学习加速了生物信息学的进展,也带了相应的问题.机器学习方法大多假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构.其次,机器学习方法中常采用“黑箱”操作,如神经网络和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚.5、生物信息学的数学问题
生物信息学中数学占了很大的比重.统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理论或多或少在生物学研究中起到了相应的作用.但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学和度量空间为例来说明.1、统计学的悖论
数学的发展是伴随悖论而发展的.对于进化树研究和聚类研究中最显著的悖论莫过于均值了,就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多的数据的几何性质.那么,如果数据呈现类似的特有分布时,常有的进化树算法和聚类算法(如K-均值)往往会得错误的结论.统计上存在的陷阱往往是由于对数据的结构缺乏一般性认识而产生的.2、度量空间的假设
在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念.举例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立.那么,是否这种前提假设具有普适性呢,我们不妨给出一般的描述:假定两个向量为A,B,其中,则在假定且满足维数间线性无关的前提下,两个向量的度量可定义为:(1)依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息学中常采用的一般性描述,即假定了变量间线性无关.然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的度量公式可由下式给出:(2)上式中采用了爱因斯坦和式约定,描述了变量间的度量关系.后者在满足(3)时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线性相关性,我们正在研究这个问题.6、统计学习理论在生物信息学中应用的困难
生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却一般难以给出明确的定义.生物信息学面临的这种困难,可以描述成问题规模的巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来改善性能是必然的[7].以下对基于这一思想产生的统计学习理论,Kolmogorov复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介绍.支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计学习理论,是通过最大化两个数据集的最小间隔来实现分类,对于非线性问题则采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函数的选择,因此,受到广泛的注意.在生物信息学中也开始受到重视,然而,核函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中又一个大气泡.Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只适用于离散数据,最近已经推广至连续数据集中,试图从编码角度获得对模型参数的最小描述.其缺陷在于建模的复杂性过高,导致在大数据集中难以运用.BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃
刀(“Occam Razor”)原理,近年也广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验的选择的敏感性,在数据量较大时处理较慢.因此,在这一方面仍然有许多探索的空间.7、讨论与总结
人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互关系.这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这些问题做出探讨和思索.启发式方法
Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法.问题规模不同的处理:Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用动态规划,而在大规模序列对齐时不得不引入启发式方法,如BLAST,FASTA.乐观中的隐扰
生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入“后基因组时代”,目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在的隐扰呢不妨回顾一下早期人工智能的发展史,在1960年左右,西蒙曾相信不出十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相同的机器人.而至今为止,这一诺言仍然遥遥无期.尽管人工智能研究得到的成果已经渗入到各个领域,但对人的思维行为的了解远未完全明了.从本质来看,这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现实.反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所有行为和功能和致病原因.这类似于人工智能早期发展中表现的乐观行为,也来自于早期分子生物学,生物物理和生物化学的成就.然而,从本质上来讲,与人工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用.我们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐观呢 现在说肯定的话也许为时尚早.8、总结
综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密。在处理大规模数据方面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的结果。那么,要得到真正的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从数学上的新思路来获得本质性的动力。毫无疑问,正如Dulbecco1986年所说:“人类的DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关”。但要完全破译这一序列以及相关的内容,我们还有相当长的路要走。
第二篇:生物信息学简介 -Intro to bioimf
生物信息学简介
生物信息学是一门利用计算机技术研究生物系统之规律的学科。它建立在分子生物学的基础之上,并以计算机为工具对生物信息进行存储、检索和分析。其研究重点体现在基因组学和蛋白质组学两个方面,具体来说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。生物信息学是当今自然科学与生命科学的重大前沿科学之一。
一、发展历程
1866年孟德尔从实验上提出了基因是以生物成分存在的假设,5年以后Miescher从死亡的白细胞核中分离出DNA,1944年Avery和McCarty证明了DNA是生命器官的遗传物质,同年Chargaff发现DNA中鸟嘌呤的量与胞嘧啶的总量总是相等,腺嘌呤与胸腺嘧啶的量相等。同时,Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构。1953年James Watson和Francis Crick推测出DNA的双螺旋结构,DNA是以磷酸糖链形成的双股螺旋结构,脱氧核糖上的碱基按Chargaff规律构成的双股磷酸糖链之间的碱基对。这个模型表示DNA具有自身的互补结构,根据碱基对原则,DNA中贮存的遗传信息可以精确地进行复制。1954年Crick提出了中心法则(Central dogma),揭示了遗传信息的传递规律,即DNA是合成RNA的模板,RNA又是合成蛋白质的模板,其对分子生物学和生物信息学的法则都起到了极其重要的指导作用。分子生物学揭示了生命科学中的微观世界,对生命科学的发展起了巨大的推动作用。在分子生物学的研究过程中,产生了大量的生物信息数据,对大量生物信息数据的存储检索和分析可以借助计算机,因此分子生物学与计算机科学、数学、信息技术等学科交叉形成的生物信息学成了一种必然的趋势。
随着人类基因组工程测序的完成,生物信息学的研究又走向了一个高潮,在DNA自动测序技术的快速发展的推动下,DNA数据库中的核酸序列公共数据量飞速增长迅速膨胀。这使得我们面临着大量数据的组织和存储、检索的困难,而在巨大的数据量往往蕴含着潜在突破性发现的可能。在这种背景下就产生了生物信息学这一交叉学科。简单地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列、结构、演化及其与生物功能之间的关系,其研究设计到分子生物学、分子演化及结构生物学,统计学及计算机科学与
技术等诸多领域。
二、研究现状简介
生物信息学作为一门新兴的交叉学科领域,在短短的二十年的发展过程中,形成了如序列对比、蛋白质结构对比和预测、序列重叠群装配、代谢网络分析等多个研究方向。
1.序列对比
序列对比(Sequence Alignment)的基本问题是比较两个或者两个以上符号的相似性或者不相似性。序列对比考虑了DNA序列的生物学特性,如局部发生的插入、删除和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐方法包括全局对齐,局部对齐,代沟惩罚等。通常采用的算法有动态规划算法,在序列长度较小的时候动态规划算法适用。然而当基因序列的数据量非常大的时候,这一方法就不太适用,甚至采用线性复杂度的算法也难以凑效。因此在序列对比中引入了启发式算法,如著名的BALST和FASTA算法。
2.蛋白质结构对比和预测
蛋白质结构对比和预测是比较两个或者两个以上蛋白质分子空间结构的相似性或不相似性。一般认为,具有相似功能的蛋白质结构一般相似。蛋白质是由氨基酸组成的长链,具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等。我们可以通过研究蛋白质结构对比和预测:在医药上可以理解生物的功能,寻找docking drugs的目标,在农业上可获得更好的农作物的基因,工业上有利于酶的合成。因为蛋白质的3维结构比其一级结构在进化中更稳定的保留,所以直接对蛋白质结构进行比对。蛋白质3维结构研究的有着如下一个假设,既内在的氨基酸序列与3维结构一一对应。
蛋白质结构的预测指的是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构,其本质是一个组合优化问题。同源建模(homology modeling)用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),指认(Threading)则用于比较进化族中不同的蛋白质结构。然而,蛋白结构预测研究现状还远远不能满足实际需要。
3.序列重叠群装配
受到现行的测序技术的限制,每次反应只能测出500 或更多一些碱基对的序列,如在人类基因的测量过程中就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。这个过程从算法层次来看,序列的重叠群是一个NP-完全问题。
4.代谢网络分析(Metabolic network)
代谢网络是将细胞内所有生化反应表示为一个网络,反映了所有参与代谢过程的化合物之间以及所有催化酶之间的相互作用,是对细胞代谢过程的抽象表达。由于在生命过程中代谢活动在是不断发生的,代谢网络随时变化。由于大量反应的动力学参数都是未知的,使得其动力学研究受到限制,而基于网络拓扑结构的静态分析得到了广泛的应用。静态的代谢网络分析主要有三类研究方法:流平衡分析;基元模式分析和极端途径分析;图论方法。
5.基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物。这一领域目的是发现新的基因药物,有着巨大的经济效益。
6.生物信息学技术方法
生物信息学中产生的海量数据和复杂的背景导致机器学习、统计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难,因此提出了非参数统计、聚类分析等更加灵活的数据分析技术。在高维数据的分析中引入了偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的设计时,需要充分考虑算法的时间和空间复杂度,使用分布式并行计算、网格计算等技术来实现高效的算法。
三、前景展望
生物信息学是一门利用计算机技术研究生物系统之规律的学科。自从人类基
因组计划开展后, 大量的生物基因序列被测定, 如何从这些海量的数据中发现其生物学意义, 就需要借助计算机数据库和计算机算法分析预测的手段。生物信息学的发展在国内外基本上都处在起步阶段, 所拥有的条件也大体相同。那么谁能够更充分更高效更快捷地利用信息科学、控制科学、计算机科学等高技术手段来分析和理解数据, 谁就能最先发现新线索、新现象和新规律, 也是其在生物信息学研究领域取得领先地位的先决条件。生物信息学是一门非常有发展远景的科学, 现代信息技术则是它不可或缺的研究手段。
第三篇:生物信息学
生物信息学是上世纪90年代初人类基因组计划(HGP)依赖,随着基因组学、蛋白组学等新兴学科的建立,逐渐发展起来的生物学、数学和计算机信息科学的一门交叉应用学科。目前生物信息学的研究领域主要包括基于生物序列数据的整理和注释、生物信息挖掘工具开发及利用这些工具揭示生物学基础理论知识等领域。生物信息学作为新型交叉应用学科,可以依托本校已有的计算机科学、信息学、生物学和数学等学科优势,充分展现投入少、见效快、起点高的特色,推动学校学科建设和本科教学水平。
本实验指导书中的8个实验均设计为综合性开发实验,面向生物信息学院全体本科学生和研究生,以及全校对生物信息学感兴趣的其他专业学生开放。生物信息学实验室将提供系统的保障,包括采用mail服务器和linux帐号管理等进行实验过程管理和支持。限选《生物信息学及实验》的生物技术专业本科生至少选择其中5个实验,并不少于8个学时,即为课程要求的0.5个学分。其他选修者按照课时和学校相关规定计算创新学分。实验一 熟悉生物信息学网站及其数据的生物学意义
实验目的:
培养学生利用互联网资源获取生物信息学研究前沿和相关数据的能力,熟悉生物信息学相关的一些重要国内外网站,及其核酸序列、蛋白质序列及代谢途径等功能相关数据库,学会下载生物相关的信息数据,了解不同的数据文件格式和其中重要的生物学意义。
实验原理:
利用互联网资源检索相关的国内外生物信息学相关网站,如:NCBI、SANGER、TIGR、KEGG、SWISSPORT、Ensemble、中科院北京基因组研究所、北大生物信息
学中心等,下载其中相关的数据,如fasta、genbank格式的核算和蛋白质序列、pathway等数据,理解其重要的生物学意义。
实验内容:
1.浏览和搜索至少10个国外和至少5个国内生物信息学相关网站,并描
述网站特征;
2.下载各网站的代表性数据各10条(组)以上,并说明其生物学意义;
3.讨论各网站适合做何种生物信息学研究的平台,并设计一个研究设想。实验报告:
1.各网站网址及特征描述;
2.代表性数据的下载和生物学意义的描述;
3.讨论:这些生物信息学相关网站的信息资源,可以被那些生物信息学
研究所利用。
参考书目:
《生物信息学概论》 罗静初 等译,北京大学出版社,2002;《生物信息学手册》 郝柏林 等著,上海科技出版社,2004;
《生物信息学实验指导》 胡松年 等著,浙江大学出版社,2003。实验二 利用BLAST进行序列比对
实验目的:
了解BLAST及其子程序的原理和基本参数,熟练地应用网络平台和Linux计算平台进行本地BLAST序列比对,熟悉BLAST结果的格式和内容并能描述其主要意义,同时比较网上平台和本地平台的优缺点。
实验原理:
利用实验一下载的核算和蛋白质序列,提交到NCBI或者其他拥有BLAST运算平台的网页上,观察其基本参数设定库文件类型,并得到计算结果;同时在本地服务器上学会用formatdb格式化库文件,并输入BLAST命令进行计算,获得结果文件。
实验内容:
1.向网上BLAST服务器提交序列,得到匹配结果;
2.本地使用BLAST,格式化库文件,输入命令行得到匹配结果;
3.对结果文件进行简要描述,阐述生物学意义。
实验报告:
1.阐述BLAST原理和比对步骤;
2.不同类型BLAST的结果及其说明;
3.讨论:不同平台运行BLAST的需求比较。
参考书目:
《生物信息学概论》 罗静初 等译,北京大学出版社,2002;
《生物信息学实验指导》 胡松年 等著,浙江大学出版社,2003。
实验三 利用ClustalX(W)进行
多序列联配
实验目的:
掌握用Clustal X(W)工具及其基本参数,对具有一定同源性和相似性的核酸与蛋白质序列进行联配和聚类分析,由此对这些物种的亲缘关系进行判断,并且对这些序列在分子进化过程中的保守性做出估计。
实验原理:
首先对于输入的每一条序列,两两之间进行联配,总共进行n*(n-1)/2次联配,这一步通过一种快速的近似算法实现,其得分用来计算指导树,系统树图能用于指导后面进行的多序列联配的过程。系统树图是通过UPGMA方法计算的。在系统树图绘制完以后,输入的所有序列按照得分高低被分成n-1个组,然后再对组与组之间进行联配,这一步用Myers和Miller算法实现。
实验内容:
1.明确软件所支持的输入文件格式,搜集整理出合适的数据;
2.在Windows环境运行Clustal X,在Linux环境运行Clustal W;
3.实验结果及分析,用TREEV32或Njplotwin95生成NJ聚类图。
实验报告:
1.整理好的符合Clustal的序列数据;
2.提交数据网页记录和各步骤记录;
3.提供聚类图和多序列联配图,并说明意义。
参考书目:
《生物信息学概论》 罗静初 等译,北京大学出版社,2002;
《生物信息学实验指导》 胡松年 等著,浙江大学出版社,2003。实验四 ESTS分析
实验目的:
熟悉使用一系列生物信息学分析工具对测序得到ESTs序列数据进行聚类处理,由此对获得表达基因的丰度等相关信息,并且对这些表达基因进行功能的初步诠释,为后续实验通过设计RACE引物获得全长基因,以及进一步的功能注
释和代谢途径分析做好准备。
实验原理:
首先用crossmatch程序去除ESTs原始序列中的载体成分和引物成分,然后用phrap生成congtig和singlet,用blast程序进一步将有同源性的contig和singlet进行功能聚类,最后通过blast对聚类获得的cluster进行功能注释。在实验过程中将用到一些本实验室写好的perl程序用于连接各数据库和工具软件。
实验内容:
1.运行CodonCode Aligner程序,并用它建立工程文件,导入例子文件
夹里面的数据;练习对序列的各种查看方式。
2.使用CodonCode Aligner程序里的Clip Ends, Trim Vector, Assemble
等功能,完成序列的剪切、去杂质、组装工作。
实验报告:
1.实验各步骤记录和中间结果文件;
2.举例简要说明结果文件中数据的生物学意义。
参考书目:
《生物信息学概论》 罗静初 等译,北京大学出版社,2002;
《基因表达序列标签(EST)数据分析手册》 胡松年 等著,浙江大学出版社,2005。
实验五 利用Primer Premier5.0设计
RACE引物
实验目的:
熟悉PCR引物设计工具Primer Premier5.0的一些基本功能,能够根据实验需要选择相应的引物设计方法设计PCR引物。
实验原理:
PCR实验是当代分子生物学的基本实验之一,由于目标序列和实验目的的不同,相应设计引物的要求也不一样。本实验延续ESTs分析结果,对于其中需要获得全长的基因进行RACE引物的设计,及5’和3’RACE引物,配合接头序列设计单向引物,并模拟练习通过连接获得全长的基因CDS序列。最后设计已知全长基因序列的PCR扩增引物。
实验内容:
1.从网站下载并安装Primer Premier5.0;
2.从 GenBank 中任意获取一个 DNA 序列,设计出该序列的合适引物; 实验报告:
1.实验各步骤使用的数据、运算平台、结果文件记录;
2.比较不同引物设计平台和不同PCR实验的差别;
参考书目:
《生物信息学概论》 罗静初 等译,北京大学出版社,2002;《生物信息学实验指导》 胡松年 等著,浙江大学出版社,2003。
实验八 perl程序的安装、编写、调试 实验目的:
培养学生能在windows和Linux两种平台安装perl解释器、编写perl程序以及debug和运行的能力,熟悉perl语言基本语法,学会熟练编写和运用perl程序进行基础生物信息学研究。
实验原理:
Perl语言是一门通用的脚本语言,具有强大的字符串处理功能,是生物信息学研究的强大帮手,学会了perl语言,就能方便地处理生物信息学研究中遇到的各种字符串文本,促进研究的快速进行。
实验内容:
1.下载perl程序在Windows和Linux下的安装包并进行安装;
2.编写简单的perl程序,并学会debug;
3.编写具有简单功能的碱基处理perl程序。
实验报告:
1.perl解释器安装方法;
2.perl解释器debug方法;
3.讨论:perl语言在生物信息学研究中所起到的积极作用。
参考书目:
《PERL 编程24学时教程》(美)皮尔斯著 王建华等译,机械工业出版社,2000;
《生物信息学手册》 郝柏林 等著,上海科技出版社,2004;《生物信息学实验指导》 胡松年 等著,浙江大学出版社,2003
第四篇:生物信息学
浅谈对生物信息学的认识
摘要生物信息学是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、储存、传递、检索、分析和解读的科学, 是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。经过一学期的学习,我学到了很多很有用的知识,给我印象最深的有序列比对、蛋白质结构分析、核酸序列分析、数据库及数据库检索等内容。关键字:生物信息学认识基因组学数据库
时光飞逝,一学期马上就要结束了,本学期的专业选修课也即将结束。在上课之前,我一直认为生物信息学就是在讲关于人类及动物的基因,以及基因之间的差别。但是,刚上了几节课,我就发现生物信息学根本不是我想象的那么简单,就这样我怀着对自己的怀疑和对这门课的好奇走进了这门课。
生物信息学是一门新兴的、正在迅速发展的交叉学科,美国国家基因组研究中心认为, 生物信息学是一个代表生物学、数学和计算机的综合力量的新兴学(Bioinformatics is an emerging scientific discipline representing the combined power of biology,mathematics, and computers)。
现代生物信息学是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、储存、传递、检索、分析和解读的科学, 是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。
在这短短的一学期课中,在老师的带领下,我们学到了很多关
于生物信息学的知识,其中给我印象最深的有序列比对、蛋白质结
构分析、核酸序列分析、数据库及数据库检索等内容。
比如,序列比对,它的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从生物学角度来看,它包含很多意义;如从
相互重叠的序列片段中重构DNA的完整序列等。老师主要给我们介
绍了blast比对。
再如,对蛋白质的分析。比如我们实验测定了一条蛋白质序列
或者从DNA序列翻译得来一条蛋白质序列,我们要借助生物信息学
方法来对它进行基本性质及结构分析。其中基本性质包括它的分子
量、氨基酸数目、排列顺序、等电点分析等。结构分析包括跨膜螺
旋分析等。要运用的工具是protparam tool 和TMHMM。对于这两
个工具我都进行了实际操作练习,我觉得这对我们以后的理论学习
和实验分析都非常重要。现代生物信息学的主要研究领域及其进展
1、基因组学和蛋白组学研究
基因组和蛋白组研究是生物信息学的主要内容.同样, 生物信息
学是基因组和蛋白组研究中必不可少的工具。
基因组学(Genomics)和蛋白组学(Proteomics)的实质就是分析和解读核酸和蛋白质序列中所表达的结构与功能的生物信息.这方面的研究已成为生物信息学的主要研究内容之一.一种生物的全部遗传构成被称为该种生物的基因组.有关基因组的研究称为基因组学.其中, 序列基因组学(Sequence genomics)主要研究测序和核苷酸序列;结构基因组学(Structural genomics)着重于遗传图谱、物理图谱和测序等方面的研究;功能基因组学
(Functional genomics)则研究以转录图为基础的基因组表达图谱;比较基因组学(Comparative ge2nomics)的研究内容包括对不同进化阶段基因组的比较和不同种群和群体基因组的比较。
蛋白组和蛋白组学的概念是随基因组和基因组学的出现而出现的.蛋白组(proteme)的概念是由于基因表达水平并不能代表细胞中活性蛋白质的数量, 基因组序列并不能描述活性蛋白质所必需的翻译后修饰和反映蛋白质种类和含量的动态变化过程而提出的.在一定条件下某一基因组蛋白质表达的数量类型称为蛋白组, 代表这一有机体全部蛋白质组成及其作用方式.有关蛋白组的研究称为蛋白组学.其中, 蛋白组的研究技术与方法、双向凝胶电泳图谱以及对不同条件下蛋白组变化的比较分析是蛋白组学的主要研究内容。生物信息学在基因组和蛋白组研究中所起的作用主要有:(1)基因组信息结构的计算分析.即对基因组数据进行大规模并行计算并预测各种新基因和功能位点, 研究大量非编码区序列的信息结构和可能的生物学意义。(2)模式生物全基因组信息结构的比较研究.即
对已完成全基因组测序的各种模式生物的基因组信息结构进行比较分析, 包括同源序列的搜索比较和指导基因克隆.(3)功能基因组的相关信息分析, 包括对基因表达图谱及其相关算法和软件的研究, 与功能基因组信息相关的核酸、蛋白质的空间结构的预测模拟以及蛋白质的功能预测。
2、生物信息数据库
复杂的生物和生物界和日新月异的生命科学研究产出的大量的生物学信息,对这些信息的储存、检索、比较分析必须借助于计算机数据库技术, 包括各类生物学信息数据库的建立与维护、数据的添加与注释、更新与查询、数据库资料的网络化等研究内容。现有的数据库有:核酸序列数据库(GenBank、EMBL、DDBJ)、基因组数据库、基因图谱数据库、蛋白质序列数据库(SWTSS-
PROT、PIR)和蛋白质结构数据库(Interpro)等。随着生命科学的不断发展,数据库种类不断增加、结构日益复杂、使用也越来越方便。
生物信息学作为一门新兴学科已经成为生命科学研究中必不可少的研究手段 本文对数据库与数据库搜索序列比对蛋白质结构预测药物设计基因芯片技术几个方面做了介绍较为系统地阐述了生物信息学在这些领域的应用 当然它所涉及的内容与方法远远不只上面提到的那些 新基因和 的发现与鉴定非编码区信息结构分析遗传密码的起源和生物进化完整基因组的比较
研究 大规模基因功能表达谱的分析等都是生物信息学研究的对象 相信不久的将来生物信息学会在生命
科学领域扮演越来越重要的角色。
参考文献:
1、现代生物信息学及其主要研究领域 萧浪涛(湖南农业大学理学院, 湖南长沙 410128)
2、生物信息学技术进展 郭志云 张怀渝 梁龙 军事医学科学院 生物工程研究所,北京100071;四川农业大学生命科学及理学院,雅安 6250143、利用生物信息学技术研究蛋白功能的几种方法 王剑利 杨章民综述 王一理审阅 西安交通大学医学院免疫病理学研究室(西安, 710061)
第五篇:生物信息学研究进展
我国生物信息学发展现状及展望
摘要:简要叙述了我国生物信息学发展现状,以及我国当前生物信息学发展中的一些问题,并对生物信息学的发展前景进行概述。
关键词:生物信息学 现状 展望
1生物信息学简介
生物信息学(Bioinformatics)是20世纪末才诞生的一门新学科,是信息技术在生物数据处理上的应用,该学科涉及分子生物学技术、计算机信息技术、数据库技术等多门学科,是生物学、数学、物理学、计算机科学等众多学科交叉的新兴学科。它主要利用计算机信息处理工具和软件对分子生物学实验数据进行加工和分析,从中发现有价值的信息,它是生命科学的前沿学科,其数据信息主要来自于人类及各种模式生物基因组的分子数据,包括DNA、RNA和蛋白质片断的序列数据,也有蛋白质的结构数据和经过计算机处理的分子数据。
2国内生物信息学发展状况
我国生物信息学研究近年来发展较快,相继成立了北京大学生物信息学中心、华大基因组信息学研究中心、中国科学院上海生命科学院生物信息中心,部分高校已经或准备开设生物信息学专业。2002年国家自然科学基金委在生物化学、生物物理学与生物医学工程学学科设立了生物信息学项目,并列入生命科学部优先资助的研究项目。国家 863计划特别设立了生物信息技术主题,从国家需求的层面上推动我国生物信息技术的大力发展。
但是由于起步较晚及诸多原因,我国的生物信息学发展水平远远落后于国外。在PubMed收录的以关键词“Bioinformatics”检索到的历年发表的文章数,可以看出大量的研究文献出现在21世纪以后。其中我国共有138篇占全部5548篇的2.5%,而美国则发表2160篇占全部的39%之多(统计数据截至2004年2月15日)。我国学者在生物信息学领域发表的有高影响力的论文只有不到美国学者发表数量的6%,差距相当大。在生物信息学领域,一些著名院士和教授在各自领域取得了一定成绩,显露出蓬勃发展的势头,有的在国际上还占有一席之地。如北京大学的罗静初和顾孝诚教授在生物信息学网站建设方面、中科院生物物理所的陈润生研究员在EST序列拼接方面以及在基因组演化方面、天津大学的张春霆院士在DNA序列的几何学分析方面、中科院理论物理所郝柏林院士、清华大学的李衍达院士和孙之荣教授、内蒙古大学的罗辽复教授、上海的丁达夫教授等等。北京大学于1997年3月成立了生物信息学中心,这个中心在1996年欧洲EMBNet扩大到欧洲之外时已正式成为中国结点(每个国家只有一个结点),目前已有60多种生物数据库的经常更新的镜像点。近年来,它已组织过多次国内和地区的培训班及会议,有着较广泛的国际联系。另外,中国科学院、中国医学科学院、军事医学科学院、清华大学、天津大学、浙江大学、复旦大学、哈尔滨工业大学、东南大学、中山大学、内蒙古大学等等都先后开展了生物信息学研究和教学工作,许多大学都设立了生物信息学专业,并同时招收本科、硕士、博士研究生。
各种学术会议及论坛的召开,对于促进我国在这一前沿领域的发展起着越来越重要的作用。中国科学院于1997年9月和12月召开了第80、87次香山会议,首次邀请有关专家就“DNA芯片的现状与未来”和“生物信息学”进行探讨。1999年3月,清华大学生物信息学研究所、国家人类基因组北方研究中心和北京生物技术和新医药产业促进中心共同举办了“北方生物信息学学术研讨会”。1999年4月,北京大学举办了“国际生物信息学讲习班”。2001年4月,由北京市科技委员会、中国人类基因组北方研究中心、中国人类基因组南方研究中心、北京华大基因研究中心、军事医学科学院、北京生物工程学会生物信息学专业委
员会、北京生物技术和新医药产业促进中心等共同举办的首届“中国生物信息学大会”在北京召开。2003年11月28-29日,中国科协“生物信息学与进化计算”第81次青年科学家论坛在北京中国科技会堂成功召开。这次论坛是中国科协举办的一次多学科交叉的盛会,旨在促进国内青年科学家在这一全新领域内的相互交流,促进该学科的成长与发展。这是国内首次以“生物信息学”为主题的一次多学科交叉的青年科学家论坛。与会者一致认为系统生物学、非编码区功能研究、基因调控和相互作用网络等是当前生物信息学研究的热点问题。
尽管如此,真正开展生物信息学具体研究和服务的机构或公司仍相对较少,仅有的几家科研机构主要开展生物信息学理论研究,声称提供生物信息学服务的公司所提供的服务也仅局限于简单的计算机辅助分子生物学实验设计,而且服务体系并不完善;国内互联网上已有的几家生物信息学网站,大部分偏于所有生物(医)学领域的新闻报道,而生物信息学专业技术服务的含量太少,这就与国外有了较大差距。
3我国生物信息学发展中存在的问题
一方面,在生物信息学研究领域,一般的教授、教师能力有限,有些甚至对生物信息学本身知其一不知其二,缺乏正规的训练,很少了解目前的研究重点、热点和今后方向。由于所申请的经费支持力度和持续时间原因,大多数学者只能选择易于获得研究成果的科研项目,一般缺乏新颖性和创造性。这可能与我们国家处于快速发展阶段的“短平快”思路和环境有关。另一方面,可能是教育体制上的原因,科研项目的分配问题、行政管理中存在的问题,传统教育不鼓励学生进行批判性、创新性地学习和思考的问题,也可能是症结所在。另外,生物信息学对信息交流有很高的要求,尤其是Internet的畅通,我国曾经有人为的限制访问或限制流量这些今后回顾时会成为苦涩消化的举措[6]。目前我国的科研经费真正投入并落到实处的占国家GDP的份额还很小,科研经费问题进一步限制了生物信息学在我国的发展。
4展望
生物信息学作为一门新兴的工程技术学科,对刚起步的我们来说充满了机会和挑战,“后基因组时代”给我国的生物信息学发展提供了很大的舞台。生物信息学首先是一门信息学,所以我们必须端正一些可能的认识错误,必须呼吁引导更多的计算机、数学、物理学人才加入到其中的研究。统计学、概率论、组合数学(尤其是图论)、拓扑学、运筹学、函数论、信息学、计算数学、群论、人工智能,都已经在生物信息学研究中发挥了巨大的作用。我们应尽快缩小我国在计算机信息学的核心技术、巨型计算机的应用以及互联网核心技术方面与世界领先国家的差距。生物信息学的发展对生物学、医学、农业、环境科学、信息技术以及新材料的研究必将起到深刻的作用,生物信息学进一步深入研究和广泛应用必将为这些领域带来根本性的变革。生物信息学的特点是投资少,见效快,效益大,适合于我国的现实条件。即从英特网上源源不断地采集数据,进行分析、归类与重组,发现新线索、新现象和新规律,用以指导实验工作的设计,这是一条既快又省的科研路线,可避免不必要的重复,少走弯路,提高我国生物科学的研究水平。