生物信息学范文

时间:2023-02-27 19:58:30

生物信息学

生物信息学范文第1篇

《生物信息学》(CN:23-1513/Q)是一本有较高学术价值的大型季刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度,颇受业界和广大读者的关注和好评。

《生物信息学》主要报道国内外生物信息技术研究开发的重要成果,主要刊载生物信息及相关领域的研究进展、综述、研究论文、研究简报、技术与方法、专题评论等学术文章。

生物信息学范文第2篇

一、整合生物信息学的研究领域

尽管目前一般意义上的生物信息学还局限在分子生物学层次,但广义上的生物信息学是可以研究生物学的任何方面的。生命现象是在信息控制下不同层次上的物质、能量与信息的交换,不同层次是指核酸、蛋白质、细胞、器官、个体、群体和生态系统等。这些层次的系统生物学研究将成为后基因组时代的生物信息学研究和应用的对象。随着在完整基因组、功能基因组、生物大分子相互作用及基因调控网络等方面大量数据的积累和基本研究规律的深入,生命科学正处在用统一的理论框架和先进的实验方法来探讨数据间的复杂关系,向定量生命科学发展的重要阶段。采用物理、数学、化学、力学、生物等学科的方法从多层次、多水平、多途径开展交叉综合研究,在分子水平上揭示生物信息及其传递的机理与过程,描述和解释生命活动规律,已成生命科学中的前沿科学问题(摘自:国家“十一五”生命科学发展规划),为整合生物信息学的发展提供了数据资源和技术支撑。

当前,由各种Omics组学技术,如基因组学(DNA测序),转录组学(基因表达系列分析、基因芯片),蛋白质组学(质谱、二维凝胶电泳、蛋白质芯片、X光衍射、核磁共振),代谢组学(核磁共振、X光衍射、毛细管电泳)等技术,积累了大量的实验数据。约有800多个公共数据库系统和许多分析工具可利用通过互联网来解决各种各样的生物任务。生物数据的计算分析基本上依赖于计算机科学的方法和概念,最终由生物学家来系统解决具体的生物问题。我们面临的挑战是如何从这些组学数据中,利用已有的生物信息学的技术手段,在新的系统层次、多水平、多途径来了解生命过程。整合生物信息学便承担了这一任务。

图1简单描述了生物信息学、系统生物学与信息学、生物学以及基因组计划各个研究领域的相关性。可以看出基因组计划将生物学与信息学前所未有地结合到了一起,而生物信息学的兴起是与人类基因组的测序计划分不开的,生物信息学自始至终提供了所需的技术与方法,系统生物学强调了生物信息学的生物反应模型和机理研究,也是多学科高度交叉,促使理论生物学、生物信息学、计算生物学与生物学走得更近,也使我们研究基因型到表型的过程机理更加接近。虚线范围代表整合生物信息学的研究领域,它包括了基因组计划的序列、结构、功能、应用的整合,也涵盖了生物信息学、系统生物学技术与方法的有机整合。

整合生物信息学的最大特点就是整合,不仅整合了生物信息学的研究方法和技术,也是在更大的层次上整合生命科学、计算机科学、数学、物理学、化学、医学,以及工程学等各学科。其生物数据整合从微观到宏观,应用领域整合涉及工、农、林、渔、牧、医、药。本文将就整合生物信息学的生物数据整合、学科技术整合及其他方面进行初步的介绍和探讨。

二、生物数据挖掘与整合

生物系统的不同性质的组分数据,从基因到细胞、到组织、到个体的各个层次。大量组分数据的收集来自实验室(湿数据)和公共数据资源(干数据)。但这些数据存在很多不利于处理分析的因素,如数据的类型差异,数据库中存在大量数据冗余以及数据错误;存储信息的数据结构也存在很大的差异,包括文本文件、关系数据库、面向对象数据库等;缺乏统一的数据描述标准,信息查询方面大相径庭;许多数据信息是描述性的信息,而不是结构化的信息标示。如何快速地在这些大量的包括错误数据的数据量中获取正确数据模式和关系是数据挖掘与整合的主要任务。

数据挖掘是知识发现的一个过程,其他各个环节,如数据库的选择和取样,数据的预处理和去冗余,错误和冲突,数据形式的转换,挖掘数据的评估和评估的可视化等。数据挖掘的过程主要是从数据中提取模式,即模式识别。如DNA序列的特征核苷碱基,蛋白质的功能域及相应蛋白质的三维结构的自动化分类等。从信息处理的角度来说,模式识别可以被看作是根据一分类标准对外来数据进行筛选的数据简化过程。其主要步骤是:特征选择,度量,处理,特征提取,分类和标识。现有的数据挖掘技术常用的有:聚类、概念描述、连接分析、关联分析、偏差检测和预测模型等。生物信息学中用得比较多的数据挖掘的技术方法有:机器学习,文本挖掘,网络挖掘等。

机器学习通常用于数据挖掘中有关模式匹配和模式发现。机器学习包含了一系列用于统计、生物模拟、适应控制理论、心理学和人工智能的方法。应用于生物信息学中的机器学习技术有归纳逻辑程序,遗传算法,神经网络,统计方法,贝叶斯方法,决策树和隐马尔可夫模型等。值得一提的是,大多数数据挖掘产品使用的算法都是在计算机科学或统计数学杂志上发表过的成熟算法,所不同的是算法的实现和对性能的优化。当然也有一些人采用的是自己研发的未公开的算法,效果可能也不错。

大量的生物学数据是以结构化的形式存在于数据库中的,例如基因序列、基因微阵列实验数据和分子三维结构数据等,而大量的生物学数据更是以非结构化的形式被记载在各种文本中,其中大量文献以电子出版物形式存在,如PubMed Central中收集了大量的生物医学文献摘要。

文本挖掘就是利用数据挖掘技术在大量的文本集合中发现隐含的知识的过程。其任务包括在大量文本中进行信息抽取、语词识别、发现知识间的关联等,以及利用文本挖掘技术提高数据分析的效率。近年来,文本挖掘技术在生物学领域中的应用多是通过挖掘文本发现生物学规律,例如基因、蛋白及其相互作用,进而对大型生物学数据库进行自动注释。但是要自动地从大量非结构性的文本中提取知识,并非易事。目前较为有效的方法是利用自然语言处理技术NLP,该技术包括一系列计算方法,从简单的关键词提取到语义学分析。最简单的NLP系统工作通过确定的关键词来解析和识别文档。标注后的文档内容将被拷贝到本地数据库以备分析。复杂些的NLP系统则利用统计方法来识别不仅仅相关的关键词,以及它们在文本中的分布情况,从而可以进行上下文的推断。其结果是获得相关文档簇,可以推断特定文本内容的特定主题。最先进的NLP系统是可以进行语义分析的,主要是通过分析句子中的字、词和句段及其相关性来断定其含义。

生物信息学离不开Internet网络,大量的生物学数据都储存到了网络的各个角落。网络挖掘指使用数据挖掘技术在网络数据中发现潜在的、有用的模式或信息。网络挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。根据对网络数据的感兴趣程度不同,网络挖掘一般还可以分为三类:网络内容挖掘、网络结构挖掘、网络用法挖掘。网络内容挖掘指从网络内容/数据/文档中发现有用信息,网络内容挖掘的对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。网络结构挖掘的对象是网络本身的超连接,即对网络文档的结构进行挖掘,发现他们之间连接情况的有用信息(文档之间的包含、引用或者从属关系)。在网络结构挖掘领域最著名的算法是HITS算法和PageRank算法(如Google搜索引擎)。网络用法挖掘通过挖掘相关的网络日志记录,来发现用户访问网络页面的模式,通过分析日志记录中的规律。通常来讲,经典的数据挖掘算法都可以直接用到网络用法挖掘上来,但为了提高挖掘质量,研究人员在扩展算法上进行了努力,包括复合关联规则算法、改进的序列发现算法等。

网络数据挖掘比单个数据仓库的挖掘要复杂得多,是一项复杂的技术,一个难以解决的问题。而XML的出现为解决网络数据挖掘的难题带来了机会。由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多个异质数据库成为可能,从而为解决网络数据挖掘难题带来了希望。随着XML作为在网络上交换数据的一种标准方式,目前主要的生物信息学数据库都已经提供了支持XML的技术,面向网络的数据挖掘将会变得非常轻松。如使用XQuery 标准查询工具,完全可以将 Internet看作是一个大型的分布式XML数据库进行数据浏览获取、结构化操作等。

此外,数据挖掘还要考虑到的问题有:实时数据挖掘、人为因素的参与、硬件设施的支持、数据库的误差问题等。

一般的数据(库)整合的方法有:联合数据库系统(如ISYS和DiscoveryLink), 多数据库系统(如TAMBIS)和数据仓库(如SRS和Entrez)。这些方法因为在整合的程度,实体化,查询语言,应用程序接口标准及其支持的数据输出格式等方面存在各自的特性而各有优缺点。同时,指数增长的生物数据和日益进步的信息技术给数据库的整合也带来了新的思路和解决方案。如传统的数据库主要是提供长期的实验数据存储和简便的数据访问,重在数据管理,而系统生物学的数据库则同时对这些实验数据进行分析,提供预测信息模型。数据库的整合也将更趋向数据资源广、异质程度高、多种数据格式、多途径验证(如本体学Ontology的功能对照)、多种挖掘技术、高度智能化等。

三、生命科学与生物信息学技术的整合

生物信息学的研究当前还主要集中在分子水平,如基因组学/蛋白质组学的分析,在亚细胞、细胞、生物组织、器官、生物体及生态上的研究才刚刚开始。从事这些新领域的研究,理解从基因型到表型的生命机理,整合生物信息学将起到关键性的作用。整合生物信息学将从系统的层次多角度地利用已有的生物、信息技术来研究生命现象。另外,由其发展出的新方法、新技术,其应用潜力也是巨大的。图2显示了生命科学与生物信息学技术的整合关系。

目前生命科学技术如基因测序、QTL定位、基因芯片、蛋白质芯片、凝胶电泳、蛋白双杂交、核磁共振、质谱等实验技术,可以从多方面,多角度来分析研究某一生命现象,从而针对单一的实验可能就产生大量的不同层次的生物数据。对于每个技术的数据分析,都有了大量的生物信息学技术,如序列分析、motif寻找、基因预测、基因注解、RNA分析、基因芯片的数据分析、基因表达分析、基因调控网络分析、蛋白质表达分析、蛋白质结构预测和分子模拟、比较基因组学研究、分子进化和系统发育分析、生物学系统建模、群体遗传学分析等。整合生物信息学就是以整合的理论方法,通过整合生物数据,整合信息技术来推动生命科学干实验室与湿实验室的组合研究。其实践应用涉及到生物数据库的整合、功能基因的发现、单核苷酸多态性/单体型的了解、代谢疾病的机理研究、药物设计与对接、软件工具以及其他应用。

在整合过程中,还应该注意以下几方面内容:整合数据和文本数据挖掘方法,数据仓库的设计管理,生物数据库的错误与矛盾,生物本体学及其质量控制,整合模型和模拟框架,生物技术的计算设施,生物信息学技术流程优化管理,以及工程应用所涉及的范围。

四、学科、人才的整合

整合生物信息学也是学科、教育、人才的整合。对于综合性高等院校,计算机科学/信息学、生物学等学科为生物信息学的发展提供了学科基础和保障。如何充分利用高校雄厚的学科资源,合理搭建生物信息学专业结构,培养一流的生物信息学人才,是我们的任务和目标。

计算机科学/信息学是利用传统的计算机科学,数学,物理学等计算、数学方法,如数据库、数据发掘、人工智能、算法、图形计算、软件工程、平行计算、网络技术进行数据分析处理,模拟预测等。生物信息学的快速发展给计算机科学也带来了巨大的挑战和机遇,如高通量的数据处理、储存、检索、查询,高效率的算法研究,人工智能的全新应用,复杂系统的有效模拟和预测。整合生物信息学的课程设计可以提供以下课程:Windows/Unix/Linux操作系统、C++/Perl/Java程序设计、数据库技术、网络技术、网络编程、SQL、XML相关技术、数据挖掘,机器学习、可视化技术、软件工程、计算机与网络安全、计算机硬件、嵌入式系统、控制论、计算智能,微积几何、概率论、数理统计、线性代数、离散数学、组合数学、计算方法、随机过程、常微分方程、模拟和仿真、非线性分析等等。

生物学是研究生命现象、过程及其规律的科学,主要包括植物学等十几个一级分支学科。整合生物信息学的课程设计可以提供以下课程:普通生物学、生物化学、分子生物学、细胞生物学、遗传学、分子生物学、发育生物学、病毒学、免疫学、流行病学、保护生物学、生态学、进化生物学、神经生物学、基础医学、生物物理学、细胞工程、基因工程、分子动力学、生物仪器分析及技术、植物学、动物学、微生物学及其他生物科学、生物技术专业的技能课程。

作为独立学科的生物信息学,其基本的新算法,新技术,新模型,新应用的研究是根本。课程涉及到生物信息学基础、生物学数据库、生物序列与基因组分析、生物统计学、生物芯片数据分析、蛋白质组学分析、系统生物学、生物数据挖掘与知识发现、计算生物学、药物设计、生物网络分析等。另外,整合生物信息学的工程应用,也需要了解以下学科,如生物工程、生物技术、医学影像、信号处理、生化反应控制、生物医学工程、数学模型、试验设计、农业系统与生产等。

此外,整合生物信息学的人才培养具有很大的国际竞争压力,培养优秀的专业人才,必须使其具备优良的生物信息科学素养,具有国际视野,知识能力、科研创新潜力俱佳的现代化一流人才。所以要始终紧跟最新的学术动态和发展方向,整合学科优势和强化师资力量,促进国际交流。

五、总结及展望

二十一世纪是生命科学的世纪,也是生物信息学快速不断整合发展的时代,整合生物学的研究和应用将对人类正确认识生命规律并合理利用产生巨大的作用。比如进行虚拟细胞的研究,整合生物信息学提供了从基因序列,蛋白结构到代谢功能各方面的生物数据,也提供了从序列分析,蛋白质拓扑到系统生物学建模等方面的信息技术,从多层次、多水平、多途径进行科学研究。

整合生物信息学是基于现有生物信息学的计算技术框架对生命科学领域的新一轮更系统全面的研究。它依赖于生物学,计算机学,生物信息学/系统生物学的研究成果(包括新数据、新理论、新技术和新方法等),但同时也给这些学科提供了更广阔的研究和应用空间,并推动整个人类科学的进程。

我国的生物信息学教育在近几年已经有了长足的进步和发展。未来整合生物信息学人才的培养还需要加强各学科有效交叉,尤其是计算机科学,要更紧密地与生命科学结合起来,共同发展,让我们的生命科学、计算机科学和生物信息学的教育和科研走得更高更前沿。

作者简介:

陈铭,德国Bielefeld大学生物信息学博士,浙江大学生命科学学院副教授,生物信息学系副主任(主持工作),研究方向:生物信息学,系统生物学。

生物信息学范文第3篇

关键词:推荐系统;生物信息学

推荐系统(RecommenderSystem)[1]是个性化信息服务的主要技术之一,它实现的是“信息找人,按需服务”;通过对用户信息需要、兴趣爱好和访问历史等的收集分析,建立用户模型,并将用户模型应用于网上信息的过滤和排序,从而为用户提供感兴趣的资源和信息。生物信息学(Bioinformatics)[2,3]是由生物学、应用数学和计算机科学相互交叉所形成的一门新型学科;其实质是利用信息科学的方法和技术来解决生物学问题。20世纪末生物信息学迅速发展,在信息的数量和质量上都极大地丰富了生物科学的数据资源,而数据资源的急剧膨胀需要寻求一种科学而有力的工具来组织它们,基于生物信息学的二次数据库[4]能比较好地规范生物数据的分类与组织,但是用户无法从大量的生物数据中寻求自己感兴趣的部分(著名的生物信息学网站NCBI(美国国立生物技术信息中心),仅仅是小孢子虫(Microsporidia)的DNA序列就达3399种),因此在生物二次数据库上建立个性化推荐系统,能使用户快速找到自己感兴趣的生物信息。特别是在当前生物信息数据量急剧增长的情况下,生物信息学推荐系统将发挥强大的优势。

1推荐系统的工作流程

应用在不同领域的推荐系统,其体系结构也不完全相同。一般而言,推荐系统的工作流程[5]如图1所示。

(1)信息获取。推荐系统工作的基础是用户信息。用户信息包括用户输入的关键词、项目的有关属性、用户对项目的文本评价或等级评价及用户的行为特征等,所有这些信息均可以作为形成推荐的依据。信息获取有两种类型[6],即显式获取(Explicit)和隐式获取(Implicit),由于用户的很多行为都能暗示用户的喜好,因此隐式获取信息的准确性比显式高一些。

(2)信息处理。信息获取阶段所获得的用户信息,一般根据推荐技术的不同对信息进行相应的处理。用户信息的存储格式中用得最多的是基于数值的矩阵格式,最常用的是用m×n维的用户—项目矩阵R来表示,矩阵中的每个元素Rij=第i个用户对第j个项目的评价,可以当做数值处理,矩阵R被称为用户—项目矩阵。

(3)个性化推荐。根据形成推荐的方法的不同可以分为三种,即基于规则的系统、基于内容过滤的系统和协同过滤系统。基于规则的推荐系统和基于内容过滤的推荐系统均只能为用户推荐过去喜欢的项目和相似的项目,并不能推荐用户潜在感兴趣的项目。而协同过滤系统能推荐出用户近邻所喜欢的项目,通过用户与近邻之间的“交流”,发现用户潜在的兴趣。因此本文所用的算法是基于协同过滤的推荐算法。

(4)推荐结果。显示的任务是把推荐算法生成的推荐显示给用户,完成对用户的推荐。目前最常用的推荐可视化方法是Top-N列表[7],按照从大到小顺序把推荐分值最高的N个事物或者最权威的N条评价以列表的形式显示给用户。

2生物信息学推荐系统的设计

综合各种推荐技术的性能与优缺点,本文构造的生物信息学推荐系统的总体结构如图2所示。

生物信息学推荐系统实现的主要功能是在用户登录生物信息学网站时,所留下的登录信息通过网站传递到推荐算法部分;推荐算法根据该用户的用户名从数据库提取出推荐列表,并返回到网站的用户界面;用户访问的记录返回到数据库,系统定时调用推荐算法,对数据库中用户访问信息的数据进行分析计算,形成推荐列表。

本系统采用基于近邻的协同过滤推荐算法,其结构可以进一步细化为如图3所示。算法分为邻居形成和推荐形成两大部分,两部分可以独立进行。这是该推荐系统有别于其他系统的优势之一。由于信息获取后的用户—项目矩阵维数较大,使得系统的可扩展性降低。本系统采用SVD矩阵降维方法,减少用户—项目矩阵的维数,在计算用户相似度时大大降低了运算的次数,提高了推荐算法的效率。

(1)信息获取。用户对项目的评价是基于用户对某一个项目(为表示简单,以下提及的项目均指网站上的生物物种)的点击次数来衡量的。当一个用户注册并填写好个人情况以后,系统会自动为该用户创建一个“信息矩阵”,该矩阵保存了所有项目的ID号以及相应的用户评价,保存的格式为:S+编号+用户评价,S用于标记项目,每个项目编号及其评价都以“S”相隔开;编号是唯一的,占5位;用户评价是用户点击该项目的次数,规定其范围是0~100,系统设定当增加到100时不再变化。这样做可防止形成矩阵时矩阵评价相差值过大而使推荐结果不准确。(2)信息处理。信息处理是将所有用户的信息矩阵转换为用户—项目矩阵,使用户信息矩阵数值化,假设系统中有M个用户和N个项目,信息处理的目的就是创建一个M×N的矩阵R,R[I][J]代表用户I对项目J的评价。

(3)矩阵处理。协同过滤技术的用户—项目矩阵的数据表述方法所带来的稀疏性严重制约了推荐效果,而且在系统较大的情况下,它既不能精确地产生推荐集,又忽视了数据之间潜在的关系,发现不了用户潜在的兴趣,而且庞大的矩阵增加了计算的复杂度,因此有必要对该矩阵的表述方式做优化,进行矩阵处理。维数简化是一种较好的方法,本文提出的算法应用单值分解(SingularValueDecomposition,SVD)技术[8],对用户—项目矩阵进行维数简化。

(4)相似度计算。得到降维以后的用户矩阵US,就可以寻找每个用户的近邻。近邻的确定是通过两个用户的相似度来度量的。本文采用Pearson相关度因子[9]求相似度。(5)计算用户邻居。该方法有两种[10],即基于中心的邻居(Center-BasedNeighbor)和集合邻居(AggregateNeighbor)。本系统采用了第一种方法,直接找出与用户相似度最高的前N个用户作为邻居,邻居个数N由系统设定,比如规定N=5。

(6)推荐形成。推荐形成的前提是把当前用户的邻居ID号及其与当前用户的相似度保存到数据库中,而在前面的工作中已找出各用户的邻居以及与用户的相似度,推荐形成部分只需要对当前登录用户进行计算。推荐策略是:对当前用户已经访问过的项目不再进行推荐,推荐的范围是用户没有访问的项目,其目的是推荐用户潜在感兴趣的项目;考虑到系统的项目比较多,用户交互项目的数量很大,所以只筛选出推荐度最大的N个项目,形成Top-N推荐集,设定N=5。

3生物信息学推荐系统的实现

生物信息学推荐系统的实现可以用图4来表示。数据库部分主要存储用户信息和项目信息,用SQLServer2000实现。

数据访问层实现了与用户交互必需的存储过程以及触发器,也使用SQLServer2000,主要完成以下功能:初始化新用户信息矩阵;插入新项目时更新所有用户的信息矩阵;用户点击项目时更新该用户对项目的评价;删除项目时更新所有用户的信息矩阵。用户访问层主要涉及网页与用户的交互和调用数据访问层的存储过程,在这里不做详细的介绍。

推荐算法完成整个个性化推荐的任务,用Java实现。(1)数据连接类DataCon。该类完成与SQLServer2000数据库的连接,在连接之前必须要下载三个与SQLServer连接相关的包,即msutil.jar、msbase.jar和mssqlserver.jar。

(2)数据操作类DataControl。该类负责推荐算法与数据库的数据交换,静态成员Con调用DataCon.getcon()获得数据库连接,然后对数据库进行各种操作。把所有方法编写成静态,便于推荐算法中不创建对象就可以直接调用。

(3)RecmmendSource与CurrentUserNeighbor。这两个类作为FCRecommand类的内部类,RecmmendSource用于保存当前用户的推荐列表,包括推荐项目号和推荐度;CurrentUserNeighbor用于保存邻居信息,包括邻居ID号、相似度及其访问信息。

(4)协同过滤推荐算法FCRecommand。该类实现了整个推荐算法,主要分为邻居形成方法FCArithmetic和推荐形成方法GenerateRecommend。

下面给出方法FCArithmetic的关键代码:

Matrixuser_item=this.User_Item_Arry();//获取用户—项目矩阵

user_item=this.SVD_Calculate(user_item);//调用SVD降维方法

Vectorc_uservector=newVector();//当前用户向量

Vectoro_uservector=newVector();//其他用户向量

Vectorc_user_correlate_vector=newVector();

//当前用户与其他用户之间相似度向量

for(inti=0;ifor(intj=0;jc_uservector.addElement(user_item.get(i,j));

//1.获得当前用户向量

for(intk=0;ko_uservector.clear();

for(intl=0;lo_uservector.addElement(user_item.get(k,l));

//2.获得其他用户的向量

//3.计算当前用户与其他用户的相似度

usercorrelativity=this.Correlativity(c_uservector,o_uservector);

c_user_correlate_vector.addElement(usercorrelativity);

}

//4.根据当前用户与其他用户的相似度,计算其邻居

this.FindUserNeighbor(i,c_user_correlate_vector);

}

根据邻居形成方法FCArithmetic,可以得到每个用户的邻居。作为测试用例,图6显示用户Jack与系统中一部分用户的相似度,可以看出它与自己的相似度必定最高;并且它与用户Sugx访问了相同的项目,它们之间的相似度也为1,具有极高的相似度。

4结束语

在传统推荐系统的基础上,结合当前生物信息学网站的特点,提出一个基于生物信息平台的推荐系统,解决了传统生物信息网站平台信息迷茫的缺点,为用户推荐其感兴趣物种的DNA或蛋白质序列。

优点在于协同过滤的推荐算法能发现用户潜在的兴趣,能促进生物学家之间的交流;推荐算法的邻居形成与推荐形成两部分可以单独运行,减少了系统的开销。进一步的工作是分析生物数据的特点及生物数据之间的关系,增加用户和项目数量,更好地发挥推荐系统的优势。

参考文献:

[1]PAULR,HALRV.Recommendersystems[J].CommunicationsoftheACM,1997,40(3):56-58.

[2]陈新.生物信息学简介[EB/OL].(2001).166.111.68.168/bioinfo/papers/Chen_Xin.pdf.

[3]林毅申,林丕源.基于WebServices的生物信息解决方案[J].计算机应用研究,2005,22(6):157-158,164.[4]邢仲璟,林丕源,林毅申.基于Bioperl的生物二次数据库建立及应用[J].计算机系统应用,2004(11):58-60.

[5]AIRIAS,TAKAHISAA,HIROYAI,etal.Personalizationsystembasedondynamiclearning:InternationalSemanticWebConference[C].Sardinia:[s.n.],2002.

[6]BREESEJS,HECKERMAND,KADIEC.Empericalanalysisofpredictivealgorithmsforcollaborativefiltering:proceedingsoftheFourteenthConferenceonUniversityinArtificialIntelligence[C].Madison:WI,1998:43-52.

[7]SCHAFERJB,KONSTANJ,RIEDLJ.Recommendersystemsine-commerce:proceedingoftheACMConferenceonElectronicCommerce[C].Pittsburgh:PA,1999:158-166.

[8]PRYORMH.Theeffectsofsingularvaluedecompositiononcollaborativefiltering[EB/OL].(1998).www.cs.dartmouth.edu/reports/TR98-338.pdf.

[9]SARWARB,KARYPISG,KONSTANJ,etal.Analysisofrecommendationalgorithmsfore-commerce:proceedingsofthe2ndACMConferenceonElectronicCommerce[C].Minneapolis:[s.n.],2000:158-167.

生物信息学范文第4篇

[论文摘要]生物信息学是80年代以来新兴的一门边缘学科,信息在其中具有广阔的前景。伴随着人类基因组计划的胜利完成与生物信息学的发展有着密不可分的联系,生物信息学的发展为生命科学的发展为生命科学的研究带来了诸多的便利,对此作了简单的分析。

一、生物信息学的产生

21世纪是生命科学的世纪,伴随着人类基因组计划的胜利完成,与此同时,诸如大肠杆菌、结核杆菌、啤酒酵母、线虫、果蝇、小鼠、拟南芥、水稻、玉米等等其它一些模式生物的基因组计划也都相继完成或正在顺利进行。人类基因组以及其它模式生物基因组计划的全面实施,使分子生物数据以爆炸性速度增长。在计算机科学领域,按照摩尔定律飞速前进的计算机硬件,以及逐步受到各国政府重视的信息高速公路计划的实施,为生物信息资源的研究和应用带来了福音。及时、充分、有效地利用网络上不断增长的生物信息数据库资源,已经成为生命科学和生物技术研究开发的必要手段,从而诞生了生物信息学。

二、生物信息学研究内容

(一)序列比对

比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础。两个序列的比对现在已有较成熟的动态规划算法,以及在此基础上编写的比对软件包BALST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。有时两个序列总体并不很相似,但某些局部片断相似性很高。Smith-Waterman算法是解决局部比对的好算法,缺点是速度较慢。两个以上序列的多重序列比对目前还缺乏快速而又十分有效的算法。

(二)结构比对

比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。

(三)蛋白质结构预测

从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。

(四)计算机辅助基因识别

给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。

(五)非编码区分析和DNA语言研究

在人类基因组中,编码部分进展总序列的3-5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。

三、生物信息学的新技术

(一)Lipshutz(Affymetrix,Santaclara,CA,USA)

描述了一种利用DNA探针阵列进行基因组研究的方法,其原理是通过更有效有作图、表达检测和多态性筛选方法,可以实现对人类基因组的测序。光介导的化学合成法被应用于制造小型化的高密度寡核苷酸探针的阵列,这种通过软件包件设计的寡核苷酸探针阵列可用于多态性筛查、基因分型和表达检测。然后这些阵列就可以直接用于并行DNA杂交分析,以获得序列、表达和基因分型信息。Milosavljevic(CuraGen,Branford,CT,USA)介绍了一种新的基于专用定量表达分析方法的基因表达检测系统,以及一种发现基因的系统GeneScape。为了有效地抽样表达,特意制作片段模式以了解特定基因的子序列的发生和冗余程度。他在酵母差异基因表达的大规模研究中对该技术的性能进行了验证,并论述了技术在基因的表达、生物学功能以及疾病的基础研究中的应用。(二)基因的功能分析

Overton(UniversityofPennsylvaniaSchoolofMedicine,Philadelphia,PA,USA)论述了人类基因组计划的下一阶段的任务基因组水平的基因功能分析。这一阶段产生的数据的分析、管理和可视性将毫无疑问地比第一阶段更为复杂。他介绍了一种用于脊椎动物造血系统红系发生的功能分析的原型系统E-poDB,它包括了用于集成数据资源的Kleisli系统和建立internet或intranet上视觉化工具的bioWidget图形用户界面。EpoDB有可能指导实验人员发现不可能用传统实验方法得到的红系发育的新的药物靶,制药业所感兴趣的是全新的药物靶,EpoDB提供了这样一个机会,这可能是它最令人激动的地方。

Babbitt(UniversityofCalifornia,SanFrancisco,CA,USA)讨论了通过数据库搜索来识别远缘蛋白质的方法。对蛋白质超家族的结构和功能的相互依赖性的理解,要求了解自然所塑造的一个特定结构模板的隐含限制。蛋白质结构之间的最有趣的关系经常在分歧的序列中得以表现,因而区分得分低(low-scoring)但生物学关系显著的序列与得分高而生物学关系较不显著的序列是重要的。Babbit证明了通过使用BLAST检索,可以在数据库搜索所得的低得分区识别远缘关系(distantrelationship)。Levitt(Stanforduniveersity,PaloAlto,CA,USA)讨论了蛋白质结构预测和一种仅从序列数据对功能自动模建的方法。基因功能取决于基因编码的蛋白质的三级结构,但数据库中蛋白质序列的数目每18个月翻一番。为了确定这些序列的功能,结构必须确定。同源模建和从头折叠(abinitiofolding)方法是两种现有的互为补充的蛋白质结构预测方法;同源模建是通过片段匹配(segmentmatching)来完成的,计算机程弃SegMod就是基于同源模建方法的。

(三)新的数据工具

Letovsky(JohnshopkinsUniversity,Baltimore,MD,USA)介绍了GDB数据库,它由每条人类染色体的许多不同图谱组成,包括细胞遗传学、遗传学、放射杂交和序列标签位点(STS)的内容,以及由不同研究者用同种方法得到的图谱。就位置查询而言,如果不论其类型(type)和来源(source),或者是否它们正好包含用以批定感兴趣的区域的标志(markers),能够搜索所有图谱是有用的。为此目的,该数据库使用了一种公用坐标系统(commoncoordinatesystem)来排列这些图谱。数据库还提供了一张高分辨率的和与其他图谱共享许多标志的图谱作为标准。共享标志的标之间的对应性容许同等于所有其它图谱的标准图谱的分配。

Candlin(PEappliedBiosystems,FosterCity,CA,USA)介绍了一种新的存储直接来自ABⅠPrismdNA测序仪的数据的关系数据库系统BioLIMS。该系统可以与其它测序仪的数据集成,并可方便地与其它软件包自动调用,为测序仪与序列数据的集成提供了一种开放的、可扩展的生物信息学平台。

参考文献:

[1]LimHA,BatttR.TIBTECH,1998;16(3)):104.

生物信息学范文第5篇

一、正在出现的技术

Klingler(Lncytepharmaceuticals,PaloAlto,CA,USA)强调基因组学正推动制药业进入信息时代。随着不断增加的序列、表达和作图数据的产生,描述和开发这些数据的信息工具变得对实现基因组研究的任务至关重要。他谈到了Incytepharmaceuticals对大规模基因组数据和生物信息学的贡献。

Lipshutz(Affymetrix,Santaclara,CA,USA)描述了一种利用DNA探针阵列进行基因组研究的方法,其原理是通过更有效有作图、表达检测和多态性筛选方法,可以实现对人类基因组的测序。光介导的化学合成法被应用于制造小型化的高密度寡核苷酸探针的阵列,这种通过软件包件设计的寡核苷酸探针阵列可用于多态性筛查、基因分型和表达检测。然后这些阵列就可以直接用于并行DNA杂交分析,以获得序列、表达和基因分型信息。Milosavljevic(CuraGen,Branford,CT,USA)介绍了一种新的基于专用定量表达分析方法的基因表达检测系统,以及一种发现基因的系统GeneScape。为了有效地抽样表达,特意制作片段模式以了解特定基因的子序列的发生和冗余程度。他在酵母差异基因表达的大规模研究中对该技术的性能进行了验证,并论述了技术在基因的表达、生物学功能以及疾病的基础研究中的应用。

二、基因的功能分析

Overton(UniversityofPennsylvaniaSchoolofMedicine,Philadelphia,PA,USA)论述了人类基因组计划的下一阶段的任务——基因组水平的基因功能分析。这一阶段产生的数据的分析、管理和可视性将毫无疑问地比第一阶段更为复杂。他介绍了一种用于脊椎动物造血系统红系发生的功能分析的原型系统E-poDB,它包括了用于集成数据资源的Kleisli系统和建立internet或intranet上视觉化工具的bioWidget图形用户界面。EpoDB有可能指导实验人员发现不可能用传统实验方法得到的红系发育的新的药物靶,制药业所感兴趣的是全新的药物靶,EpoDB提供了这样一个机会,这可能是它最令人激动的地方。

Sali(Rockefelleruniversity,NewYork,NY,USA)讨论了同源蛋白质结构模建。比较蛋白质模建(comparativeproteinmodeling)也称为同源模建(homologymodeling),即利用实验确定的蛋白质结构为模式(模型)来预测另一种具有相似氨基酸序列的蛋白质(靶)的构象。此方法现在已经具有了足够的精确性,并且被认为效果良好,因为蛋白质序列的一个微小变化通常仅仅导致其三维结构的细微改变。

Babbitt(UniversityofCalifornia,SanFrancisco,CA,USA)讨论了通过数据库搜索来识别远缘蛋白质的方法。对蛋白质超家族的结构和功能的相互依赖性的理解,要求了解自然所塑造的一个特定结构模板的隐含限制。蛋白质结构之间的最有趣的关系经常在分歧的序列中得以表现,因而区分得分低(low-scoring)但生物学关系显著的序列与得分高而生物学关系较不显著的序列是重要的。Babbit证明了通过使用BLAST检索,可以在数据库搜索所得的低得分区识别远缘关系(distantrelationship)。Levitt(Stanforduniveersity,PaloAlto,CA,USA)讨论了蛋白质结构预测和一种仅从序列数据对功能自动模建的方法。基因功能取决于基因编码的蛋白质的三级结构,但数据库中蛋白质序列的数目每18个月翻一番。为了确定这些序列的功能,结构必须确定。同源模建和从头折叠(abinitiofolding)方法是两种现有的互为补充的蛋白质结构预测方法;同源模建是通过片段匹配(segmentmatching)来完成的,计算机程弃SegMod就是基于同源模建方法的。

三、新的数据工具

Letovsky(JohnshopkinsUniversity,Baltimore,MD,USA)介绍了GDB数据库,它由每条人类染色体的许多不同图谱组成,包括细胞遗传学、遗传学、放射杂交和序列标签位点(STS)的内容,以及由不同研究者用同种方法得到的图谱。就位置查询而言,如果不论其类型(type)和来源(source),或者是否它们正好包含用以批定感兴趣的区域的标志(markers),能够搜索所有图谱是有用的。为此目的,该数据库使用了一种公用坐标系统(commoncoordinatesystem)来排列这些图谱。数据库还提供了一张高分辨率的和与其他图谱共享许多标志的图谱作为标准。共享标志的标之间的对应性容许同等于所有其它图谱的标准图谱的分配。

Markowitz(LawrenceberkeleyLaboratory,Berkeley,CA,USA)讨论了分布式数据库与局部管理的关系,以及用基于工具的方法开发分子生物学数据库(MDBs)的问题。许多方案当前正在促进搜索多种不同来源MDBs的数据,包括建立数据仓库;这要求对各种MDBs的组合有一种全局观,并从成员MDBs中装填数据入中心数据库。这些方案的主要问题是开发整体视图(globalviews),构建巨大的数据仓库并使集成的数据库与不断发展中的成员MDBs同步化的复杂性。Markowitz还讨论了对象协议模型(objectprotocolmodel,OPM),并介绍了支持以下用途的工具:建立用于文本文件或者关系MDBs的OPM视图;将MDBs作成一个数据库目录,提供MDB名称、定位、主题、获取信息和MDB间链接等信息;说明、处理和解释多数据库查询。Karp(SRIinternational,MenloPark,CA,USA)解释了Ocelot,一种能满足管理生物学信息需求的面向对象知识陈述系统(一种面向对象系统的人工智能版)。Ocelot支持略图展开(schemaevolution)并采用一种新的最优化并行控制机制(同时进行多项访问数据的过程),其略图驱动图形编辑器提供了交互式浏览和编辑功能,其注释系统支持数据库开发者之间的结构通讯。

Riley(MarinebiologicalLaboratory,WoodsHole,MA,USA)在讨论大肠杆菌蛋白质的功能同时,特别提到了GPEC数据库,它包括了由实验确定的所有E.coli基因的功能的信息。该数据库中最大比例的蛋白质是酶,其次则为转运和调控蛋白。

Candlin(PEappliedBiosystems,FosterCity,CA,USA)介绍了一种新的存储直接来自ABⅠPrismdNA测序仪的数据的关系数据库系统BioLIMS。该系统可以与其它测序仪的数据集成,并可方便地与其它软件包自动调用,为测序仪与序列数据的集成提供了一种开放的、可扩展的生物信息学平台。

Glynais(NetGenics,Cleveland,OH,USA)认为生物信息学中最关键的问题之一是软件工具和数据库缺乏灵活性。但是,软件技术的发展已得到了其它领域如金融业和制造业的发展经验的借鉴,可以使来自不同软件商的运行于各种硬件系统的软件共同工作。这种系统的国际标准是CORBA,一种由250多个主要软件和硬件公司共同合作开发的软件体系。联合使用CORBA和Java可以开发各种通过一个公用用户界面访问任何种类的数据或软件工具的网络应用软件,也包括生物信息学应用软件。Overton不同意Glynias的这种想法,他强调说CORBA仅对软件集成有用,不兼容的数据库软件可能是计算生物学所面临的最困难问题,一些制药公司和数据库仓库最近资助了一项用OCRBA链接不同的数据库的计划[2,3]。

四、制药先导的发现

Burgess(Sturcturalbioinformatics,SanDiego,CA,USA)讨论了填补基因组学和药物设计之间鸿沟的蛋白质结构中的计算问题。在缺乏主要疾病基因或药物靶的精确描述数据的情况下,药物设计者们不得不采用大规模表达蛋白质筛选方法;而结构生物信息学则采用一种更为实用有效的计算方法直接从序列数据中确定靶蛋白质的活性位点的精细结构特征,它利用一种集成专家系统从现实的或虚拟的化学文库中进行迅速的计算筛选,可以达到一个很大的规模。

Elliston(Genelogic,Columbia,MD,USA)讨论了治疗药物开发中发现新的分子靶的过程,着重讨论了基因发现方法。他认为,随着日益临近的人类基因组测序的完成,几乎全部基因的特征将在序列水平得到揭示。但是,对基因的认识将有赖于更多的信息而不仅仅是序列,需要考虑的第一类信息是转录表达水平信息,而Genelogic公司的GeneExpress就是一个由mRNA表达谱、转录因子位点、新基因和表达序列标签组成的数据库。

Liebman(Vysis,Downessgrove,IL,USA)介绍了Vysis公司开发的计算和实验方法,这些主法不仅用于管理序列数据,而且被用于以下用途:分析临床数据库和自然—突变数据库;开发新的算法以建立功能同源性(区别于序列同源性)模拟生物学通路以进行风险评估;药物设计的靶评估;联系复杂的通路特性以便识别副作用;开发疾病发展的定性模型并解释临床后果。

随着发现的新基因的日益增多,这个问题显得格外重要:基因的功能是什么?Escobedo(Chirontechnologies,Emeryville,CA,USA)提出了这个问题的一种方法:将分泌蛋白质的基因的功能克隆与筛选这些克隆(可能的药物靶)结合起来。在这种方法中,在微粒体cDNA文库池中进行体外翻译避免了劳动密集的克隆、表达和纯化步聚,对文库池中的翻译产物在细胞水平进行筛选,测试其在细胞增殖和分化中的作用。例如,在用这种方法识别的111个克隆中,56个属于已知的分泌蛋白质,25个为膜相关蛋白,另外30个功能未知,可能是新的蛋白质。一种相似的方法在转移到小鼠模型系统中的基因传导载体中构建分泌蛋白质的cDNA文库来克隆特定的功能基因。

Ffuchs(Glaxowellcome,ResearchTrianglePark,NC,USA)讨论了生物信息学更为广义的影响:它不仅影响到新药物靶基的发现,还对改善药物开发的临床前期和临床期的现状极具重要性。众所周知,涉汲数以千计病人的临床试验(可能是药物开发最为花钱的部分)的设计不论多么仔细,也不能为正确的药物选择正确的病人。而在基因组水平划分病人群体的方法可以大大改善发现新药的效率。Fuchs介绍了一种将病人的基因型和表型标志结合起来以改善临床前期和临床期药物开发过程的系统GeneticinformationSystem.他强调将遗传学和生物信息学数据同化学、生物化学、药理学和医学数据连接起来的集成信息管理和分析方法是极其重要的。

Green(HumanGenomeSciences,Rockville,MD,USA)介绍了他的测序工作中采用的数据管理工具。基于EST的测序方法所面临的挑战是,在对几百个cDNA克复测序之后,产生的数据堆积如山。由于大多数人类基因都是用这种方法发现并在么有数据库中分类编排的,面临的识别开放读框、重叠序列的重叠图谱、组织特异表达和低丰度mRNA基因的任务是令人生畏的。HumangenomeSciences公司开发了一些可用户化数据库工具,在同一个数据库中可包括以下功能:WWW上访问和检索数据,序列拼接,临视潜在药物靶基因的研究进展等。这些能够管理多项任务——从注释基因序列到成功开发基因产物进入药物发现的流程——的软件工具,极其可望从一种基于基因组知识的药物发现方法中得到新的药物靶。

Summer-Smith(Base4bioinformatics,Mississauga,Ontario,Canada)描述了一种相关的策略。药物发现阶段中所要求的软件工具的任务是多样化的,要能注释基因,并阐明它的生理和病理功能及其商业潜质。对这样多种来源的信息的集成与分析,在派生的、项目取向的数据库(project-specificdatabase,PSD)中可以很好完成。由于项目贯穿于发现到开发全过程,其间又不断加入背景的成员,PSD在项目的管理与发展中成为一种关键性的资源。

按照Smith(Bostonuniversity,Boston,MA,USA)的观点[2],我们并不需要更快捷的计算机或更多的计算机科学家,而是需要更的生物学家和生物化学家来解释序列的功能。这对有些软件或硬件专家来说是个打击,但生物学系统的复杂性是令人生畏的,并且对基因功能的认识可能需要生物学方法和计算方法的结合。探索基因的功能很可能要花费生物学家们数十年的时间,本次会议表明没有任何单一的方法可以得出一个答案;但是,将计算生物学同大规模筛先结合起来识别一种化学靶物(hit)是一种产生化学工具来探索基因功能的方法,这些化学工具接下来就可以用作理解基因功能的“探针”。这种方法在Butt(GeneTranscriptionTechnologies,Philadelphia,PA,USA)的描述中,既是一种检查基因功能的简单方法,也是为潜在的药物靶发现化学先导物的简单方法,他描述了一种可以在酵母中重建人类基因功能的酵母大规模筛选系统。在此系统中,可以迅捷地在一个化学文库中发现配基。这种技术的重要特征是它不仅仅是发现一种药物靶的配基的筛板(screen),相反,由于该系统的高速度,它也是发现先导靶基因的一种筛板。过去,世界上的制药公司通常在某一时间内仅能对有限数目(约20多个)的药物靶基因进行工作,鉴于此,我们需要根本不同的方法如基因组学来打开通向“新”生物学的通路。由于机器人和合成化学的进步,药物发现中最关键的问题不再是得到一种先导化合物(leadcompound),而是得到导向靶基因。此次会议为从计算和实验方法中发展出的新生物学迈出很好的一步。

参考文献

1LimHA,BatttR.TIBTECH,1998;16(3)):104

2Williamsn.Science,1997;277(5328):902

生物信息学范文第6篇

[关键词]生物信息学;案例教学;生物类专业

[中图分类号]G64 [文献标识码]A [文章编号]1005-6432(2014)48-0179-03

生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、、分析和解释等在内的所有方面,综合运用生物学、数学、计算机科学等方法,阐述和理解数据所包含的生物学意义。作为21世纪生命科学领域发展最为迅速的学科之一,生物信息学已成为介于生物学和计算机科学前沿的重要学科。实验室的每一项技术,从简单的克隆、PCR到基因数据分析都需要在计算机上进行处理。因此对生物学专业的学生而言,具有一定程度的理解和应用生物信息学技术的能力是十分必要的。而课程是为培养目标服务的。这就要求教师在有限的授课时间内,使学生不仅掌握基本的理论知识,紧跟科研的最新进展,而且在今后的科研工作中能学以致用。

1 理论与实践相结合的教学手段

根据当今生物信息学的发展方向,教师结合理论教学内容增加综合性、开放性实验,使学生循序渐进地理解和掌握生物信息学的原理和方法,进而运用合适的生物信息学工具解决问题。本文以两个案例解析这一教学过程。一是信息的简单检索。在获取生物信息的同时,理解数据库概念、动态规划和bootstrap等算法;二是高通量测序的数据分析。在实现大规模数据处理和分析的同时,掌握统计分析基础知识。

1.1 生物信息的简单检索

近一二十年,生物学数据,尤其是序列数据,以指数级的方式增长。以GenBank的核酸数据库为例,每12~20个月数据就翻一番,略高于Moore定律提供的参考数值。如何从这些海量数据中获取想要的信息,已成为生物学专业学生必须掌握的技能之一。而如何正确获取和应用信息,则需要了解数据是如何被存储、解析,以及背后隐藏的算法。因此围绕正确挖掘数据信息这一主题,设计以下案例,通过4步展开教和学。

1.1.1 讲解

基于大数据教师引申出数据库存储信息的概念。而后分类介绍常用的基因组数据库、核酸序列数据库、蛋白质序列数据库、蛋白质结构数据库以及各种常用复合数据库。

1.1.2 演示

了解上述常用的数据库之后,教师实例演示数据库检索。通过逐层提出问题,诱导学生思考如何利用上述不同的数据库资源,一步一步挖掘所需的信息。例如,被测序的片段是哪个基因?该基因编码的蛋白质序列是什么?是否有保守的功能结构域?在亚细胞的什么位置发挥什么功能?可能的三级结构?和哪些蛋白或RNA存在可能的相互作用?它在进化中又是如何演变的?

1.1.3 实践

让学生上机操作上述实例,体验各个数据库的侧重点,并理解不同软件不同参数的意义或差别。比如GenBank和Swissprot的侧重点,PAM-n和BLOSUM-n的选取。

1.1.4 成文

引导学生形成可重复计算的科学文档。对每一个案例,教师展示常规性的文件组织形式:/data,/analysis,/scripts,/reference等。写说明文档的时候,要求学生记录每一个分析步骤的所有细节:数据库的网址、软件的名称、版本、输入的文件、精确的运行参数、结果的提取等。

通过这样的案例教学模式,一是较好地将知识点融合串联到教师讲授和学生上机操作中。二是使学生不仅熟悉各种常见的数据库,而且理解数据库中各个软件及其参数的意义,遇到实际问题也不再束手无策。而教师也可以充分参与到学生的学习中,对学生上机操作过程中出现的一些主要理论与技能问题了如指掌。通过教―学―练―教―练,达到学以致用的教学目的。三是培养学生创建较好的文档及其组织形式,形成科学研究的可重复性(replication)和可复现性(reproducibility)。不仅有利于追溯前因,而且对代码的复用,以及对结果应用于新项目都非常必要。

1.2 高通量测序数据的分析

随着高通量测序技术的兴起,大量物种的全基因组数据、转录组数据和其他类型数据被测定完成或正在进行中,每天都有成千上万的数据被源源不断地输入相应的生物信息库中。这些大规模数据的不断产出,使得生物学专业学生掌握高通量数据分析技术已成为一种趋势。因此,教师有必要将这部分内容由理论讲授过渡到上机操作。

1.2.1 介绍

教师以DNA测序技术发展为主线,理论介绍De Novo测序、ChIP-seq测序、RNA-seq测序、Methyl-seq测序等。并通过拍摄的录像,向学生直观地展示不同的测序仪及其特点。

1.2.2 演示

教师对整个分析过程进行详细的阐述并实时上机演示(下图)。以转录组RNA-seq为例,包括测序质量的评估(碱基组成和碱基质量分析)、clean reads的筛选、利用TopHat/Bowtie将筛选出来的reads比对到参考转录本、统计reads在参考基因上的分布情况及覆盖度,判断比对结果是否通过第二次质控、通过cuffmerge将重复测序得到的reads形成一致性转录本、基因结构优化、基因覆盖度统计、使用cuffdiff筛选差异表达基因和鉴别可变剪切体、对结果基因进行聚类分析、GO和pathway富集性分析。

1.2.3 实践

让学生分组讨论并上机实现上述数据分析流程。掌握基本的Linux命令、统计计算和可视化分析。

1.2.4 成文

引导学生形成规范化文档和脚本,以便回溯和可重复性使用。

高通量数据分析不仅涉及的知识点多,而且需要在Linux下进行简单的操作和软件的使用。对生物学专业的学生来说,容易造成心理上的抗拒。教师可以采用“分而食之”的策略:将教学内容分成相对独立完整又有一定联系的几个部分(下图)。对于每部分内容,教师利用已讲解的相关知识给学生实时演示,并给出教师自己的理解和结果。然后把学生分组,让他们根据自己的理解,带着兴趣和疑问上机实践。并在上机操作过程中,鼓励学生之间、学生与教师之间及时讨论交流。最后让学生将所有内容串联起来,介绍本组的实验内容及解决办法。通过这种方式能较明显地消除心理顾虑,有助于学生独立思考,独立解决问题。

“RNA-seq数据分析”案例教学流程图

2 以能力测试为中心的考核方式

对于生物学专业的学生而言,生物信息学是一门实践性很强的学科。因此,教师采用以“能力测试”为中心,知识与技能考核并重的考核方式。以上述两个案例为例,在期末考试中,教师将NCBI GEO中“(RNA-seq[Title])AND “Mus musculus”[porgn:__txid10090]”722个实验数据,随机分配给每个学生。要求每个学生对分配到的RNA-seq数据进行差异表达分析,聚类分析和富集性分析。并选择合适的基因,分析其保守的功能结构域、亚细胞定位以及可能的蛋白质结构和功能、可能结合的转录因子、相互作用的蛋白质网络和信号通路、构建相应的系统进化树。

学生对上述每一个小题从“知识点”、“参考资料”、“使用软件或工具”、“参数”、“脚本”、“结果”分别答题,不仅非常有效地明确所学的内容,而且很好地杜绝了作弊行为。

3 教学效果

为了解案例教学的效果,本课程案例教改活动向2011级生物科学和免疫学专业学生QQ群发放电子问卷,共收回82份答卷,统计结果如下表所示。从表中可以看出,案例教学模式使学生有较强的参与感,能较好地提高学生的学习兴趣,学生对理论问题的认识更为深刻。

4 结 论

案例教学基于具体的事例,将一系列的知识点有机地串联起来,并通过实例操作达到学以致用的目的。从学生反馈意见可以看出,这种理论与实践结合的教学模式,很好地提高了学生的学习兴趣。考虑到有限的授课时间和不同学生的学习背景,作为教师需要设计合适的案例,从而达到较好的教学效果。一般可以遵循以下原则。

4.1 具有代表性

所选的案例既要经典又要紧跟科学前沿。比如第一个案例所蕴含的数据库检索、序列比对和系统进化树的构建,在生物信息学中,属于较经典且核心的知识点。而第二个案例选择的对象则与当前的科研热点紧密联系。

4.2 具有偏向性

生物信息学本身是个交叉学科,涉及的知识点相对较多。面对生物类专业背景的学生,我们侧重生物信息学方法或者工具(软件)的应用,而不是强调算法。比如第一个案例中系统进化树的构建,我们只是以5条8bp长的序列为例讲解最小进化法和邻接法、最大简约法、最大似然法以及贝叶斯推断,重点在于强调不同的数据适合采用上述哪些方法以及如何用Mega等软件实现系统进化树的构建。

4.3 先后案例有层次性

比如第一个案例中,学生掌握了Windows下的序列比对。对于第二个案例中Linux下的Bowtie就容易理解并操作。

4.4 具有拓展性

比如第一个案例中,在Windows的DOS下进行批量序列比对时,不同的参数设置,输出不同的数据格式。第二个案例中,Bowtie最多允许3个错配,如果允许更多的错配数,则可以采用SOAPaligner/ SOAP2实现。学生可以根据自己的兴趣和能力,选择拓展性内容进行继续学习。

4.5 良好的成文习惯

引导学生养成良好的文档组织和书写习惯。每一个案例,都要求学生形成可重复性和可复现性的文档,对于整理分析思路、核实结果、重复使用代码都起到事半功倍的效果。

生物信息学是现代生物科学研究的重要工具和载体。如何有效正确地应用生物信息学,是每一个生物实验者需要具备的能力。教师应紧跟学科发展的速度,围绕学以致用的原则,将案例教学科学地、和谐地应用到教学实践中,不仅使学生掌握一定的理论知识,从而正确地应用软件工具,而且逐渐培养学生自我分析和解决问题的能力。

参考文献:

[1]LuscombeNM,Greenbaum D,Gerstein M.Whatis bioinformatics? A proposed definition and overview of the field[J].Methods Inf Med,2001,40(4).

[2]ENCODE Project Consortium.An integrated encyclopedia of DNA elements in the human genome[J].Nature,2012,489(7414).

[3]1000 Genomes Project Consortium,Abecasis GR,Auton A,Brooks LD,DePristo MA,Durbin RM,Handsaker RE,Kang HM,Marth GT,McVean GA.An integrated map of genetic variation from 1,092 human genomes[J].Nature,2012,491(7422).

[4]Sandve GK,Nekrutenko A,Taylor J,Hovig E.Ten simple rules for reproducible computational research[J].PLoS Comput Biol,2013,9(10).

[5]McCormick M,Liu X,Jomier J,Marion C,Ibanez L.ITK:enabling reproducible research and open science[J].Front Neuroinform,2014(8).

[6]李伟兰.论大学生学习心理障碍的成因及基本对策[J].湖北函授大学学报,2012,5(25).

[7]李运庆.浅析案例教学存在的问题及对策研究[J].长春理工大学学报(社会科学版),2011,9(24).

生物信息学范文第7篇

由于生物信息学发展日新月异,各种数据库和软件的更新换代非常频繁,而国内相关教材更新较慢,课堂内容涵盖的知识面和知识点相对减缩,而且一些前沿的数据和先进软件没有讲授,这些对学生的发展和生物信息知识的合理运用极为不利,同时制约了生物信息学教学的发展。生物信息学是一门崭新的交叉学科,综合利用计算机学、生物学和数学等诸多学科。而目前能胜任生物信息学教学任务的老师十分匮乏,教授该学科的教师多为生物学老师,而大多数生物学老师对计算机和数学的研究相对较少,不能够完全胜任生物信息学的教学任务。可见,该学科的师资力量很薄弱。传统教学方法没能丰富学生的生物信息学知识,没能进行实践教学,并且没有深入分析教学不足,也没有进一步研究教学改革方案,致使生物信息学的教学成果很不理想;另外,生物信息学的基本技术没有充分运用到生物技术试验当中,生物信息学技术对于科研的作用没有得到体现,导致生物信息学的教学成果不理想。

2生物信息学教学改革与实践

2.1教学设备和方式改革

2.1.1更新和完善多媒体教学。在现有设备的基础上,充分发动学生自带计算机,同时向学校申请采购计算机用于教学,在教学区域安装网络信号发射器,不断进行改进和完善,这样学生可以在教学过程中进行实践。在生物信息学实践教学中,能够充分利用网络交互的特点,实现理论和实践的相互转化。自行开发制作一套丰富的多媒体课件,使抽象的生物信息学知识可以更加形象地展现出来,进一步提高学生的学习兴趣和对知识的理解程度。此外,还可以利用网上教学平台将教学内容、最新分析软件等传递给学生,学生也可以通过网络将实践报告、意见和建议等反馈给教师,教师和学生利用计算机共同完成生物信息学理论知识和实践的操作。

2.1.2实行英文教学。在国内大学生物信息学教育中运用英文教学是十分必要的。生物信息学英文教学能够与国内外知名大学接轨,使课程教学进一步规范化。部分课程教学的规范化能够引导其他课程教学。目前,生物信息学英语教学的学科知识目标、语言目标和思维目标都已确定。教材和教学课件全部选用英文,并采用全英文授课方式。生物信息学已经是一个全球化的学科,运用英文教学的宗旨是使学生能够更恰当地接受最新的生物信息学知识。

2.2培养和引进人才

教师教学水平的高低对于教学效果的影响十分明显。因此,应支持和鼓励年轻教师到国内外知名高校学习和进修,提高自身的知识素质与技能;同时提供丰厚条件引进生物信息学高层次人才,这样不但丰富了师资力量,而且还能够指导年轻老师进一步学习。另外,应加强学科建设及与兄弟学科的相互合作交流,使该课程组教师的教学和科研成果得到进一步深化。

2.3教学内容改革

普通教学内容包括数据库检索、引物设计、测序及结果分析、基因识别及基因组分析,核酸序列分析,蛋白质序列分析和分子进化与系统发育分析。生物信息学日新月异,这些基础内容和数据库时刻发生着变化,因此运用信息检索技术已成为教学改革的重要内容之一。改革后的生物信息学除了包含经典生物信息课程,还把现代生物信息检索技术列入教学内容,并作为生物信息学教学的重中之重。运用最新检索工具和软件,并配有大量检索实例,指导学生搜索相关信息,这种方法增强了学生对综合知识的运用能力。

3结语

生物信息学是一门年轻且快速上升的学科,该课程在高校教学中尚未形成成熟的课程体系,因此教师教学改革尚存很大空间。在生物信息学教学中,重点强调学生的创新思维、实践动手能力的培养,采用启蒙式、研讨式、运用式等生动形象的教学方法。教学实践证明,上述教学改革能较好地完成该课程的教学目的,有效提高学生的学习积极性、实践操作能力、解决实际问题的综合应用能力及创新能力,并受到学生的普遍欢迎。

生物信息学范文第8篇

关键词:生物信息学 教材 分析

中图分类号:G4233文献标识码:A文章编号:1009-5349(2017)06-0019-02

近些年,生物信息学顺应时代变化而成为生命科学的新兴领域。[1]生物信息学主要是对核酸和蛋白质两个大方向的数据进行处理与分析。[2]目前,生物信息学作为基础课程在各高校生物科学专业及相关专业开设。其教学质量的高低对于培养学生的综合能力具有重要的意义。[3]因此,各高校在教材选择、课程安排、教学内容、实践教学等方面不断进行改进。[4]优秀的生物信息学教材是提高教学质量的基础。对不同的教材进行对比分析,从中选取适合相关专业的教材,是教师的必要工作。本文对五种生物信息学教材进行分析,为不同专业对于教材的选择提供参考和建议。

一、研究方法及教材简介

(一)文献研究法

笔者主要从以下三个方面进行文献检索。首先,搜索与生物信息学教材分析相关的著作。其次,利用中国知网、万方数据库等检索与教材分析相关的期刊论文。最后,借鉴优秀教师的教案,仔细阅读并进行分析。深入了解相关生物信息学教材分析的背景以便进行整理分析。

(二)对比研究法

本文主要选取了五种生物信息学教材,根据教材的基本框架结构及特点,对其进行对比分析,分析总结不同教材之间异同。

二、生物信息学教材分析

随着课程改革的不断完善,针对不同地区、不同专业,教材的使用也趋向多元化。生物信息学教材是教师进行教学活动的基础。对不同的生物信息学教材进行对比,以便教师作出最适合的选择。如表1所示,对五种教材从宏观角度进行内容上的分析。

如表1所示,从中可看出这五种教材从整体编写方面,都涵盖了核酸和蛋白质两个主要层面。主要内容包括:生物信息学的概念及发展历程、数据库的介绍、生物信息学常用统计方法、基因组学、蛋白质组学等几大方面。并且,大多数教材都附有思考题,有利于学生课后对知识进行运用及加深理解。只是随着生物信息学的飞速发展,不同版本的教材增添了新的相关的知识。同时不同教材的侧重点略有差异。

另一方面,从表1中可看出,五种教材所包含的章节为7到15章不等。这说明,随着科学技术的不断发展,更多的前沿知识不断地填充到教材中。所以,随着时间的变化,不同的教材,具有各自的特色。

首先,教材的侧重点不同。随着各物种的基因组计划的不断完成,生物信息学发展实现了质的飞跃。并且融入到各个领域中。例如:由李霞、雷建波编写的《生物信息学》,侧重介绍了生物信息学与疾病的相关联性。教材在内容和形式上有所创新。突出实用性,以临床实际问题作为编写出发点;而刘娟编写的《生物信息学》一书中,以丰富的实例,重点介绍了相关数据库和软件的功能、应用策略和使用方法。在章节编排上涉及微阵列数据分析的内容,突出了生物信息学与数学的融合。

其次,不同教材的难度存在差异性。陶士珩编写的《生物信息学》较基础,包含了生物信息学基本内容,力求使学生全面了解和掌握生物信息学领域的重要基础知识与基本操作技能。而陈铭编写的《生物信息学》,根据生物信息学多学科融合的特点,增添编程与统计学知识,教材所涉及的知识范围广泛。使得无论是对教师还是学生来讲,都要求具有深厚的学科背景。

最后,学科之间联系程度差异。生物信息学作为一项生物科学的工具,不仅仅应用于生物学,同时,在医学、农业专业、计算机科学等领域。[10]但不同教材所体现生物信息学与其他学科的联系程度不尽相同。例如:吴祖建编写的《生物信息学分析实践》一书,主要包含了数据库检索、引物设计、序列分析等诸多技术问题。书中以图表形式为主,文字介绍为辅,以让学生学会操作为主,将生物信息学与计算机科学紧密结合。

三、结语

生物信息学重要特点为学科交叉性,涉猎范围广。不同的生物信息学教材适用于不同专业。本文对五种教材进行对比分析,根据教材不同特色并结合不同专业特点,为教师选择适合的教材提出建议。陶士珩、刘娟编写的两版不同《生物信息学》,内容基础,适用农业专业和师范专业作为教学用书;李霞、雷健波编写的教材,主要突出了与医学相关联系,适用于医学专业用书;陈铭、吴祖建所编写教材,注重与计算机科学的关联,实践性强,有利于培养学生动手操作能力,适用于计算机专业。

参考文献:

[1]朱杰.生物信息学的研究现状及其发展问题的探讨[J].生物信息学,2005,3(4):185-188.

[2]赵屹,谷瑞升,杜生明.生物信息学研究现状及发展趋势[J].医学信息学杂志,2010(5):2-6.

[3]倪青山,金晓琳,胡福泉等.生物信息学教学中学生创新能力培养探讨[J].基础医学教育,2012,14(11):816-818.

[4]向太和.我国现有《生物信息学》教材和网络资源的分析[J].杭州师范学院学报(自然科学版),2006,5(6).

[5]陶士珩.生物信息学[M].北京:科学出版社,2007.

[6]刘娟.生物信息学[M].北京:高等教育出版社,2014.

[7]吴祖建.生物信息学分析实践[M].北京:科学出版社,2010.

[8]陈铭.生物信息学(第二版)[M].北京:科学出版社,2015.

[9]李霞,雷建波.生物信息学(第二版)[M].北京:人民卫生出版社,2015.

[10]高亚梅,韩毅强.《生物信息学》本科教学初探[J].生物信息学,2007,5(1):46-48.

Abstract:Teaching material is the premise to realize the teaching process, has an important position in the whole teaching system.Teaching material not only is the source of knowledge, is also a tool to promote the development of students.Aimed at the analysis and research of the teaching material is the basis of teaching reform.Therefore, analysis of different materials research, choose suitable teaching materials, is necessary for teachers' work.Nearly 10 years, this article selects five bioinformatics related textbooks, carries on the analysis, in order to reach for different professional for the purpose of provide reference and Suggestions for the selection of teaching materials.

生物信息学范文第9篇

关键词:生物信息学 交叉学科 学生培养

一、生物信息学的产生

生物学是一门古老的学科,在人类历史发展的长河中,人类从未停止过对生命奥秘的探索。人们逐渐认识到,虽然生物种类多种多样,但是它们的最基本分子却是相同的。DNA、RNA和蛋白质等分子构成了生命的基本单位,再由细胞到组织、器官,最后器官系统组成完整的生物体。

传统的生物学研究中,由于受到技术水平的限制,生物学家多采用低通量的生物实验方法,其研究对象通常是一个基因或者几个基因组成的通路。在这种情况下,实验后的简单观察就可以满足研究需要。随着生物研究的不断深入,积累了大量实验数据,人们不禁想到,如何把不同的实验结果整合起来?另一方面,随着生物技术的发展,大量新兴技术出现,产生了海量的数据。例如90年代兴起的基因芯片技术,单张芯片就可以测定成千上万个基因在某一状态下的表达情况。1990年启动的人类基因组计划更为生命科学的研究提供了海量的序列数据。面对如此多的数据,以前依靠生物实验研究单个或几个基因的方法很难再适用,生命科学、统计学、计算机科学和信息科学等若干学科的交叉学科――生物信息学应运而生。生物信息学以计算机、统计、模式识别等方法为手段,以生物数据为研究对象,通过对大量生物数据的储存、处理和分析,提取其中有意义的生物知识[1],从而最终揭示蕴藏在核酸序列和蛋白质序列中的信息,对了解生命活动的基本规律出贡献。

二、生物信息学在生命科学研究中的作用

作为一门新兴的学科,大家对生物信息的作用并不十分明确。很多人认为生物信息学只是为实验科学服务。从广义上讲,这种说法也不无道理,但是生物信息学并不是实验科学的附属品,与生物实验一样,它也是解决生物问题的一种手段。为了解决生物问题,生物学家依靠的是实验台,生物信息学家依靠的是计算机。

在生命科学的发展过程中,以分子生物学的产生为界,可以分为传统生物学和现代生物学。传统生物学和现代生物学取得的成就为生命科学的发展做出了巨大贡献。人类基因组计划启动以来,人们一度认为只要把各种生物基因组的全部碱基排列顺序测定清楚,生命的遗传奥秘就会显露无余,但是真实的情况远不像想象的那样简单。人类的个体发育开始于一个单细胞受精卵,受精卵经过一系列的细胞分裂和分化,产生具有不同形态和功能的细胞,不同细胞之间相互作用构成各种组织和器官。虽然人类基因组中有两万多个基因,但是在单个细胞当中,同时起作用的基因往往是很少的。有些基因只在特定阶段起作用,有些基因只在特定组织起作用。只关心某个基因或蛋白的功能是不够的,因为在不同时空条件下,同一个基因或蛋白的功能可能不同。生物是一个复杂的系统,其表型和功能不仅体现于基因数量和序列的不同,更体现在基因、蛋白以及其他生物分子之间的相互作用之中。因此,把研究对象当成一个整体,系统地分析内部的相互关系尤其重要。但是无论是传统生物学还是现代生物学,都是一门实验学科,生物学的发展中缺乏一种系统思想。生物信息学可以从大量生物数据中提取有意义的生物知识,通过对已有数据的总结,进一步推测生物体的某些性质和变化趋势,生物信息学为大量生物数据的整合提供了可能,与生物实验一样,是生物研究中的一种重要途径。

三、生物信息学学生的培养

生物信息学是一门交叉学科,要求学生具有较好的分子生物学、计算机科学、数学和统计学素养,目前国内只有少数几个学校设立了生物信息学本科专业,大部分的学生都是进入研究生阶段才开始生物信息学的培养。在进入生物信息学专业前,本科阶段可能接受过计算机、统计学、信息学、生物学等某一方面的教育,但要进行生物信息学的研究,大多需要补充其他方面的知识。

生物信息学研究可以分为两类:第一,在深刻理解生物问题的基础上,利用计算技术解决生物问题,第二,为生物学家提供性能更好的方法(算法)。理工科背景学生的生物知识较少,但是对于各种计算方法的原理和使用非常熟悉,对于这类学生的培养,第二类问题比较适合他们入门。在生物信息领域,有很多经典的分类问题。这些问题已经明确了分类目标,并且大都有通用的数据集。但是这类工作也受到了生物学家的质疑,因为大部分工作都是把已有的经典算法用在生物数据上,由于对生物问题不够了解,最后成为只有做生物信息的人才看的方法。这也在一定程度上导致了部分生物学家对生物信息存在偏见,认为生物信息就是提出新算法,做一些数据库。要想真正让生物学家认识到生物信息学的重要性,就要以解决生物问题为根本出发点,即使是做预测方法,也要建立在解决生物问题的基础上。做出更好预测方法的关键是深入理解生物问题并抓住关键特征。举个例子,要把男生和女生分开,我们可以根据很多特征,比如身高、体重、头发长短,虽然大多数情况下来说,男生比女生高、比女生重、比女生头发短。但是只基于这些特征还是会造成很多的分类错误,因为这些特征不是男生女生差别的最根本因素。如果我们是根据性染色体来分,那正确率的提高就非常显著了。在预测问题中,利用五花八门的方法并不是关键,如何能够对生物问题深入了解并找到关键特征,才是最主要的。

作为一门新兴的学科,大家对生物信息的了解还很少,很多人对它的定位也不同。但既然是生物信息,就是先生物后信息,可见生物的重要性。所以,在生物信息的研究过程中,对生物问题只限于表面地理解,势必不能做出好的工作。只有对生物问题有了深入了解,才能发现其中的问题。能够找到值得做的问题,可以说工作已经成功了一大半。当然,解决问题过程中也会有很多困难,比如发现了值得研究的课题,但在解决的过程当中发现某些数据无法获得,或者某些技术超出了自己的能力范围。在这种情况下,可以首先想想有没有其它变通的办法可以解决问题,如果经过慎重的考虑都无法找到,就要果断的放弃。这里要强调一定要慎重考虑,不能遇到一点困难就放弃。

相比理工科背景的学生,生物背景的学生有着扎实的生物学知识基础。但是如果是从本科阶段直接进入生物信息学,由于还没有进行过实验操作,他们对生物问题的理解也很难非常深入。不管是理工科背景还是生物背景的学生,丰富的生物学知识都是进行好的生物信息学研究的前提。在培养学生时不可忽视对其基础生物学知识的传授和教育,并适当引导其对生物学问题的思考。生物学问题可以很大也可以很小。大的生物学问题任何一个懂得基础生物学知识的人都可以提出,但也是最难解决的,比如到底是什么改变使细胞恶变,自身免疫病是如何形成的,心血管病糖尿病等复杂疾病是如何发生的,为何有人容易生某种病而其他人不易感。小的生物学问题就是各自领域的具体研究课题,比如表观遗传学领域的DNA去甲基化酶是否存在,基因表达调控领域的转录起始频率是如何决定的,RNA领域的大量非编码RNA的作用,蛋白修饰领域新发现的修饰如何调控蛋白的功能等等。在脑中提出并试图思考一系列大大小小的生物学问题是对学生培养目标的第一步。这些问题的产生的前提是对生物学知识的熟悉掌握。然而在对学生培养的过程中没必要也不可能告诉他们所有的知识,生物学知识教育的原则是为他们打开门,当他们思考问题的时候知道去哪里找到相关的知识。

另一方面,只有生物学基础知识和问题是不够的。很多问题在生物信息学产生之前就存在了,传统的方法无法带给人们问题的答案。人们一直期待新的方法去理解和解决这些问题。生物信息学的产生无疑提供给人们另一种思考生物问题的方式,为一些经典问题的解决提供了可能。例如最近的大规模的肿瘤基因组测序和分析使我们发现了很多新的肿瘤相关基因[2]。对于生物背景的学生,在教学中要把这样的例子介绍给学生,生物背景的学生在理解信息学理论方面会存在困难。最初很难要求他们理解所有具体过程。但是至少要让他们知道这些方法的基本原理,还有在什么情况下使用。这样在以后的研究中遇到类似问题才能想到应该选择什么样的信息学工具去解决,在具体应用过程中加深对整个过程的理解。生物背景的学生如果想成为生物信息学专家,只会应用是不够的,补充一些计算机、统计、信息方面的基础知识是必不可少的。

生物信息学是一门仍处在快速发展之中的学科。还没有一本教材能够满足生物信息学教学的需要,生物信息学立足于分子生物学、模式识别、计算机科学与技术、数学和统计学等学科,所以学生要先对这些学科的基本概念和系统有一个较为全面和直观的认识,为日后的科研打下坚实的基础。另外,培养过程中要包括大量的实例介绍,对一些重要的应用还加以详细解剖,使得同学们不再仅掌握理论,而是能够学会如何在实际工作中灵活应用这些理论。在此基础之上,向同学们推荐一些最新的论文、期刊、参考读物和相关的学术报告,让同学们能够切身感受到学科发展的前沿,培养学生的创新能力。21世纪是生命科学的时代,也是信息科学的时代。生物信息学在这样的历史条件下产生并壮大,它作为多个领域的交叉新兴学科,对生命科学研究有着巨大的推动力。生物信息学是一门应用性非常强的学科,也是一门非常活跃的前沿学科,良好的教学效果必须以先进的内容体系为基础,我们应时刻注意以科研促进教学,教学科研相长,使教学研究达到更高的水平。

[参考文献]

[1]蒋彦等.基础生物信息学及应用[M].北京:清华大学出版社,2003

[2]Stratton M.R.,等.Exploring the Genomes of Cancer Cells: Progress and Promise [J].Science,2011,331(6024): 1553-1558.

生物信息学范文第10篇

论文摘要:生物信息学是生物科学中一门新兴的前沿学科。针对目前国内生物信息学教学现状,基于其他学科的成功教学模式,结合生物信息学课程特点,提出“以知识为中心,理论教学与实验教学有机结合”的教学模式。

2l世纪是高科技发展的世纪,随着人类基因组计划的完成、遗传语言的破译、生物大分子的功能与结构研究,一门崭新的、拥有巨大发展潜力的新的学科生物信息学悄然兴起并得以蓬勃发展。生物信息学已成为分子生物学家和从事生物学研究和学习的科研人员、教师和学生的必备工具。在生物信息学开设条件尚不成熟的情况下,目前还没有完善的教学模式,如何在高校进行生物信息学教学则亟需探索。为此,笔者根据几年的生物信息学教学实践,提出几点见解,期盼能“抛砖引玉”,引起同行专家学者的关注,由此推动生物信息学教学质量的提高。

1生物信息学概述

生物信息学(Bioinformatics)是生物学、数学和计算机科学交叉所形成的一门新兴学科,它主要运用信息科学和计算机手段通过数据分析和处理.揭示海量数据间的内在联系和生物学含义,进而提炼有用的生物学知识。诺贝尔奖获得者W.Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的,一个科学家将从理论推测出发,然后再回到实验中去追踪或验证这些理论假设”。该论点预示了生物信息学在生物科学中的重要地位。

生物信息学的最大特点;一是数据库庞杂,仅人类基因组一项,就大约有3.0×l0个A、G、C、T构成:二是操作主要在网络环境中运行,通过网络强大的搜索功能实现数据储存、检索和分析;三是由于是一门由计算机技术、数学、生物学等多学科综合交叉产物.它的理论及内容尚在不断地完善与更新中。

2教学现状

2.1缺乏合格的生物信息学师资,教师队伍的整体数量和质量与我国生物信息学教育快速发展的规模极不相称。

2.2对生物信息学专业人才培养的认识各异,造成课程设置不合理。我国高等教育的传统模式在创新性人才和交叉学科人才的培养方面本身就存在不少薄弱环节,如何通过生物信息学专业课程教学与实践加强学生的研究能力,从而加快培养不同专业背景的“复合型”人才是摆在我们面前的一项艰巨任务

2.3生物信息学教育与其他专业的合作还有待加强。尽管生物信息学是一门新兴学科,但与其他专业之间存在不少联系。现阶段的问题是不同专业学科的教师之间缺乏交流与合作,难以满足生物信息学教学的需求。

2.4在教学方法上.重视系统知识的传授和授课计划的完成,而忽视学生能力和素质的培养。此外,缺乏理论教学与实验教学的有机整合,实验教学只是以验证理论为目的,内容单一,无创新点,忽视了对学生实际操作能力的培养。

2.5教学中还缺乏适合的理论和实验教材。授权影印国外原版教科书和翻译书籍仍占主导地位,而国人自编的教材寥寥无几。例如,我们在教学实践中已深感到《基础生物信息学及其应用》一书已不能满足实际教学工作的需要,但由于种种原因.修订版迟迟未能完成。此外,系统性也是目前生物信息学教材中普遍存在的一个问题。

3创新教学模式探讨

作为教学论三大流派之一的建构主义认为:学生在现实世界的真实环境中去感受和体验该知识所反映事物的性质、规律以及该事物与其他事物之间联系,通过学生的自主学习和协助学习,来完成对所学知识的意义建构。多媒体计算机和网络通信技术的发展,为建构主义学习环境提供了理想认知工具.能更有效地促进学生的认知发展。基于其他学科的成功教学模式。结合生物信息学课程特点,笔者提出“一个中心,两者结合”的教学模式。即“以知识为中心,理论教学与实验教学有机结合”。突出学生的主体地位,强化了个性教育。

3。1知识定位为中心以教学活动的真正对象——知识定位为中心.在不同的具体教学活动中教师与学生的“主角”与“配角”地位相互转换.即在某些教学环节中,教师是知识建构的主角,学生当配角,而在另一些教学环节中,则相反。同时,针对不同的教学内容和教学需要.采取不同的教学方法。生物信息学是一门多学科交叉的科学,涉及的知识面即深又广,学生进行独立自学的难度很大。尤其是生物信息学中的相关数学知识,诸如隐马尔科夫链、动态规划算法和几何拓扑理论等,在教学中则需采用教师主导的传统讲授方法。

课堂教学受学时的限制,通过探究式方法,引导学生利用课余时间拓展知识,是不可或缺的教学方法,其教学过程大致分为3个步骤:首先确立教学目标,目标可以由教师设定,也可以是学生所感兴趣的内容。如:玉米基因组SSR引物设计,这类问题一般无法找到现成答案.必须通过学生自己去查阅和检索相关数据库后综合分析才可得到。其次进行分组.对一个崭新事物的认识单靠个人智慧的力量往往难以全面兼顾,需要集体的智慧。分组就是将学生随机分组.以组为单位去检索相关基因和蛋白质数据库。如何使用检索工具、哪些数据库需要检索、哪些指标是可以限定、哪些地方不可以忽略等方面的问题,指导教师可给予一定的启发提示和帮助,但不能替代完成。最后集中讨论,由小组成员围绕指定的问题,如SSR引物,则本着资源共享的原则,陈述检索过程、分析结果,并就检索过程中存在的问题及技巧进行共同讨论,最后由指导教师就检索结果进行取舍、总结,对学生的学习情况作出点评。并提出改进意见及进一步要求。

3.2理论教学与实验教学的有机整合

3.2.1通过生物数据库的使用,提高学生处理生物信息的能力由于大型服务器和计算机的参与,分子生物学对生物分子(主要是核酸和蛋白质)研究工作的效率大大提高。到目前为止,生物学数据库总数已达500个以上,在DNA序列方面有GenBank、EMBL和DDBJ等;在蛋白质一级结构方面有SWISS—PROT、PIR和MIPS等:在蛋白质和其他生物大分子的结构方面有PDB等:在蛋白质结构分类方面有SCOP和CATH等.各数据库均通过Intemet提供多种形式的数据检索服务。例如:NCBI—Gen.Bank数据库就提供Retrieve(Email),Entrez(Web集成信息检索)及Query(Email集成检索)等多种方式的检索服务。这类检索服务是生物数据库所能提供的多种服务中最基本的信息共享和应用服务.也是生物专业学生和科研工作者经常使用的。

3.2.2通过序列比对软件的开发.增强学生使用生物信息处理软件的能力将未知序列同整个数据库中的已知序列进行比较分析是研究者手中的一个强有力的研究手段。对2个物种进行全基因组序列比较已不再是一个梦想.进行序列比较的目的之一是判断2个序列之间是否具有足够的相似性,从而判定二者之间是否具有同源性。在世界各地,科学家每天都要进行成千上万次的序列比对和数据库搜索。实验操作中通过序列比对软件开发的培训,使学生熟练掌握生物信息处理软件.并能编制解决相关问题的小软件。

3.2.3运用生物信息学相关知识,提高学生获取蛋白质信息的能力由于构成蛋白质的20种氨基酸化学构造上的差别远远大于构成核酸的4种碱基的差别。因而蛋白质在结构和功能上存在更大的多样性。目前实验方法获取蛋白质结构信息仍然需要大量的时间,而且对技术和技巧都有很高的要求。越来越多的蛋白质在测定空间结构后尚不清楚其生物功能,因此蛋白质功能预测日益受到重视。预测的方法是目前提供蛋白质结构及功能信息的重要方法。蛋白质结构与功能的复杂性必须借助生物信息学的技术手段才能更好的阐明,通过对生物信息学的学习和掌握,可使学生更多更快地了解蛋白质的信息。

3.2.4优化实验教学内容,发挥网络教学优势生物信息学实验教学主要是针对海量生物数据处理与分析的实际需要,培养学生综合运用生物信息学知识和方法进行生物信息提取、储存、处理、分析的能力.提高学生应用理论知识解决问题的能力和独立思考、综合分析的能力。生物信息学实验教学内容的选择与安排应按照循序渐进的原则.针对特定的典型性的生物信息学问题设计,以综合性、设计性实验内容为主,明确目的要求,突出重点,充分发挥学生的主观能动性和探索精神,以激发学生学习的主动性和创造性为出发点,加强学生创新精神和实验能力的培养。

生物信息学实验教学以互联网为媒介、计算机为工具,全部在计算机网络实验室内完成。在教学中,充分利用网络的交互特点实现信息技术与课程的结合。教师通过电子邮件将实验教学内容、实验序列、工具等传递给学生,学生同样通过电子邮件将实验报告、作业、问题和意见等反馈给教师,教师在网上批改实验报告后将成绩和评语发送给学生,让学生及时了解自己的学习情况。

3.2.5加强实践能力考核生物信息学主要是学习利用互联网、计算机和应用软件进行生物信息分析的基本理论和基本方法。考试重点是考察学生对生物信息分析的基本方法和技能的掌握程度和对结果的分析解释能力。因此,通过上机实践操作重点考核学生在互联网环境下,对序列进行生物信息分析并对结果进行解释。不仅考核学生对基本知识和基本原理的掌握,而且考察学生进行生物信息分析的实际能力和分析思考能力。通过实践技能考试.促进学生注重提高理论用于实践的综合能力。

上一篇:污水处理工艺范文 下一篇:产业集群论文范文