Linux与生物信息学

起源

Linux内核最初只是由芬兰人Linus Torvalds于1991年在赫尔辛基大学时出于个人爱好而编写的。其是一套免费试用和自由传播的类Unix操作系统,基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。Linux能运行主要的UNIX工具软件、应用程序和网络协议。其支持32位和64位硬件。其继承了Unix以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。

linux_logo.png

发行版

operating_system

Linux 发行版及通常所说的”Linux操作系统”,由一些组织、团体、公司或者个人制作并发行。Linux内核主要作为Linux发行版的一部分而使用。

目前正在积极开发中的发行版超过300个,最普遍被使用的发行版约12个。目前市面上较知名的发行版有:Ubuntu, RedHat,CentOS,Debain,Fedora等。

一个典型的发行版包括:Linux内核,GNU库和各种系统工具,命令行Shell,图形界面地城的X窗口和上层的桌面环境等。桌面环境有如KDE或GNOME等,并包含数千种应用软件。

linux_distribution_timeline

应用领域

今天各种场合都有使用各种Linux发行版,从嵌入式设备到超级计算机,并且在服务器领域确定了定位,通常服务器使用LAMP(Linux + Apache + MySQL + PHP) 或 LNMP(Linux + Nginx + MySQL + PHP)组合,目前Linux不仅在家庭与企业中使用,并且在政府中也很受欢迎。

与Windows比较

比较 Windows Linux
界面 界面统一,外壳程序固定,所有Windows程序菜单几乎一致,快捷键也几乎相同 图形界面风格依发布版不同而不同,可能互不兼容。GNU/Linux的终端机从UNIX传承下来,基本命令和操作方法也几乎一致
驱动程序 驱动程序丰富,版本更新频繁。默认安装程序里面一般包含该版本发布时流行的驱动程序,之后所处的新硬件驱动依赖于硬件产商提供。对于一些老硬件,如果没有了原配的驱动有时很难支持。另外,有时硬件产商未提供所需版本的Windows下的驱动,也比较头痛。 由志愿者开发,Linux核心开发小组发布,很多硬件产商基于版权考虑并未提供驱动程序,尽管多数无须手动安装,但是设计安装则相对复杂,使得新用户面对驱动程序问题会一筹莫展。但是在开源开发模式下,许多老硬件也容易找到驱动。HP、Indel、AMD等硬件产商逐步不同程度支持开源驱动,问题正在得到缓解。
使用 使用比较简单,容易入门。图形化界面对没有计算机背景知识的用户使用十分有利。 图形界面使用简单,容易上手。命令行界面需要学习才能掌握
学习 系统构造复杂,变化频繁,且知识、技能淘汰快,深入学习困难 系统构造简单、稳定,且知识、技能传承性好,深入学习相对容易
软件 每一种特定功能可能都需要商业软件的支持,需要购买相应的授权 大部分软件都可以自由获取,同样功能的软件选择较少

生物信息学与Linux应用

为什么选择Linux/Unix平台作为生物信息学研究的主要平台
软件/平台名称 描述
BioLinux 强大的生物信息学分析平台,基于Linux的免费操作系统,整合了大量生物信息学软件
BioPerl 整合大量生物学数据处理模块的Perl语言工具包
BioPython 整合大量生物学数据处理模块的的Python语言工具包
Bioconductor 整合大量生物学数据处理软件包的R语言软件库
EMBOSS 欧洲分子生物学开源软件套装,用于序列数据处理及分子生物学研究
Mothur 16s RNA数据分析
BLAST+ 本地BLAST软件,建库及序列比对
TopHat,Cufflinks等 转录组测序数据分析工具