高通量测序的数据处理与分析(二)-宏基因组4
高通量测序的数据处理与分析(二)-宏基因组3
宏基因组宿主去污染
在上一篇文章中,详细的介绍了宏基因组如何下载以及如何使用fastp进行质控,本篇文章主要聚焦于如何对宿主污染进行去除。如何判断存在宿主污染的方法在上一篇文章中有提到,即GC含量严重偏离正态分布时我们就认为原始数据存在宿主污染,这里介绍的去除宿主污染的工具是bowtie2,同样的也有很多其他软件可以做到去污染,如bwa,kneaddata等软件。
事实上,去除宿主污染的基本原理就是通过将原始的fastq序列跟人类的参考基因组进行比对,去除比对上的read或者高度匹配的read实现去除宿主污染。显然,这种去除污染的方式只有在你明确知道宿主是什么的时候是有效的,如肠道微生物组,口腔微生物组,他们的宿主是显而易见的,只要知道取样的实验体是什么就能知道宿主。
高通量测序的数据处理与分析(二)-宏基因组2
宏基因组数据处理方法
数据下载
wget下载
宏基因组的数据主要分布在两个数据库:1. NCBI的SRA数据库,2. ENA。近年来也有许多研究者将数据上传到中国的数据库:NGDC
你可以直接通过网页下载数据,或者是通过各个网站提供的下载工具进行批量下载。也可以到 sra-exporter 这个网站上输入项目号获得样本的下载链接。用wget或者其他下载工具进行下载,示例的命令如下:
wget -c ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR185/004/ERR1857004/ERR1857004_1.fastq.gz
wget -c ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR185/004/ERR1857004/ERR1857004_2.fastq.gz
这样我们就下载了ERR1857004
样本的双端测序数据。
高通量测序的数据处理与分析指北(二)--宏基因组篇
宏基因组篇
前言
之前的一篇文章已经从生物实验的角度讲述了高通量测序的原理,这篇文章旨在介绍宏基因组二代测序数据的处理方式及其原理。在正文开始之前,我们先来认识一下什么是宏基因组。以我的理解,宏基因组就是某环境中所有生物的基因组的合集,这个环境可以是下水道,河流等自然环境,也可以是人体内肠道,口腔等体环境。而宏基因组中的生物往往指的是微生物,如真菌,细菌,病毒,古细菌。
我们这里主要以肠道微生物为例,也就是人体内肠道的宏基因组。肠道菌群的测序样本往往是粪便样本,现在主流的测序方式有两种:一种是16sRNA测序,一种是WGS(Whole Genome Sequencing) 全基因组测序。WGS测序数据量更大,所包含的信息更多,能注释出物种-样本的丰度矩阵,也能注释出基因-样本的丰度矩阵。而16sRNA测序测的是细菌核糖体RNA中的小亚基,这个小亚基的沉降系数是 16s,故被称为 16s RNA,这个16s RNA有一段非常保守的序列和一段变异序列,可以根据16s RNA 的变异度来进行物种分类,所以16s RNA数据往往只能注释出物种-样本的丰度矩阵。
博客添加粒子特效
博客优化内容
基于 theme-next-canvas-nest 插件为博客的背景提供一个粒子的特效,最后效果如下:
next v8.0 已不支持直接下载项目然后通过开启配置的方式部署特效背景。
但github项目中作者推荐的部署方式仍然有效,只需要在 hexo/source/_data
中创建/修改 footer.swig
在其中添加内容
<script color="0,0,255" opacity="0.5" zIndex="-1" count="99" src="https://cdn.jsdelivr.net/npm/canvas-nest.js@1/dist/canvas-nest.js"></script>
hexo g; hexo d
完成部署
版本信息
tool | version |
---|---|
hexo | 5.4.2 |
theme: next | 8.5.0 |
theme-next-canvas-nest | v1.0.0 |
参考链接
差异分析(二)
原始数据处理
这篇文章旨在提供一个更加方便准确的差异分析流程,同样以GSE115269为例。
首先是原始数据的下载,GEO 项目页面中的 Series Matrix File(s) 是文章作者所提供处理好的芯片表达数据,往往经过了一些标准化,或者其他的数据格式化的方式,如果你想要比较不同项目之间的样本,除了要进行去批次外还要考虑到每个矩阵数据处理方式不同,故,如果是比较不同项目之间的样本,那么应当从 [GSE115269_RAW.tar]( (http)) 开始处理。当然从RAW开始的处理流程目前也有非常成熟的包。但这不是本教程的核心,这里同上篇文章一样,用的也是文章作者处理好的芯片表达数据。
你可以像上篇文章一样手动在网页下载 表达数据 和 平台信息 (这个是soft格式,只是格式不一样,下其他格式的是一样的)
同样的你也可以直接在R里面用代码直接从网页导入数据,在开始代码前我们先做一些简单的准备工作
# ====准备工作====
# 初始化环境
rm(list = ls())
pacman::p_unload(pacman::p_loaded(), character.only = TRUE)
# 设置工作目录
setwd(dirname(rstudioapi::getSourceEditorContext()$path))
getwd()