0%

原文链接

1. 数据库介绍

NCIt (National Cancer Institute Thesaurus)是由美国国家癌症研究所(NCI)维护的一个生物医学术语本体库。它提供了一个广泛的、标准化的生物医学术语集,专注于癌症以及与之相关的领域,包括临床护理、生物医学研究、分子生物学、遗传学等。NCIt是在医学研究和临床实践中被广泛用于数据交换、注释和分析的关键资源。

在NCIt数据库官网提供的映射对应列表中并没有提供关于微生物术语转最常见的NCBI编号的映射表,因此这里我提供一个爬虫的方式以实现对NCIt中的微生物编号向NCBI的tax_ID转化。

阅读全文 »

基于read的物种注释

基于read的宏基因组物种注释的软件有很多,如 karenkaiju , metaplhan。本文主要介绍如何使用 metaplhan进行基于read的物种注释。这种基于read的物种注释方法不依赖于contigs的组装质量,直接通过read和参考基因组比对得到丰度,从原理上讲会比基于bin模式的物种注释快上许多,但是这种基于read的比对模式高度依赖参考基因组的准确性,完整性。适用于人类相关微生物,小鼠相关微生物或者其他研究较为深入的微生物环境。而比较复杂的环境微生物可能用这种方式注释出来的物种会不太准确。

阅读全文 »

宏基因组宿主去污染

在上一篇文章中,详细的介绍了宏基因组如何下载以及如何使用fastp进行质控,本篇文章主要聚焦于如何对宿主污染进行去除。如何判断存在宿主污染的方法在上一篇文章中有提到,即GC含量严重偏离正态分布时我们就认为原始数据存在宿主污染,这里介绍的去除宿主污染的工具是bowtie2,同样的也有很多其他软件可以做到去污染,如bwa,kneaddata等软件。

事实上,去除宿主污染的基本原理就是通过将原始的fastq序列跟人类的参考基因组进行比对,去除比对上的read或者高度匹配的read实现去除宿主污染。显然,这种去除污染的方式只有在你明确知道宿主是什么的时候是有效的,如肠道微生物组,口腔微生物组,他们的宿主是显而易见的,只要知道取样的实验体是什么就能知道宿主。

阅读全文 »

宏基因组数据处理方法

数据下载

wget下载

宏基因组的数据主要分布在两个数据库:1. NCBI的SRA数据库,2. ENA。近年来也有许多研究者将数据上传到中国的数据库:NGDC

你可以直接通过网页下载数据,或者是通过各个网站提供的下载工具进行批量下载。也可以到 sra-exporter 这个网站上输入项目号获得样本的下载链接。用wget或者其他下载工具进行下载,示例的命令如下:

wget -c ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR185/004/ERR1857004/ERR1857004_1.fastq.gz
wget -c ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR185/004/ERR1857004/ERR1857004_2.fastq.gz

这样我们就下载了ERR1857004样本的双端测序数据。

阅读全文 »

宏基因组篇

前言

之前的一篇文章已经从生物实验的角度讲述了高通量测序的原理,这篇文章旨在介绍宏基因组二代测序数据的处理方式及其原理。在正文开始之前,我们先来认识一下什么是宏基因组。以我的理解,宏基因组就是某环境中所有生物的基因组的合集,这个环境可以是下水道,河流等自然环境,也可以是人体内肠道,口腔等体环境。而宏基因组中的生物往往指的是微生物,如真菌,细菌,病毒,古细菌。

我们这里主要以肠道微生物为例,也就是人体内肠道的宏基因组。肠道菌群的测序样本往往是粪便样本,现在主流的测序方式有两种:一种是16sRNA测序,一种是WGS(Whole Genome Sequencing) 全基因组测序。WGS测序数据量更大,所包含的信息更多,能注释出物种-样本的丰度矩阵,也能注释出基因-样本的丰度矩阵。而16sRNA测序测的是细菌核糖体RNA中的小亚基,这个小亚基的沉降系数是 16s,故被称为 16s RNA,这个16s RNA有一段非常保守的序列和一段变异序列,可以根据16s RNA 的变异度来进行物种分类,所以16s RNA数据往往只能注释出物种-样本的丰度矩阵。

阅读全文 »

博客优化内容

基于 theme-next-canvas-nest 插件为博客的背景提供一个粒子的特效,最后效果如下:

成果预览

next v8.0 已不支持直接下载项目然后通过开启配置的方式部署特效背景。

但github项目中作者推荐的部署方式仍然有效,只需要在 hexo/source/_data 中创建/修改 footer.swig

在其中添加内容

<script color="0,0,255" opacity="0.5" zIndex="-1" count="99" src="https://cdn.jsdelivr.net/npm/canvas-nest.js@1/dist/canvas-nest.js"></script>

hexo g; hexo d 完成部署

版本信息

tool version
hexo 5.4.2
theme: next 8.5.0
theme-next-canvas-nest v1.0.0

参考链接

[1] 动态背景

原始数据处理

这篇文章旨在提供一个更加方便准确的差异分析流程,同样以GSE115269为例。

首先是原始数据的下载,GEO 项目页面中的 Series Matrix File(s) 是文章作者所提供处理好的芯片表达数据,往往经过了一些标准化,或者其他的数据格式化的方式,如果你想要比较不同项目之间的样本,除了要进行去批次外还要考虑到每个矩阵数据处理方式不同,故,如果是比较不同项目之间的样本,那么应当从 [GSE115269_RAW.tar]( (http)) 开始处理。当然从RAW开始的处理流程目前也有非常成熟的包。但这不是本教程的核心,这里同上篇文章一样,用的也是文章作者处理好的芯片表达数据。

你可以像上篇文章一样手动在网页下载 表达数据平台信息 (这个是soft格式,只是格式不一样,下其他格式的是一样的)

同样的你也可以直接在R里面用代码直接从网页导入数据,在开始代码前我们先做一些简单的准备工作

# ====准备工作====

# 初始化环境
rm(list = ls())		
pacman::p_unload(pacman::p_loaded(), character.only = TRUE)

# 设置工作目录
setwd(dirname(rstudioapi::getSourceEditorContext()$path))
getwd()
阅读全文 »

博客优化内容

http协议的网站总是显示不安全,为了开启小绿锁,在这里准备部署https协议。我的博客是hexo架构,部署在阿里云上的。

阅读全文 »