生物网络



一、什么是生物网络

1.生物网络的定义

生物网络指的是适用于生物系统的网络。网络指的是具有连为一体的子单元(例如链接到整个食物网的物种单元)的系统[1]。简单的来理解,就是生物网络是一个有关生物的信息的载体,通过网络链接的方式表达各个节点之间的关系。如蛋白质互作网络,KEGG通路等都是常见的生物网络

2.生物网络的分类

1.有向网络与无向网络



根据网络中的边是否具有方向性或者说连接一条边的两个节点是否存在顺序,网络可以分为有向网络与无向网络,边存在方向性为有向网络(directed network),否则为无向网络(undirected network)。
下图为KEGG的通路网络图,是一个典型的有向网络,连接边的方向代表了代谢的顺序。

下图为String 数据库中蛋白互作的关系图,是一个典型的无向网络,节点表示蛋白,而连接的线条表示是否互作,不含有方向信息。



2.加权网络与等权网络



加权网络指网络中的每条边都被赋予相应的数值。所赋予的数值称为边的权重。权重可以用来描述节点间的距离,相关程度,稳定程度。String蛋白互作网络就是一个加权网络,他的边表示两个节点直接互作的得分。

如果网络中各边之间没有区别,可以认为各边的权重相等,称为等权网络或无权网络



3.二分网络



如果网络中的节点可分为两个互不相交的集合,而所有的边都建立在来自不同集合的节点之间,则称这样的网络为二分网络。下图是一个二分网络的例子



3.生物网络的子概念



为了解释下面几个概念我们用一个简单的网络图作为例子



1.节点的度(degree)



又称为连通度,关联度。节点度是指和该节点相关联的边的条数。

特别地,对于有向图,

节点的入度 是指进入该节点的边的条数;

节点的出度是指从该节点出发的边的条数。

如上图 A 的度数为2,BC 的度数为 1



2.最短路径



指连接两个节点之间经过最少的边的路径。

如上图中 A 节点到 B 的最短路径为 A-B , 而 B 节点到 C 节点的最短路径为 B-C



3.节点的介数



节点的介数是用于描述一个节点在网络中的重要程度的参数。某一节点在网络中越重要,则其介数越大。

其计算公式为

其中 Bi 即为节点 i 的介数,如 BA 为上图中 A 节点的介数。

nk,j 表示为 kj 节点之间的最短路径的数量。 nk,j(i) 表示为 kj 节点最短路径中含有 i 节点的数量。

如上图中 显然可以看出 A 节点是整个网络中最重要的。其介数为

同理可计算出 BC 节点的节度均为 2 。 表明 A 节点的重要程度大于 BC 节点。



4.聚类系数(clustering coefficient, CC)



聚类系数用于衡量节点的密集程度。

在无向网络中,节点 v 的聚类系数 CCv 的表达公式为

其中 n 表示 节点v 的所有 k 个邻居节点之间边的数量。n 的最大值可以由 Ck2 = k(k-1)/2 计算出。其含义为在所有 k 个邻居节点中, 选出2个相连的节点的所有可能数量。
故可以得到 CCv 的取值落在 [0, 1] 之间。

以下图为例。

image

节点 A 的聚类系数

在有向网络中,节点 v 的聚类系数 CCv 的表达公式为

其中 kout 为 v 节点的出度,n 表示 v 所有指向的节点彼此之间存在的边数。因为有方向差别,不同方向的节点算两条边,故用的是排列而不是组合。

以下图为例

image

图中 计算 A 节点的聚类系数。 节点 A 连接了三个节点 {B, C, F} , 所以 n 为 3 ,其中{B, C, F} 相连接的边有 {[B → C], [C → B], [C → F]} 共 3 条 故 kout 为 3

A 的聚类系数



5.度分布



度分布指的是整个网络中各个点的度数量的概率分布。

例如 P{k = ki} 表示的是在某一网络中,度为 ki 的节点的出现概率。