网站公告列表     学友堂,成就你我!  [admin  2006年11月29日]        
加入收藏
设为首页
联系站长
您现在的位置: 学友堂 >> 科学技术 >> 生物学 >> 文章正文
  如何挑选差异表达的基因           
如何挑选差异表达的基因
作者:佚名 文章来源:不详 更新时间:2008-11-20 0:01:40

挑选差异表达的基因
利用生物芯片进行研究的第一步,往往是要找到差异表达的基因。选择差异
表达的基因,笔者建议采用生物芯片为科研工具的研究人员使用 SAM 软件
(Significant Analysis of Microarray) , 它是由Standford大学开发的一个免费软件,目前广泛地被学术界所采用,进行挑选差异基因。

SAM 软件可以作为插件在Office Excel 软件中进行应用,很容易被生物医学工作者掌握。SAM 软件进行分析的一个基本前提就是需要至少 3 次实验以上的重复。 这里的重复可以是生物材料的重复,例如某种疾病包含多个病人;也可以是实验的重复,例如药物处理细胞做了4 次实验。通过重复实验,才能从统计学意义上判断差异变化的基因。可以理解 SAM 软件和统计学 t-test 检验有类似之处。笔者从合作单位被编辑退回的稿件中了解到,有很多退稿是因为没有进行重复实验,例如对照和处理各一个样本,然后认为荧光信号值差异在2 倍以上的基因就是差异的基因。审稿编辑的意见往往是需要加上重复实验进行统计分析。

举一个例子,要研究某种疾病 A 的人群和疾病 B 的人群血液中有核细胞基
因表达的差异(疾病 A和疾病B人群分别至少要有3 个人以上) 。若是使用了单
通道的表达谱芯片,例如 Affymetrix 的芯片,你可能得到例如表1 这样的数据:
表 1. 单通道芯片设计的例子(以信号值进行计算) 2
样本
基因
病 A1 病A2 病A3 … 病 B 1 病 B 2 病 B 3…
NM_001192 122 453 278 1345 2315 1954
NM_004836 4566 3567 5632 5643 5689 6112
AK025431 11831 13432 12543 24231 21998 19888

在SAM软件进行差异基因筛选的时候, 这种例子可以选择two class unpaired
(2 因素不配对)的算法。因为实验研究的就是 2 组样本,并且疾病A和疾病 B
的病人之间没有一一配对的关系。那么在进行 SAM 软件运算前,需要加一行样
本识别标记(可参见表 2) ,让 SAM 程序知道哪些信号值是来自同一组病人的。

表 2. 单通道芯片数据在 SAM 软件中的格式
样本
基因
病 A1 病 A2 病A3 … 病 B 1 病 B 2 病B 3…
1 1 1 … … 2 2 2
NM_001192 122 453 278 1345 2315 1954
NM_004836 4566 3567 5632 5643 5689 6112
AK025431 11831 13432 12543 24231 21998 19888

另外加入的一行蓝色字体就是样本识别标记, 这样SAM软件通过格式上的默认,
就知道哪些数据是同一组病人的不同重复。 目前发现单通道芯片有这样一种可能的缺陷:若一个实验进行的时间很长,例如1-2年以上,那么进行芯片实验的试剂之间有较大的差别,有时芯片杂交的信号强度差异并不是生物样品的差异,而是试剂不同带来的差异。

如果是使用双通道芯片,笔者不建议某个病人 A 个体和某个病人 B 个体的
RNA 混合在一起和一张芯片做杂交,因为你并不知哪两个病人应该配对。笔者
建议取一个共同的参照物。 选取共同参照物的基本要求就是比较容易得到该共同参照物样本,并且和所研究的因素没有关系。在下面这个例子中,可以取若干个 3正常人血液有核细胞的 RNA混合物做一个共同参照, 也可以购买美国 Stratagene公司的 Universal Human Reference RNA sample作为一个共同参照物,这样得到的数据就将是一个比值(可参见表 3) :

表 3. 使用共同参照物实验设计的双通道芯片设计的例子(以比值进行计算)
样本
基因

A1/CK

A2/CK

A3/CK …

B1/CK

B2/CK

B3/CK…
1 1 1 … … 2 2 2
NM_001192 0.34 0.28 0.35 1.12 1.43 1.22
NM_004836 4.44 3.67 5.65 5.66 3.54 6.43
AK025431 1.22 0.98 1.19 3.42 2.46 2.89

以上同样可以用SAM软件中two class unpaired的方法来计算疾病A组病人
和疾病 B 组病人之间差异的基因。用比值进行计算的优点在于,各种试剂、操
作产生的差异在比值中被消除掉了。

因此,在使用单通道芯片时,若需要在时间间隔比较长远的数据之间进行比
较,目前存在一种趋势,即在某段时间内进行的单通道芯片实验,安排做一张共
同参照物 RNA的芯片,然后得到比值;经过较长时间以后再做芯片实验时,同
时再安排一张共同参照物 RNA的芯片,然后又得到比值,最后对不同时间段之
间的比值进行比较。

另外一种常见的实验就是对动物或者细胞进行药物处理。 例如选择一个细胞
用药物处理后, 观测药物处理引起的基因表达变化。 实验重复了 3次。 这种实验,除了采用上述单通道芯片试验设计以及利用一个共同参照物来做双通道芯片的试验设计外, 还可以把每次实验的处理和对照样品用不同的荧光素标记和一张芯片进行杂交。这样就得到一个纯粹的比值,数据格式如下:

4
表 4. 对照和处理同时杂交芯片实验设计得到的芯片数据格式双通道芯片数据
样本
基因
处理 1/对照 1 处理2/对照 2 处理 3/对照 3 …
NM_001192 0.23 0.12 0.15
NM_004836 3.55 4.24 3.56
AK025431 1.22 0.89 0.96

在SAM软件进行差异基因筛选的时候, 这种例子可以选择one class的算法,
大致的意思就是判断是否和比值=1 是否有显著性差别。
此时也需要另外在表格中插入一行,让 SAM 软件处理的时候知道只有一个
因素。

表 5.对照与处理同时和芯片进行杂交的双通道芯片数据在 SAM 软件中的格式
基因
样本
处理 1/对照 1 处理2/对照 2 处理3/对照3 … …
1 1 1
NM_001192 0.23 0.12 0.15
NM_004836 3.55 4.24 3.56
AK025431 1.22 0.89 0.96

由于在 SAM 软件进行差异基因选择时,可以通过调节参数来改变差异基因
的数目。在文章中写作时,可以根据基因变化的倍数来选择变化的基因,并列出
其他的一些参数,例如False Discover Rate (FDR),或者再加上 Local FDR,具体
例子可参见图 2。
另外,对于有多因素分析的实验,例如比较多个组织,然后寻找在某个组织
中特异表达的基因,也可以利用 SAM 软件中的 Multiclass 算法。
由于 SAM 软件通常需要根据需求或结果来调整参数,因此笔者认为利用芯
片数据写作的研究人员最好能学会使用 SAM 软件。

参考资料

http://www.biogo.net/zhuanti/Gene-chips/

文章录入:admin    责任编辑:admin 
  • 上一篇文章:

  • 下一篇文章:
  • 【字体: 】【发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
    最 新 热 门
    最 新 推 荐
    相 关 文 章
    蜘蛛如何织网
    如何提高缝纫线的润滑性…
    如何防御雷电灾害
    人是何时进入太空的?早…
    如何让长途飞行更愉快
    变频器时造成周围电子机…
    钢材如何按理论重量计算…
    教你如何看透一个人
    地震是如何定义多少级的…
    如何认识和观测星座星相