细菌基因生物信息学分析通用教程(从零到完整流程)
一、写在前面
这是一套通用的细菌基因生物信息学分析流程教程
特点:
✔ 工具简单(基本网页 + 少量命令行)
✔ 可复现
✔ 结构完整
二、整体流程(核心框架)
1 | 基因序列 |
👉 记住一句话:
结构 + 定位 + 进化 + 调控 = 完整功能推断
三、操作
步骤1:获取基因与蛋白序列
来源:
- NCBI Genome / RefSeq
- 本地测序数据
常见文件:
1 | .fna # 基因组 |
👉 目标:拿到
- CDS序列
- 蛋白序列
- 基因组
基本特征分析:
输入CDS 序列进行密码子使用分析,得到:
- 基因全长
| 长度 | 一般含义 |
|---|---|
| <300 bp | 小肽/调控蛋白 |
| 300–1500 bp | 常规酶蛋白(最常见) |
| >2000 bp | 多结构域蛋白 |
- 编码AA数目
| 长度 | 结构特点 |
|---|---|
| <100 aa | 小蛋白 |
| 100–400 aa | 单结构域 |
| >400 aa | 多结构域 |
- GC含量–> 与翻译效率和mRNA稳定性有关
| 类型 | GC含量 |
|---|---|
| AT-rich | <40% |
| 平衡型 | 40–60% |
| GC-rich | >60% |
如果某基因 GC ≠ 基因组平均值
可能说明:
水平基因转移(HGT)
步骤2:蛋白理化性质分析
工具:ProtParamExpasy - ProtParam
输入:蛋白序列
输出:
- 分子量
- pI
- GRAVY
- 稳定性
👉 作用:
判断蛋白是稳定/亲水/膜蛋白趋势
工具:ProtScaleExpasy - ProtScale
步骤3:亚细胞定位
工具:PSORTbPSORTb Subcellular Localization Prediction Tool - version 3.0
关注:
- Cytoplasmic
- Membrane
- Extracellular
👉 关键判断:
- 是否分泌蛋白
步骤4:结构域分析
工具:
- NCBI CDDCD-Search: New Query
- Pfam / InterProInterPro
关注:
- E-value < 1e-5
👉 核心意义:
决定蛋白“干什么”
步骤5:三级结构预测
工具:
- AlphaFold / ColabFold
输出:
- PDB / CIF
验证:
- PROCHECK(Ramachandran)PDBsum Generate
👉 判定标准:
- 最优区 ≥ 90%(理想)
| 类型 | 工具 | 本质 |
|---|---|---|
| AlphaFold指标 | pLDDT / PAE | AI预测置信度 |
| PROCHECK | Ramachandran | 几何结构合理性 |
注:现在的alphafold3输出的各种指标就足够判断了,不一定非要做PROCHECK
步骤6:系统发育分析
流程:
1 | BLASTp → MAFFT → TrimAl → IQ-TREE |
BLASTp找同源蛋白,根据亲缘关系远近选出合适的序列,使用MAFFT软件(–auto参数)进行多序列比对,并利用TrimAl(-gt 0.8)去除低质量比对区域。基于修剪后的序列,采用IQ-TREEiTOL: Interactive Tree Of Life构建最大似然系统发育树,并利用ModelFinder自动选择最优替换模型,进行1000次ultrafast bootstrap重复评估分支支持率。
意义:
- 判断进化关系
- 判断是否保守蛋白
步骤7:启动子与调控元件
工具:MEMEMEME - Submission form
对 基因上游 200 bp 候选启动子区域进行 MEME 分析
在 DNA 序列中寻找潜在的转录因子结合位点(motif)
参数:
- nmotifs = 5
最多找几个“调控信号”
- minw = 6
最短 motif = 6 bp,太短假阳多
- maxw = 20
最长 motif = 20 bp,太长没有生物学意义
注意:
- 单序列结果参考意义有限
步骤8:蛋白互作网络
工具:STRINGSTRING: functional protein association networks
参数:
- 物种指定
- score ≥ 0.7(推荐)
👉 看:
- 代谢通路
- 毒力相关蛋白
步骤9:信号肽预测
工具:SignalP 6.0SignalP 6.0 - DTU Health Tech - Bioinformatic Services
👉 输出:
- 是否分泌
- 切割位点
步骤10:翻译后修饰
工具:
注意:
- 细菌没有O-glycosylation预测工具(常规的如NetOGlyc 主要适用于真核蛋白 O-GalNAc 糖基化预测,与细菌蛋白修饰机制差异较大,不用)
步骤11:密码子偏好性
工具:CodonW
指标:
- 有效密码子数(ENC)
- 相对同义密码子使用度(RSCU)
- 密码子适应指数(CAI)
- 最优密码子使用频率(Fop)
- 密码子偏好指数(CBI)
- 基因整体GC含量
- 第三位密码子GC含量(GC3s)
👉 判断:
- 表达水平
- 偏好来源(突变 vs 选择)
关于sRNA调控
- IntaRNA
- sRNA互作
实际:
👉 前提是:
- 有已注释 sRNA
如果没有:可以先不做
最终如何整合结果
不要只是堆工具,要形成逻辑:
1 | 结构域 → 功能 |
👉 最终输出:
一个“功能模型”
