一、写在前面

这是一套通用的细菌基因生物信息学分析流程教程

特点：

✔ 工具简单（基本网页 + 少量命令行）
✔ 可复现
✔ 结构完整

二、整体流程（核心框架）

基因序列
↓
蛋白翻译
↓
理化性质分析
↓
亚细胞定位
↓
结构域分析
↓
三级结构预测
↓
系统发育分析
↓
调控与功能分析
↓
密码子偏好分析

👉 记住一句话：

结构 + 定位 + 进化 + 调控 = 完整功能推断

三、操作

步骤1：获取基因与蛋白序列

来源：

NCBI Genome / RefSeq
本地测序数据

常见文件：

1
2
3

.fna   # 基因组
.faa   # 蛋白
.ffn   # CDS

👉 目标：拿到

CDS序列
蛋白序列
基因组

基本特征分析：

EMBOSS: cusp

输入CDS 序列进行密码子使用分析，得到：

基因全长

长度	一般含义
<300 bp	小肽/调控蛋白
300–1500 bp	常规酶蛋白（最常见）
>2000 bp	多结构域蛋白

编码AA数目

长度	结构特点
<100 aa	小蛋白
100–400 aa	单结构域
>400 aa	多结构域

GC含量–> 与翻译效率和mRNA稳定性有关

类型	GC含量
AT-rich	<40%
平衡型	40–60%
GC-rich	>60%

如果某基因 GC ≠ 基因组平均值

可能说明：

水平基因转移（HGT）

步骤2：蛋白理化性质分析

工具：ProtParamExpasy - ProtParam

输入：蛋白序列

输出：

分子量
pI
GRAVY
稳定性

👉 作用：

判断蛋白是稳定/亲水/膜蛋白趋势

工具：ProtScaleExpasy - ProtScale

步骤3：亚细胞定位

工具：PSORTbPSORTb Subcellular Localization Prediction Tool - version 3.0

关注：

Cytoplasmic
Membrane
Extracellular

👉 关键判断：

是否分泌蛋白

步骤4：结构域分析

工具：

NCBI CDDCD-Search: New Query
Pfam / InterProInterPro

关注：

E-value < 1e-5

👉 核心意义：

决定蛋白“干什么”

步骤5：三级结构预测

工具：

AlphaFold / ColabFold

输出：

PDB / CIF

验证：

PROCHECK（Ramachandran）PDBsum Generate

👉 判定标准：

最优区 ≥ 90%（理想）

类型	工具	本质
AlphaFold指标	pLDDT / PAE	AI预测置信度
PROCHECK	Ramachandran	几何结构合理性

注：现在的alphafold3输出的各种指标就足够判断了，不一定非要做PROCHECK

步骤6：系统发育分析

流程：

1	BLASTp → MAFFT → TrimAl → IQ-TREE

BLASTp找同源蛋白，根据亲缘关系远近选出合适的序列，使用MAFFT软件（–auto参数）进行多序列比对，并利用TrimAl（-gt 0.8）去除低质量比对区域。基于修剪后的序列，采用IQ-TREEiTOL: Interactive Tree Of Life构建最大似然系统发育树，并利用ModelFinder自动选择最优替换模型，进行1000次ultrafast bootstrap重复评估分支支持率。

意义：

判断进化关系
判断是否保守蛋白

步骤7：启动子与调控元件

工具：MEMEMEME - Submission form

对基因上游 200 bp 候选启动子区域进行 MEME 分析

在 DNA 序列中寻找潜在的转录因子结合位点（motif）

参数：

nmotifs = 5

最多找几个“调控信号”

minw = 6

最短 motif = 6 bp，太短假阳多

maxw = 20

最长 motif = 20 bp，太长没有生物学意义

注意：

单序列结果参考意义有限

步骤8：蛋白互作网络

工具：STRINGSTRING: functional protein association networks

参数：

物种指定
score ≥ 0.7（推荐）

👉 看：

代谢通路
毒力相关蛋白

步骤9：信号肽预测

工具：SignalP 6.0SignalP 6.0 - DTU Health Tech - Bioinformatic Services

👉 输出：

是否分泌
切割位点

步骤10：翻译后修饰

工具：

NetPhos（磷酸化）NetPhos 3.1 - DTU Health Tech - Bioinformatic Services

注意：

细菌没有O-glycosylation预测工具（常规的如NetOGlyc 主要适用于真核蛋白 O-GalNAc 糖基化预测，与细菌蛋白修饰机制差异较大，不用）

步骤11：密码子偏好性

工具：CodonW

指标：

有效密码子数（ENC）
相对同义密码子使用度（RSCU）
密码子适应指数（CAI）
最优密码子使用频率（Fop）
密码子偏好指数（CBI）
基因整体GC含量
第三位密码子GC含量（GC3s）

👉 判断：

表达水平
偏好来源（突变 vs 选择）

关于sRNA调控

IntaRNA
sRNA互作

实际：

👉 前提是：

有已注释 sRNA

如果没有：可以先不做

最终如何整合结果

不要只是堆工具，要形成逻辑：

结构域 → 功能
定位 → 作用位置
系统树 → 保守性
修饰 → 调控
密码子 → 表达

👉 最终输出：

一个“功能模型”