cleanUrl: "parsing-pdb-files-with-biopandas"
description: "Python biopandas 패키지를 이용하여 PDB 파일을 파싱하는 법에 대해 정리합니다."
아래 함수로 pandas dataframe을 얻는다. 참고로 -fold 모델은 b_factor
컬럼을 이용해서 pLDDT값을 구할 수 있음.
from biopandas.pdb import PandasPdb
def read_pdb(fp, chain_id=None, ca_only=True):
tmp = PandasPdb().read_pdb(fp).df['ATOM']
if chain_id is None:
return tmp[tmp.atom_name == 'CA'].drop_duplicates('residue_number')
else:
return tmp[(tmp.atom_name == 'CA') & (tmp.chain_id == chain_id)].drop_duplicates('residue_number')
ca_only
: C-alpha 만 읽어온다. 이렇게 해야 residue 당 하나의 row가 나와서 분석하기 편함.