cleanUrl: "parsing-pdb-files-with-biopandas"
description: "Python biopandas 패키지를 이용하여 PDB 파일을 파싱하는 법에 대해 정리합니다."

BioPandas

Quickstart

아래 함수로 pandas dataframe을 얻는다. 참고로 -fold 모델은 b_factor 컬럼을 이용해서 pLDDT값을 구할 수 있음.

from biopandas.pdb import PandasPdb

def read_pdb(fp, chain_id=None, ca_only=True):
    tmp = PandasPdb().read_pdb(fp).df['ATOM']
    if chain_id is None:
        return tmp[tmp.atom_name == 'CA'].drop_duplicates('residue_number')
    else:
        return tmp[(tmp.atom_name == 'CA') & (tmp.chain_id == chain_id)].drop_duplicates('residue_number')