蛋白质结构数据集
文件列表(压缩包大小 27.45M)
免费
概述
这是从结构生物信息学(RCSB)蛋白质数据库(PDB)研究中所检索到的蛋白质数据集。
PDB档案库是描述蛋白质和其他重要生物大分子的信息的存储库。结构生物学家使用诸如X射线,NMR光谱和低温电子显微镜等方法来确定每个原子在分子中相对于彼此的位置。然后,他们存储此信息,由wwPDB对其进行批注并公开发布到存档中。
PDB的数据在不断增加,这反映了全世界的实验室都在进行此项研究。这使得在研究和教育中使用数据库既令人兴奋又充满挑战。
生命过程中涉及的许多蛋白质和核酸都有可用的结构,因此你可以到PDB档案中查找核糖体,癌基因,药物靶标甚至整个病毒的结构。
但是,由于PDB归档了许多不同的结构,因此找到所需信息可能是一个挑战。你通常会发现给定分子有多个结构,已从其天然形式被修饰或失活的结构。
内容 有两个数据文件,都在“ structureId”:
pdb数据no_dups.csv包含蛋白质元数据,其中包括有关蛋白质分类,提取方法等的详细信息。
data_seq.csv包含> 400,000个蛋白质结构序列。
致谢 从http://www.rcsb.org/pdb/下载的原始数据集
用途 蛋白质数据库帮助生命科学界研究各种疾病,研究有助于人类生存的新药和解决方案。
via:https://www.kaggle.com/shahir/protein-data-set?select=pdb_data_seq.csv
如果遇到文件不能下载或其他产品问题,请添加管理员微信:ligongku001,并备注:产品反馈
评论(0)