永发信息网

如何在NCBI实现大批量数据的一一对应

答案:1  悬赏:20  手机版
解决时间 2021-11-28 12:58
如何在NCBI实现大批量数据的一一对应
最佳答案
先来讲讲NCBI的。
用FTP登陆ftp.ncbi.nih.gov(windows下可以直接打开或是用迅雷/Flastget等下载工具)。cd gene/DATA(windows下依次找到gene/DATA这个文件夹)。ls一下,里面的文件大概有:
ncftp /gene/DATA > ls
ASN_BINARY/ gene2sts gene_refseq_uniprotkb_collab.gz
ASN_OLD/ gene2unigene go_process.xml
gene2accession.gz gene_group.gz mim2gene
gene2go.gz gene_history.gz misc/
gene2pubmed.gz GENE_INFO/ README
gene2refseq.gz gene_info.gz

下面主要解释一下一些常用的文件。
1,gene2accession.gz,这里面的数据比较多,包含有NCBI所有的accession。但主要有以下的:
tax_id GeneID nucleotide_accession nucleotide_gi protein_accession protein_gi

2,gene2go.gz,主要是Gene与GO之间的一一对应。里面的数据主要有:
tax_id GeneID GO_ID GO_term
3702 814629 GO:0003676 ucleic acid binding

3,gene2pubmed.gz,主要是Gene与Pubmed ID的一一对应。
tax_id GeneID PubMed_ID
9 1246500 9873079

4,gene2unigene,Gene与Unigene数据库的一一对应
GeneID UniGene_cluster
1268433 Aga.201

5,gene2refseq.gz,这个就不多讲。跟gene2accession.gz类似。不过其中的accession都是RefSeq数据库的。
6,gene_info.gz,是NCBI的Gene数据库。包含有Gene的gene_name(Symbol),第几号染色体等。主要有:
tax_id GeneID Symbol chromosome description
大概就这些。如果你会用Linux,这些大批量的一一对应是非常简单的。在GO/EMBL/Uniprot等也有类似的批量对应。以后有需要有讲到。
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
成语故事 要求1分钟能讲完的
平湖附近到底有没有海滩啊?
我跟男友谈了半年感觉太累了,怎么办
我在黎荣珠宝花了1200元买了条925细如丝的吊
gta5 PC版出现err gfx d3d init
iphen6plus是三网通吗
我国的地名用—川、潼、梓等字做地名,是什么
读一读下面的儿歌猜一猜谜语,猜一动物,一把
一天共铺路540米,下午是上午的11分之7,下午
卫康和福布斯是什么关系
欧洲卡车模拟二这另外一个是什么?
在引用的wcf服务中如何看到方法的注释
盛有清水的封闭试管水平放置,内有一较大的空
兵锋镭战天下俱乐部地址有知道的么?有点事想
花露水能防止臭虫吗
推荐资讯
果蔬纤维咀嚼片可以减肥吗
After the education reform(改革) in Jiangs
宁德打胎好不好
芒果tv《旋风少女2》暑期如约而至,除了独播
我有一辆七成新五征牌农用柒油三轮车,柴油机
热烫加染个颜色要多久左右,求解
调成了兼容69797的模式,怎么还是wwW69797CoM
如何调HP6510b笔记本屏幕亮度
珠海到哈市
台湾人到大陆找工作是不是很难
怎么使用座机打长途
我要挣钱
正方形一边上任一点到这个正方形两条对角线的
阴历怎么看 ?