关于r:绘制沿染色体不同SNP的等位基因频率的好方法

Good way to graph allele frequency of different SNPs along chromosomes

我有一组来自基因组不同部分的SNP,以及它们在不同的种群和感兴趣的种群中的等位基因频率。我想绘制所有22个常染色体沿SNPs基因组坐标的等位基因频率。

基本上,我想从Sankararaman等人那里生成类似图1A的内容。 (2014)(http://www.nature.com/nature/journal/v507/n7492/fig_tab/nature12961_F1.html),但Y轴是频率,所有种群都在同一张图上(未分开),而且我会用彩色的点代替尖峰。

我的数据是这样格式化的(MAF =较小的等位基因频率,这是我要绘制的图形)

1
2
CHR    SNP        COORD   CLST   A1   A2    MAF    MAC  NCHROBS
1   rs16823303  2903159  Region  G    A   0.01887   4     212

(它会遍历某个区域的所有SNP,然后针对下一个区域进行处理,依此类推)

关于如何在R中执行此操作的任何建议?谢谢!


下面是一个简单的坐标与频率的关系图:

1
2
3
4
5
6
7
#Example data:
MAF=runif(1000,min=0,max=1)
COORD=runif(1000,min=0,max=100000)
test.df=data.frame(COORD,MAF)

#plot
plot(test.df$COORD,test.df$MAF)

在绘图中,您不需要示例数据,但是需要用表名代替test.df

如果您需要使用颜色/标签等来美化它,也可以这样做:

1
plot(test.df$COORD,test.df$MAF, col="red", pch=18)

1
2
3
library(ggplot2)
p=ggplot(test.df,aes(COORD,MAF))
p + geom_point()

我认为这是非常笼统的问,而不是与程序相关的问。我不确定在SO中是否有任何适当的标签来获取答案(可能是Google基因组学,但是SO可以解决您的代码问题) 。但是,我可以为您指出一些您可以开始使用的网络资源。

http://ged.msu.edu/angus/tutorials-2011/allele_freq_plots_R.html

https://www.biostars.org/p/18954/

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4390227/

https://biodatamining.biomedcentral.com/articles/10.1186/1756-0381-6-18

您可以从这些开始,当遇到障碍时,可以将无法成功运行的代码粘贴到SO中。