How do i summarize values attributed to several variables in a data set?
首先,我必须描述我的数据集。它由三列组成,其中数字1是国家/地区,数字2是日期(%Y-%m-%d),数字3是与每一行相关的值(平均酒店客房价格)。从1990年到2019年,它像这样连续地运行。它的工作方式如下:
1 2 | Country Date Value France 2011-01-01 700 |
等
我正在尝试将日期转换为年份,而不是正常的%Y-%m-%d格式,因此它将代替每年(而不是每个月)每个国家/地区的平均值。我将如何去做?
我曾考虑过每年对每个国家的值进行汇总,但这非常繁琐且耗时很长(而且代码看起来很可怕)。因此,我想知道是否存在针对我没有看到的此问题的更好的解决方案。
到目前为止,这是手头的任务。我的数据集
1 2 3 | diffyear <- priceOnly %>% group_by(Country, Date) %>% summarize(averagePrice = mean(Value[which(Value!=0.0)])) |
您可以使用
像这样的东西:
1 2 3 4 5 | diffyear <- priceOnly %>% mutate(Year = year(Date)) %>% filter(Value > 0) %>% group_by(Country, Year) %>% summarize(averagePrice = mean(Value, na.rm = TRUE)) |
通常,您应该始终在问题上提供一个可重现的示例。