关于r:如何总结归因于数据集中多个变量的值?

How do i summarize values attributed to several variables in a data set?

首先,我必须描述我的数据集。它由三列组成,其中数字1是国家/地区,数字2是日期(%Y-%m-%d),数字3是与每一行相关的值(平均酒店客房价格)。从1990年到2019年,它像这样连续地运行。它的工作方式如下:

1
2
Country  Date        Value
France   2011-01-01  700

我正在尝试将日期转换为年份,而不是正常的%Y-%m-%d格式,因此它将代替每年(而不是每个月)每个国家/地区的平均值。我将如何去做?

我曾考虑过每年对每个国家的值进行汇总,但这非常繁琐且耗时很长(而且代码看起来很可怕)。因此,我想知道是否存在针对我没有看到的此问题的更好的解决方案。

到目前为止,这是手头的任务。我的数据集priceOnly显示了每个月的平均价格。我也将其归因于仅显示不等于0的值。

1
2
3
diffyear <- priceOnly %>%
group_by(Country, Date) %>%
summarize(averagePrice = mean(Value[which(Value!=0.0)]))


您可以使用lubridate包提取年份,然后相应地进行总结。
像这样的东西:

1
2
3
4
5
diffyear <- priceOnly %>%
  mutate(Year = year(Date)) %>%
  filter(Value > 0) %>%
  group_by(Country, Year) %>%
  summarize(averagePrice = mean(Value, na.rm = TRUE))

通常,您应该始终在问题上提供一个可重现的示例。