Kubernetes Pod通过StackDriver重新启动警报

Kubernetes pod restart alert via stackdriver

我有一个基于stackdriver log的度量跟踪GKE pod重新启动。

如果警报数量超出预定义的阈值,我想通过电子邮件发出警报。

我不确定我需要设置inroder来通过堆栈驱动程序触发警报的阈值。我通过部署的服务有三个Pod。


GKE已经向Stackdriver发送了一个度量标准:container/restart_count。您只需要按照管理警报策略中所述创建警报策略即可。根据官方文档,此指标公开:

Number of times the container has restarted. Sampled every 60 seconds.


您应该使用日志查看器并创建过滤器:

作为资源,您应该选择GKE Cluster Operations并添加一个过滤器。

过滤器可能如下所示:

1
2
3
4
resource.type="k8s_cluster"
resource.labels.cluster_name="<CLUSTER_NAME>"
resource.labels.location="<CLUSTR_LOCATION>"
jsonPayload.reason="Killing"

之后,通过单击Create metric按钮创建自定义指标。

然后您可以通过单击Logs-based metrics中创建的度量标准来Create alert from metric

然后设置触发器,条件和阈值的配置。

至于正确的阈值,我将取过去一段时间的平均重启次数,并将其用于警报。