Skip to main content

Command Palette

Search for a command to run...

监控改造之路4

Updated
1 min read

read the fucking manual

这本是去年就该完成的,但回顾来看,又觉得似乎不太值得,只因为:

read the fucking manual

历史背景

团队的监控可视化使用的是Grafana,我想,这应该是绝大部分人会使用的监控可视化方案吧。偶然,我发现在项目里面有一些奇怪的逻辑:

  • grafana的面板存放在团队自己的数据库内(grafana默认使用sqlite)

  • grafana是裸奔的;

  • 团队后端服务有从数据库中将模板同步到grafana的逻辑,原因是防止grafana模板丢失(eg: 模板被人从grafana中删除)

首先,模板存储在团队自己的DB中就让人很疑惑,特别是当我做快速部署时,看到KB级的字段时,对于崇尚精巧的笔者而言,那心情,真的无法用言语来形容。言归正传,我所理解的监控,跟主业务关系不大,没必要耦合在一起,它可以独立部署,也可能配合主服务一起使用,但终究是一个边缘的业务/平台/系统。将其与主服务强绑定,在贵司这个场景下,很容易做的多,反而错的多。

文档

本着相信社区一定已经将此事做好的原则,我再一次踏上了阅读官方文档的历程。就果然被我给找到了,这其中我经历了两个阶段

模板目录

You can manage dashboards in Grafana by adding one or more YAML config files in the provisioning/dashboards directory

一开始,我只是注意到可以将模板放置在该目录,但是并不十分清楚在grafana管理中心是否能删除我存放在该目录的模板

  • 若能删除,则无法平替原先的逻辑

  • 若不能删除,那又可以删一堆冗余代码了(开心)

其实这点很容易验证,直接在grafana管理端验证即可,找一个模板删除看看

Delete Dashboard

结果符合预期

Demo

目录结构


├── dashboards
│   └── zk.json
├── docker-compose.yml
└── provisioning
    └── dashboards

docker-compose.yml

services:
  grafana:
    environment:
      - GF_PATHS_PROVISIONING=/etc/grafana/provisioning
      # - GF_SECURITY_ADMIN_PASSWORD=newpassword
      # - GF_SECURITY_ADMIN_USER=newuser
      # 强烈不建议允许匿名登录,这就是我上面提到的裸奔
      - GF_AUTH_ANONYMOUS_ENABLED=true
      - GF_AUTH_ANONYMOUS_ORG_ROLE=Admin
      - GF_SECURITY_ALLOW_EMBEDDING=true
    image: grafana/grafana:10.2.2
    volumes:
      - ./provisioning/:/etc/grafana/provisioning/
      - ./dashboards:/var/lib/grafana/dashboards
    ports:
      - "3000:3000"
#cat provisioning/dashboards/dashboard.yml
apiVersion: 1
providers:
- name: Prometheus
  orgId: 1
  folder: ''
  type: file
  options:
    path: /var/lib/grafana/dashboards

dashboards/zk.json从grafana模板市场下载的zookeeper的dashboard模板

总结

我已经记不清这是第几次借力第三方平台,通过文档、配置减少耦合与业务冗余代码了,但是看文档真的是需要耐心和专注……借用最近看的推文来结束吧

据我观察,主要是因为,一些技术人员不思进取,获取信息的能力也有限。调研能力不足的情况下,就只能重复发明纸糊的轮子。实际上是一种惰性。


参考:

124 views

More from this blog

2025: 祛魅 灰度 念头通达

今天是2025年的最后一天,当大家都在准备下班的时候,好巧不巧的,我刚好发现了一个不大不小的问题,大胆猜想,小心求证,向上反馈,暴露风险,作为2025年工作注解,实在是再有趣不过了。 今年的工作,从结果上看,还算平稳,至于过程,有太多不可言说的部分。厂里打镙丝的牛马,有工资可拿,理应知足了,至于其它的,与己无关,也没那么重要了。 祛魅 近距离观察大厂,才发现一些违背常识/直觉的事实:路人以为的高大

Feb 28, 20261 min read21

大厂祛魅:破碎的专注力

毁掉一个人最直接的方法,就是毁掉ta的专注力。 这句话的出处已然模糊,但放在大厂环境中,却显得格外深刻。 围城 大厂宛如一座围城。城外的人满怀憧憬,目之所及皆是光鲜;城内的人却如困笼之鸟,翅膀日渐退化,每日挣扎求生。 高大上 不可否认,大厂的硬件设施确实令人艳羡:宽敞的独立园区内,来往穿梭的人群中,几乎人人手握智能设备。这看似现代化的景象背后,却藏着一个无奈的事实:在工作时段,每台电脑都被严密监控,连听音乐都成奢望。于是,工作之余玩手机,成了许多人难得的解压方式。 大厂的品牌效应确实强大。外界对...

Jul 29, 20251 min read138

Black Swan

黑天鹅理论 是指极不可能发生,实际上却又发生的事件 来到大厂打工已经满一个月了,从一开始的手足无措,到逐渐度过不适期,也算是适应了吧。 不适应 刚入职时,不适应的地方还是挺多的。 第一次只使用台式机工作,这就限制了我一天中的绝大部分时间,都必须呆在自己的工位上,好在工位足够大。只是人与人的沟通少了很多,有问题只能在工位上通过 IM 呼对方,有种魔幻又现实的感觉 第一次只能用 Windows,也不能 WSL,这给我的工作效率带来了很大影响,不能用熟悉的软件,就连写代码用的 VSCode 的...

Jan 24, 20251 min read74

2024年: 逐渐平静

这个世界是一面镜子,会把你的感受反射给你 2024 开端: 相由心生 那时,还带着一着愤懑,因为拿到了低绩效,虽然内心知道这是公司经营困难,想让我离开的一种策略,但仍然感受到自己那可笑的自尊受到了践踏。自那之后,非必要不加班,只做份内事,尽可能地不去涉及份外之事。 2024 年中: 与人为善 组里的项目眼见不行了,我被迫去支援 AI 项目,久违地写起了 python,项目接近完成时,意外收到通知:我拿到大礼包了。在这之前,架构师因故裸辞。在我离开之后不到两周,我的 TL 也裸辞了,直到同事告诉...

Jan 9, 20251 min read92

企业软件之殇

殇 动词 未成年而死。 名词 战死者。 笔者经历了两家打着云原生旗号的企业软件/解决方案公司,都是中途加入,项目都以解(失)散(败)告终。 云原生解决方案 NB 公司:一个传统的 IDC 小厂,想着借云原生的热度,进军企业软件市场。 在加入这个项目之前,笔者考取了 CKAD 认证,彼时对 K8s 相当着迷。先简要介绍一下这个项目背景: 基于 Rancher (换皮肤)的二次开发项目,名字叫:HCaaS ,在笔者加入这个团队之前,项目已经开发近两年了,除了 TL 之外,其它人之前都...

Jul 1, 20241 min read103

just for fun

57 posts

I'm a Software Engineer