【编者按】本文作者为 Maria Arbisman,主要介绍 Google 与 Facebook 两大巨头是如何大规模处理 IT 事件管理。文章系国内 ITOM 管理平台 OneA...
本文节选自即将出版的《SRE:Google运维解密》(俗称《Google SRE》中文版),由Google 前资深SRE 孙宇聪 担任译者。文末有彩蛋,专供喜爱高效运维的您 从S...
秋水
从10月底到12月初, 数人云与复旦大学合作开授了面向复旦大学软件工程学院软件工程硕士的《信息系统工程概论(SRE:大规模应用运维实践)》系列选修课程,今天小数为大家带来此次选修课...
数人云SRE系列教程持续更新。 今天小数为大家带来的是数人云CTO肖德时的线上分享。SRE监控理念区别于传统监控的一个特点就是新一代基于时间序列存储的监控。本文通过概念解析以及举例...
前言这是读“SRE Google运维解密”有感第二篇,第一篇参见 这本书最近又读了几章,结合自己的经历,有些地方真的能感同身受,有些地方也惊叹SRE充满辩证的思想,总之SRE是好一...
运维小青年,敲点命令,挣点零花钱。
今天是会议的最后一天,日程的安排要更加简单些,彻底放弃了Facebook的session,搞不好这个MyRocks的数据库引擎还不如高斯DB……。所以第一个话题选择了阿里的《Cap...
每日的流水账都记完了,整体总结下这次在新加坡的SRECon。时间成本:• 会议的时间3天,全部为工作时间-_-!• 在途时间,得看选择的航班,因为时间关系我选择的班级转机等待时间比...
本文根据作者在美团点评第21期技术沙龙的分享记录整理而成。背景SRE(Site Reliability Engineering)是Google于2003年提出的概念,将软件研发引入...
我们信仰耐心和坚持的力量,愿意持续去做一些正确...
若是把运维当作一门学科来看,是有难度的.不仅因为如何很好的运行系统这种普遍问题未得到解决外,现存的最佳实战也因高度依赖环境,而未得到广泛使用;另外一个未解决的问题就是如何更好的管...
微信公众号:cloudstackcommuni...
本系列文章将详细介绍如何从0到1快速构建SRE团队具体实战内容,敬请关注。上期文章《一文彻底读懂DevOps与SRE来龙去脉》 "On-call"言下之意就是"随叫随到,待命"。o...
DevOps 和 SRE 定义 两者产生背景和历史 两者的职能不同 工作内容不同 DevOps 和 SRE 关系 附录:技能点 Ref 最近有一位朋友和我聊职业发展方向问题,聊了不...
一名普通的程序猿
作者 | Aymen El Amri译者 | 杨雷好长的技能清单!这个列表并非详尽无遗,只是列举了技术基础、必须知道的技能和一些随机的想法。可以用它们作为一个清单来评估你自己或其他...
本文主要介绍了SRE的日常工作及存在的各方面问题。上篇文章回顾:TiDB应用实践1.日常巡检发现新扩容的一台web转发服务器负载异常。比原来的稍高仍然在正常范围内,but作为一个S...
定期分享云存储、云计算、系统、网络、运维、私有...
前言在搜索SRE和DevOps相关概念的过程中偶然发现Google Cloud的Blog专门制作了这样一篇文章,国内虽然有不少翻译但并没有完全做到翻译术语中的“信,雅,达”,这里转...
DevOps
原文:https://medium.com/dm03514-te...结构化的metric命名空间对于需要快速获取信息的故障场景非常重要。为了能支持广泛的查询和扩展场景,需要仔细考...
科幻影迷,书虫,硬核玩家,开发者 求知者
问题很关键为了帮助大家思考数据需要能回答什么问题?在第一个例子里数据不能回答“在所有实例里每秒处理多少请求?”,但命名空间树可以。客户端库提供命名空间可以回答:所有客户端生成的所有...
编者按本文是阅读 Site Reliability Engineering: How Google Runs Production Systems一书时所做的一些笔记。这本书其实是...
云计算、网络虚拟化、sdn、数据中心网络、分布...
监控值班室: @隔壁老王头 SQL执行耗时时间过长,达到了报警阈值【5000ms】 隔壁老王头: @监控值班室 少量报警请忽略,批量关注即可。 监控值班室: @隔壁老王头 ...
资深程序员
SRE和DevOps有什么区别?您可能会说这很大程度上是语义问题,实际上,SRE和DevOps工程师扮演着相同的基本角色。尽管如此,SRE和DevOps之间还是存在一些区别,即使是...
一群在互联网苟且偷生的运维
In early 2019, we started visiting campuses across India to recruit the best and brightes...
开发者
大家好,我是周刊菌。 以下内容选自「码农周刊 VIP 会员」圈子,每日更新,精彩不断。「码农周刊 VIP 会员」推出 34 周啦!感谢亲们的大力支持!第 034 期「码农周刊 VI...
没错,我就是头条君。求关注~
本文源自《SRE工作手册》英文版第三章,讲述的是家得宝(THD)公司在SRE转型中如何使用VALET。 VALET 是一个易记易用的模式语言,分别代表: Volume Availa...
going
SRE 关键词是「高扩展性」「高可用性」。高扩展性是指当服务用户数量暴增时, 应用系统以及支撑其服务(服务器资源、网络系统、数据库资源)可以在不调整系统结构,不强化机器本身性能 ...
hello world
祝坤荣 读完需要7分钟速读仅需 3 分钟原文 ( https://dzone.com/articles/top-open-source-projects-for-sres-and-...
在过去三年 SRE 的经历中,遇到过多起因为 JVM OOM 导致的线上故障。其中印象最深的一次排查经历:收到故障外呼后,几个大男人现场梳理业务链路,经过一番排查,最后发现根因竟然...
公号:Python猫
如果对于生产环境的故障没有一个提前的准备,出现故障时,团队必定手忙脚乱。前段时间,笔者设计了一个线上故障处理的流程模板。当出现故障时,根据这个模板创建一个故障单,然后团队的人各司...
公众号关注 「奇妙的 Linux 世界」设为「星标」,每天带你玩转 Linux !有很多人问过我想了解一下 SRE 这个岗位,这是个很大的话题,在这篇博客中把想到的一些介绍一下吧。...
工程师
《Android高级进阶》作者,欢迎关注我的微...