SRE Lounge #6 のメモ - tshohe's memo

盛大に遅刻して最後のセッションしか聞くことができなかったので、発表資料を探して閲覧。（今現在はもう全部connpassに上がっているようです）

FOLIO での SRE について

資料だけ閲覧

資料だけ閲覧

SRE Workbookから学ぶ
SLO/Monitoring/Alert/Toilがコア？
Postmortemは組織が巨大化すると必要
Non-Abstract Large System Design
- 高可用システム設計手法
- 最初に1台のマシンで考え、SPoFを潰していくイメージ？
Configuration Design and Best Practice
- Configurationを持続設計可能にする手法
- 少ない設定項目でユーザの目標を実現する（理想は一切Configurationされないこと）
- 設定は徐々に適用してまずかったらロールバック

80ページくらいで止まってたけど読んでみよう...

唯一聞けたやつ

共通基盤化が必要
殆どのサービスがAWS環境
監視はMackerel
負荷の上がるタイミングでScheduled Actionでインスタンス増とかしてる
CloudFormation管理しているが一部は温かみのある運用
AMIが古くなって立ち上げが遅くなったりしたら更新したり
predictive scalingに期待
SREオンボーディング
- SRE4人加入して計7名になったので
- 3-4件/day 来る問い合わせを積極的に拾ってキャッチアップしていく -テスト環境構築でサービス構成を学ぶ
SREヒーロー/SRE留学
- SRE以外のメンバをSREに呼ぶ
- 障害対応とかSREタスクのレビュー依頼とか
- 運用知見共有
障害振り返り
"あえて共有"の文化
権限委譲
- onelogin/aws iam role
- アプリエンジニアがインフラ設定を修正してPR作成
- SREが承認と適用を実施
elastalert
開発環境改善
- PRを評価するテスト環境を構築
- テスト実行まで実施
各マイクロサービスのバージョンを指定してテストはまだ？
コンテナ化はアプリエンジニア手動で代替完了
production動作はまだ
AWS EKSに期待