SRE Lounge #6 のメモ
盛大に遅刻して最後のセッションしか聞くことができなかったので、 発表資料を探して閲覧。(今現在はもう全部connpassに上がっているようです)
FOLIO での SRE について
資料だけ閲覧
- Scala/Microservice/RPC
- Scala選定の理由は静的型付けによる実装時バグ減と採用のしやすさ
- Finagle/Finatra
- Microservice
- RPC
- gRPCはまだメジャーリリース前だったのでThrift
- vSphereからAWSへ移行(全8フェーズ)
- デプロイフローはGitLab -> Jenkins -> S3 <- AWS CodeDeploy -> EC2(Blue/Green)
- 監視はDatadogに集約してtemplateはGitLab管理
Reading "The Site Reliability Workboook"
資料だけ閲覧
- SRE Workbookから学ぶ
- SLO/Monitoring/Alert/Toilがコア?
- Postmortemは組織が巨大化すると必要
- Non-Abstract Large System Design
- 高可用システム設計手法
- 最初に1台のマシンで考え、SPoFを潰していくイメージ?
- Configuration Design and Best Practice
- Configurationを持続設計可能にする手法
- 少ない設定項目でユーザの目標を実現する(理想は一切Configurationされないこと)
- 設定は徐々に適用してまずかったらロールバック
80ページくらいで止まってたけど読んでみよう...
freeeにおけるSREの取り組みとこれから
唯一聞けたやつ
- 共通基盤化が必要
- 殆どのサービスがAWS環境
- 監視はMackerel
- 負荷の上がるタイミングでScheduled Actionでインスタンス増とかしてる
- CloudFormation管理しているが一部は温かみのある運用
- AMIが古くなって立ち上げが遅くなったりしたら更新したり
- predictive scalingに期待
- SREオンボーディング
- SRE4人加入して計7名になったので
- 3-4件/day 来る問い合わせを積極的に拾ってキャッチアップしていく -テスト環境構築でサービス構成を学ぶ
- SREヒーロー/SRE留学
- SRE以外のメンバをSREに呼ぶ
- 障害対応とかSREタスクのレビュー依頼とか
- 運用知見共有
- 障害振り返り
- "あえて共有"の文化
- 権限委譲
- onelogin/aws iam role
- アプリエンジニアがインフラ設定を修正してPR作成
- SREが承認と適用を実施
- elastalert
- 開発環境改善
- PRを評価するテスト環境を構築
- テスト実行まで実施
- 各マイクロサービスのバージョンを指定してテストはまだ?
- コンテナ化はアプリエンジニア手動で代替完了
- production動作はまだ
- AWS EKSに期待