SRE là gì ? Vai trò của kỹ sư Site Reliability Engineer là gì ? – infobandarpkr.com | Hiện giờ, với DevOps, có mang Site Reliability Engineer (SRE), trợ thời dịch là Kỹ sư quản lý độ tin cẩn của hệ thống hoặc Kỹ sư định hình khối hệ thống, ngày càng được biết đến nhiều hơn thế.
Bạn đang xem: Sre là gì

Nhiệm vụ của SRE là áp dụng những tinh tướng với kỹ năng và kiến thức của technology ứng dụng vào quản lý và vận hành (Operation) nhằm phương châm tạo ra các hệ thống phần mềm/hình thức có khả năng không ngừng mở rộng cùng tin tưởng cao. Bài viết này vẫn đối chiếu cụ thể vai trò của SRE cùng những kỹ năng và kiến thức cần thiết để phụ trách tốt nhất có thể phương châm này.
Contents
1. Công câu hỏi của SRE

Theo Ben Treynor, đơn vị sáng lập đội SRE của Google, thì SRE là “phần đông kỹ sư phần mềm có tác dụng các các bước tương quan mang lại vận hành”. Họ Chịu trách rưới nhiệm đảm bảo độ sẵn sàng chuẩn bị và hiệu suất của website/dịch vụ/phần mềm, đồng thời đo lường và thống kê và ứng phó sự núm xẩy ra bằng những căn cơ và các dịch vụ nhưng mà chủ thể hỗ trợ hoặc thực hiện.
Hiệu suất của đội hình SRE được đo lường và tính toán bởi thời gian khắc phục và hạn chế lỗi mức độ vừa phải (mean time to recover – MTTR) cùng thời hạn Chịu đựng lỗi mức độ vừa phải (mean time khổng lồ failure – MTTF). Nói phương pháp khác, họ đề nghị kiếm tìm giải pháp làm cho hình thức của chính bản thân mình chuyển động quay lại nkhô cứng nhất khi gặp mặt sự cầm và lần mắc lỗi tiếp theo sau (giả dụ có) bí quyết càng xa càng tốt.
2. Runbook là gì? Vai trò của Runbook với SRE

Nói một giải pháp đơn giản dễ dàng, Runbook là một tập hợp các lí giải hồ hết vấn đề cần triển khai hoặc kiểm tra Lúc có sự cố gắng xẩy ra với bất kỳ hình thức dịch vụ, áp dụng hoặc nền tảng gốc rễ làm sao đó. Runbook bắt buộc được viết sẵn trước lúc ứng dụng được tiến hành cùng đưa vào sử dụng.
Nội dung của Runbooks hướng về không hề ít chủ đề nlỗi khắc phục sự cầm hạ tầng, khối hệ thống lưu trữ hoặc ngẫu nhiên các dịch vụ với nền tảng không giống đang được thực hiện. Nếu bạn đang thao tác làm việc mang lại một đội chức chưa có Runbook, thì hãy từ bỏ mình đánh dấu nó trong quá trình khắc phục sự cố gắng.
Runbook đặc biệt có lợi cho các SRE mới đang có ít kinh nghiệm xử lý sự nuốm xẩy ra cùng với các phần mềm bắt đầu hoặc các gốc rễ không quen.
Xem thêm: Sơ Chế Thực Phẩm Tiếng Anh Là Gì, Vocab Về Quá Trình Nấu Ăn Trong
3. Báo cáo ứng phó sự cố

Sau lúc giải quyết sự nắm, nhằm rời xẩy ra ngôi trường đúng theo tương tự như, bạn nên lưu lại không hề thiếu, đúng đắn mọi gì sẽ xảy ra, các bước tiến hành cũng tương tự toàn bộ những câu lệnh mà lại chúng ta vẫn sử dụng, mặc dù chúng bao gồm hữu dụng hay là không. Đây chính là thao tác đánh dấu report đối phó sự cố kỉnh.
Ai vẫn thông tin về câu hỏi hình thức kết thúc hoạt động?Ai đang giúp sức khắc phục và hạn chế vấn đề?Ai có khả năng sẽ bị ảnh hưởng vày sự cầm đó? Sự cầm cố nghiêm trọng tới mức như thế nào, với hình thức đang xong vận động vào bao lâu?Những đọc tin trên giao hàng đến việc đào bới tìm kiếm ra nguyên nhân gốc rễ của sự thay. khi khẳng định được ngulặng nhân, bạn cũng có thể thay thế hoặc chuyển đổi một vài chi tiết cần thiết để tăng mức độ tin tưởng của gốc rễ. Điều này sẽ giúp tinh giảm thời hạn hồi sinh khi xẩy ra sự nuốm một đợt tiếp nhữa.
4. Báo cáo sau sự cố

Đối cùng với SRE, xử lý sự nắm chỉ là 1 nửa công việc. Nhóm yêu cầu bảo đảm an toàn sự ráng đó không xảy ra nữa bằng cách đối chiếu nguyên ổn nhân nền tảng gốc rễ của sự cụ.
Từ báo cáo ứng phó sự vắt đang ghi dấn tự trước, SRE phải tạo thành report sau sự cố kỉnh, bao gồm các bước cách xử lý sự ráng tại thời điểm đó, ngulặng nhân của việc ráng, phương án hạn chế với phòng dự phòng sự cố kỉnh, chiến thuật khôi phục vận động bình thường của hình thức.
5. Gisát hại cùng chình họa báo

Gigiết hại và chú ý là nhị trọng trách thiết yếu cơ mà SRE cần thực hiện. Họ yêu cầu quan sát và theo dõi hầu như số liệu hoàn toàn có thể có vào gốc rễ của bản thân để hiểu đúng đắn về tình trạng của khối hệ thống những thời gian. Đồng thời, planer thống kê giám sát nên được tạo nên cùng rất thiết kế hệ thống hoặc với từng các dịch vụ nhưng đơn vị cung cấp.
Trong thực tiễn, SRE sẽ quan sát và theo dõi các số liệu cụ thể, đặt ngưỡng với kích hoạt lưu ý dựa trên các ngưỡng kia. Tuy nhiên sau này, SRE đề nghị nghiên cứu cải cách và phát triển các hệ thống đo lường với giải pháp xử lý auto các sự cầm cố, chỉ gửi cảnh báo mang đến kỹ sư trong những ngôi trường hòa hợp quan trọng.
6. Tgiỏi đổi biện pháp cai quản lý

Các SRE tiếp tục gặp gỡ cần ngôi trường phù hợp nền tảng bị đổi khác mà lại không theo ngẫu nhiên giải đáp cấu hình thiết lập với xúc tiến làm sao. Thậm chí họ cũng không được thịnh hành kiến thức và kỹ năng về đa số chuyển đổi kia. Đây đó là nguyên nhân tại sao quan trọng lập quá trình làm chủ những thay đổi của nền tảng, cùng các nhà phát triển rất cần phải vâng lệnh quy trình này.
SRE là thành phần đặc trưng đóng góp thêm phần tùy chỉnh cấu hình các phép tắc kia và tạo thành những giải pháp quan trọng nhằm tự động hóa tổng thể tiến trình. Đồng thời tạo ra điều kiện tiến hành cùng phục sinh các các dịch vụ bắt đầu, hoặc thay đổi những dịch vụ hiện nay tất cả. Quy trình làm chủ này thường xuyên bao hàm những nhân tố bao gồm sau:
Sơ đồCác mặt liên quanKế hoạch giám sátRunbookDanh sách chủ ssinh sống hữuChiến lược sẵn sàngQuá trình thực thi với rollbackLưu giữ dữ liệuTài liệuSLAKết luận
Việc thành lập và hoạt động các đội kỹ sư SRE vào cửa hàng là 1 trong những bước tiến bự, góp nền tảng gốc rễ ngày một hoàn thành rộng rộng. Để đảm nhận giỏi các bước, mọi SRE phải học cách tự động hóa hóa quá trình có thể, cùng ghi chxay lại mọi bước quan yếu tự động hóa được. Cũng nhờ vào bao gồm phương châm của SRE, đều sự cầm xẩy ra cùng với hệ thống vẫn giảm tphát âm đáng kể!