Nguyen Le PhongNguyen Le Phong

Xây dựng văn hóa blameless

Một bài nhìn bình tĩnh về blameless engineering culture: cách team học từ incident mà không đổ lỗi, tách accountability khỏi punishment, cải thiện system, và làm con người an toàn hơn khi nói sự thật sớm.

Buổi incident review bắt đầu bằng một khoảng im lặng nhỏ. Ai cũng biết deployment nào đã kích hoạt outage. Ai cũng biết người nào đã bấm nút. Calendar invite ghi postmortem, document ghi learning review, nhưng vài phút đầu vẫn có cảm giác cả phòng đang chờ xem liệu một người có phải gánh toàn bộ câu chuyện một mình hay không.

Văn hóa blameless được thử thách chính trong khoảng im lặng đó. Rất dễ nói rằng mình không đổ lỗi khi chưa có gì sai. Khó hơn nhiều khi customer bị ảnh hưởng, revenue bị gián đoạn, hoặc leadership đang hỏi timeline. Trong những lúc đó, team có thể tìm người mắc lỗi cuối cùng nhìn thấy được, hoặc nghiên cứu điều kiện đã làm lỗi đó trở nên có thể xảy ra và dễ xảy ra.

Blameless không có nghĩa là không có consequence. Nó không có nghĩa là không ai sở hữu quyết định, không ai cải thiện, hoặc làm việc cẩu thả được bỏ qua. Nó nghĩa là team tách accountability khỏi punishment. Accountability hỏi chuyện gì đã xảy ra, signal nào bị bỏ lỡ, assumption nào hợp lý tại thời điểm đó, và system change nào sẽ giảm khả năng lặp lại. Punishment thường hỏi ai có thể được nêu tên đủ nhanh để tổ chức cảm thấy xong.

Phần lớn incident không đến từ một hành động kịch tính duy nhất. Chúng thường được xây từ những khoảng hở nhỏ trông chấp nhận được khi đứng riêng. Dashboard không rõ. Rollback path chưa từng được test. Deploy checklist trở thành thao tác máy móc. Warning alert đã noisy nhiều tháng. Code review tập trung vào style hơn failure mode. Một teammate mới học release process bằng trí nhớ thay vì documentation. Người ở cuối chuỗi trở nên nổi bật, nhưng chuỗi đó đã tồn tại từ trước.

Vì vậy ngôn ngữ trong incident review rất quan trọng. Thay vì hỏi vì sao ai đó làm vỡ production, hãy hỏi họ có thông tin gì khi hành động. Thay vì hỏi vì sao họ không biết, hãy hỏi kiến thức đó lẽ ra nên sống ở đâu. Thay vì hỏi vì sao họ bỏ qua alert, hãy hỏi alert đó đã false bao nhiêu lần trước đây. Những câu hỏi này không mềm hơn. Chúng hữu ích hơn vì chỉ tới thứ team thật sự có thể thay đổi.

Leader có trách nhiệm đặc biệt ở đây. Nếu manager âm thầm phạt người đầu tiên nói thật, incident tiếp theo sẽ chứa ít sự thật hơn. Mọi người sẽ báo chậm hơn, làm timeline nhẹ đi, giấu uncertainty, hoặc viết câu chuyện an toàn hơn sau khi sự việc qua rồi. Team không thể cải thiện một system mà họ sợ phải mô tả. Sự bình tĩnh của leadership trong failure không phải trang trí. Nó là một phần của reliability system.

Văn hóa blameless cũng cần artifact tốt hơn. Timeline nên thể hiện observation, decision, context và unknown. Action item nên đủ cụ thể để có nghĩa: thêm pre-deploy check cho migration path này, giảm alert noise cho service này, document rollback step này, thêm integration test quanh contract này, đổi permission cho operation rủi ro này. Action mơ hồ như cẩn thận hơn thường nghĩa là system chưa học được gì.

Vẫn có chỗ cho phát triển cá nhân. Một người có thể cần mentoring, review rõ hơn, pairing nhiều hơn, hoặc hiểu domain rủi ro tốt hơn. Nhưng sự phát triển đó không nên biến incident thành phiên tòa công khai. Câu hỏi không phải con người có thể ít mắc lỗi hơn bằng nỗ lực không. Có thể. Câu hỏi sâu hơn là system có hỗ trợ quyết định tốt khi con người mệt, vội, mới, mất tập trung, hoặc thiếu context hay không.

Trust lớn lên khi team thấy honesty dẫn tới improvement thay vì humiliation. Developer báo một near miss trước khi nó thành outage. QA chia sẻ uncertainty thay vì giả vờ tự tin. Product owner nêu requirement khó hiểu sớm hơn. Support nói customer đang thấy một pattern trước khi dashboard bắt được. Blameless culture không chỉ dành cho incident sau khi đã có thiệt hại. Nó dành cho mọi khoảnh khắc nhỏ khi sự thật có thể đến sớm.

Nó cũng cần sự kiên nhẫn vì thói quen cũ rất dễ quay lại khi áp lực tăng. Sẽ vẫn có người hỏi ai gây ra chuyện này. Sẽ vẫn có người muốn một câu trả lời đơn giản. Sẽ vẫn có người nhầm calmness với thiếu nghiêm túc. Team phải luyện một nhịp khác: chậm lại, dựng lại context, bảo vệ sự thật, chọn improvement cụ thể, và follow up sau đó để xem improvement có thật sự xảy ra không.

Lời hứa yên tĩnh của văn hóa blameless không phải failure sẽ biến mất. Nó là failure sẽ dạy nhiều hơn và giấu ít hơn. Nếu team bạn từng đi qua một incident review làm cách mọi người nói chuyện thay đổi sau đó, có lẽ đáng nhớ lại điều gì đã làm căn phòng đủ an toàn để câu chuyện thật xuất hiện.

Bạn thấy bài viết thế nào?