Báo cáo sự cố của Google Trò chuyện cho biết cách có thể xảy ra sự cố

Một báo cáo sự cố của Google có nội dung “Bí mật – Không phải để xuất bản“Google Trò chuyện dường như đã bị rò rỉ. Tài liệu cung cấp một cái nhìn sơ lược về cách thức hoạt động của back end của Google có thể bị lỗi. Mặc dù không liên quan đến các lỗi lập chỉ mục gần đây của Google, nhưng nó cung cấp một cái nhìn tổng quan về sự phức tạp của các hệ thống của Google và các loại lỗi có thể xảy ra.

Ảnh chụp màn hình báo cáo sự cố của Google

Bối cảnh về sự cố ngừng hoạt động của Google Trò chuyện

Khoảng hai tuần trước sự cố lập chỉ mục của Google, đã xảy ra sự cố phụ trợ với Google Trò chuyện. Một bản cập nhật đã được giới thiệu có chứa một cái gọi là “bộ xử lý bài” được cho là sẽ bắt đầu sau một bộ xử lý trước nhất định.

quảng cáo

Đọc bên dưới

Rõ ràng, nhóm kỹ sư đã không biết về một lỗi tồn tại trước đó đã gây ra sự cố ngừng hoạt động lớn sau bản cập nhật vào ngày 17 tháng 9 năm 2020.

Người ta ngụ ý rằng lỗi không được phát hiện, nhưng báo cáo sự cố không bao giờ nêu rõ điều đó.

Bản cập nhật tháng 9 bao gồm một bộ xử lý bài tìm kiếm đầu ra từ bộ tiền xử lý. Tuy nhiên, vì vấn đề này không tồn tại, một lỗi khác đã xảy ra gây ra lỗi.

Dưới đây là cách báo cáo sự cố của Google mô tả nó:

“Phần phụ trợ của Google Trò chuyện sử dụng một số chức năng tiền xử lý trước khi một yêu cầu đến được xử lý. Các bộ tiền xử lý này thực hiện một loạt lệnh gọi đến các dịch vụ khác nhau (ví dụ: dịch vụ nhận dạng nội bộ của Google) và lưu trữ các kết quả này trong bộ nhớ cache cục bộ.

Một trong những bộ xử lý trước này đã phát hiện ra lỗi truy cập do một yêu cầu phụ trợ được định cấu hình không chính xác, điều này đã ngăn quá trình hoàn tất thành công.

Lỗi này lúc đầu không gây ra bất kỳ sự cố nào nữa. “

Sau khi bộ xử lý bài đăng trong bản cập nhật từ lần trò chuyện thứ 17 không thành công.

quảng cáo

Đọc bên dưới

Google đã buộc phải khôi phục bản cập nhật và sau đó phát hành lại bản cập nhật mới để bù đắp cho lỗi (dường như) chưa được phát hiện trước đó.

Mô tả của Google về nguyên nhân chính gây ra lỗi Google Trò chuyện:

“Vào ngày 17 tháng 9, phiên bản phụ trợ Google Trò chuyện mới đã được cung cấp. Phiên bản này bao gồm một thay đổi yêu cầu bộ xử lý bài đăng có quyền truy cập vào kết quả của bộ xử lý trước bị lỗi ở trên. Tuy nhiên, vì bộ xử lý trước này đã hủy bỏ quá trình xử lý của nó do lỗi truy cập, bộ nhớ cache không bao giờ được lấp đầy.

Ban đầu bài đăng này cố gắng lấy giá trị cần thiết, nhưng vì bộ nhớ đệm không chứa giá trị bắt buộc, điều này tạo ra một chuỗi mới cố gắng lấy giá trị nhưng có sự phụ thuộc vào bài đăng đang giữ khóa. Điều này đã tạo ra một điều kiện bế tắc không thể hoàn thành.

Sự bế tắc này dẫn đến các tác vụ nhị phân phía sau gặp xung đột khóa luồng cao, cuối cùng dẫn đến lỗi ứng dụng. “

Rút ra bài học của Google

Báo cáo sự cố của Google cho thấy rằng phản ứng đối với sự cố là để cải thiện khả năng phát hiện sự cố cụ thể này, tăng dung lượng của chương trình phụ trợ và cải thiện kiểm tra trước cho loại sự cố cụ thể đó để nó không tái diễn.

Kết luận của Google:

“Để ngăn vấn đề này xảy ra một lần nữa và để giảm tác động của các sự kiện tương tự, các biện pháp sau được thực hiện:

  • Đã điều chỉnh hệ thống cảnh báo tự động để cải thiện khả năng phát hiện các vấn đề xung đột khóa.
  • Tăng số lượng chuỗi có sẵn cho các dịch vụ back-end của Google Trò chuyện để giảm tác động tiềm ẩn của các sự kiện xung đột khóa.
  • Xác định các thử nghiệm mới sẽ kích hoạt đường dẫn mã cụ thể đó và xác định vấn đề này trước khi đưa vào sản xuất. “

Ba bài học rút ra từ thất bại của Google

  1. Một lỗi đã được đưa vào chương trình phụ trợ trò chuyện trực tiếp của Google và dường như không bị phát hiện cho đến khi bản cập nhật tiếp theo tình cờ phát hiện ra nó.
  2. Các thử nghiệm được thực hiện trước khi bản cập nhật được phát hành dường như không xác định được rằng lỗi không bị phát hiện đang tồn tại hay nó sẽ gây ra lỗi ứng dụng.
  3. Lỗi không được phát hiện chỉ được phát hiện sau khi bản cập nhật được phát sóng ra môi trường trực tiếp, dẫn đến xung đột mã hóa dẫn đến ngừng hoạt động.

Chúng tôi nghĩ về Google như một công ty nguyên khối dường như đang tạo ra những trải nghiệm tuyệt vời trên web trong một làn sóng. Tuy nhiên, sự cố này cho thấy làm thế nào mà một lỗi có vẻ nhỏ lại có thể được đưa vào một trong các dịch vụ của Google và tự biểu hiện khi ngừng hoạt động.

Google không cung cấp báo cáo sự cố chi tiết về sự cố trong chỉ mục tìm kiếm.

quảng cáo

Đọc bên dưới

Tuy nhiên, Gary Illyes của Google đã đưa ra một số nhận xét thẳng thắn về sự cố tìm kiếm của Google vào tháng 4 năm 2019 do lỗi của con người. Và vào tháng 8 năm 2020, anh ấy đã mô tả lượng caffein của Google phức tạp như thế nào, ngay sau một lần thất bại trong chỉ mục tìm kiếm toàn cầu vào mùa hè này.

Báo cáo sự cố của Google Trò chuyện cho thấy điều gì đó dường như không đáng kể và gần như tầm thường có thể dẫn đến sự cố ngừng hoạt động lớn và người ta chỉ có thể tưởng tượng rằng các vấn đề tương tự đã đè nặng lên chỉ mục tìm kiếm của Google trong năm qua.

Trích dẫn

Tóm tắt Sự cố Google Cloud (PDF)

Nguồn: www.searchenginejournal.com

Trả lời

Chat Zalo