Matt Cutts về việc Google xử lý mã trạng thái 404 và 410

Matt Cutts

Nếu bạn đang tìm hiểu các chi tiết kỹ thuật cao về thu thập dữ liệu web của Google và cách nó tương tác với các mã trạng thái khác nhau, bạn có thể quan tâm đến video trợ giúp quản trị viên web mới về sự khác biệt giữa cách Google xử lý mã trạng thái 404 và 410. Mặc dù cả hai đều có nghĩa về mặt kỹ thuật là “Không tìm thấy trang”, Matt Cutts nói về các sắc thái của mỗi loại và cách Googlebot đối xử với mỗi loại hơi khác nhau.

Đối với những người không hiểu biết về công nghệ, Cutts trước tiên giải thích sự khác biệt giữa 404 và 410 là gì vì hầu hết các quản trị viên web quen thuộc hơn với mã trạng thái 404.

“404 so với 410 đề cập đến mã trạng thái HTTP. Vì vậy, khi trình duyệt hoặc Googlebot yêu cầu một trang, máy chủ web sẽ gửi lại mã trạng thái – 200 có nghĩa là mọi thứ đã diễn ra hoàn hảo, 404 có nghĩa là không tìm thấy trang, 410 thường có nghĩa là đã biến mất vì không tìm thấy trang và chúng tôi không mong đợi điều đó để cô ấy quay lại, ”Cutts nói. “Vì vậy, 410 có ý nghĩa hơn một chút rằng trang đã biến mất vĩnh viễn.”

Tuy nhiên, Googlebot có tương tác khác khi gặp 410 không?

“Câu trả lời ngắn gọn là đôi khi chúng ta đối xử với 404 và 410 hơi khác một chút, nhưng hầu hết thời gian bạn không nên lo lắng”, Cutts nói. “Nếu một trang đã biến mất và bạn nghĩ rằng nó chỉ là tạm thời, hãy tiếp tục và sử dụng 404. Nếu trang đó đã biến mất và bạn không biết trang khác để thay thế nó, bạn không có nơi nào khác để đi thì nên tham khảo, và bạn biết đấy trang này sẽ biến mất, không bao giờ quay lại, sau đó hãy tiếp tục và phục vụ số 410. “

Về mặt tích cực, Googlebot đã tích hợp sẵn một số điểm dư thừa nếu quản trị viên web hoặc bộ phận CNTT mắc lỗi trong cách họ cung cấp mã.

“Hóa ra các quản trị viên web bắn vào chân nhau khá thường xuyên – các trang bị mất, mọi người định cấu hình trang web không chính xác, các trang web bị tắt, mọi người vô tình chặn Googlebot, mọi người vô tình chặn người dùng bình thường – vì vậy nếu bạn nhìn vào toàn bộ trang web, việc thu thập thông tin Cutts nói. “Vì vậy, với 404, cùng với 401 và có thể 403, nếu chúng tôi thấy một trang và nhận được 404, chúng tôi sẽ bảo vệ trang đó trong hệ thống thu thập thông tin trong 24 giờ, vì vậy chúng tôi chờ đợi và nói rằng có thể đó chỉ là tạm thời 404, có lẽ nó thực sự không phải là một trang không được tìm thấy. “

“Khi chúng tôi nhìn thấy con số 410, hệ thống thu thập dữ liệu trang web nói, Được rồi, chúng tôi giả định rằng các quản trị viên web biết họ đang làm gì vì họ đã cố tình đi chệch hướng để cố tình nói rằng trang này đã biến mất”, ông nói. “Vì vậy, thay vì bảo vệ nó trong 24 giờ, hãy chuyển 410 này thành lỗi ngay lập tức.

Vì vậy, nếu bạn đang cung cấp mã trạng thái 410 trên một trang thực sự chưa biến mất vĩnh viễn, bạn chưa xóa vĩnh viễn trang đó. Googlebot trả lại séc và kiểm tra xem trang có cần được quay lại chỉ mục hay không.

Cutts nói: “Bây giờ đừng hiểu sai điều này quá, chúng tôi vẫn sẽ quay lại và kiểm tra lại và đảm bảo rằng những trang đó đã thực sự biến mất hoặc có thể các trang đó đã sống lại”. “Và tôi sẽ không dựa vào giả định rằng hành vi này sẽ luôn giống hệt nhau.

“Nói chung, các quản trị viên web đôi khi hơi quá bận rộn với những chi tiết nhỏ nhặt. Vì vậy, nếu trang bị biến mất, bạn có thể gửi 404, nếu bạn biết nó thực sự mất, bạn có thể giao 410, ”ông nói. “Nhưng chúng tôi sẽ thiết kế hệ thống thu thập thông tin của mình thật mạnh mẽ để có thể đảm bảo rằng chúng tôi vẫn có thể tìm thấy nội dung tốt khi có sẵn nội dung đó, nếu trang web của bạn gặp sự cố, bạn sẽ bị tấn công hoặc bất cứ điều gì.

Vì vậy, đây là một trong những điều đó là một chi tiết nhỏ mà các quản trị viên web có lẽ không nên quá lo lắng. Chúng được đối xử gần như giống nhau, nhưng nếu nghi ngờ, tuyến đường 404 thường xuyên hơn có lẽ là cách tốt nhất để đi.

Nguồn: www.searchenginewatch.com

Trả lời

Chat Zalo