Cách Google chọn mặt chuẩn

Gary Illyes của Google đã chia sẻ rất nhiều thông tin về cách Google phát hiện các trang trùng lặp và sau đó chọn trang chuẩn để đưa vào các trang kết quả của công cụ tìm kiếm.

Ông cũng chia sẻ cách ít nhất hai mươi tín hiệu khác nhau có trọng số để xác định mặt chuẩn và lý do tại sao máy học được sử dụng để điều chỉnh trọng số.

Cách Google xử lý quá trình chuẩn hóa

Đầu tiên, Gary giải thích cách thu thập dữ liệu các trang web và lập chỉ mục tài liệu. Sau đó, anh ấy chuyển sang bước tiếp theo, chuẩn hóa và phát hiện trùng lặp.

Anh ấy đi vào chi tiết về việc giảm nội dung thành tổng tổng, một số sau đó được so sánh với tổng kiểm của các trang khác để xác định tổng kiểm giống hệt nhau.

Gary:

“Chúng tôi thu thập các tín hiệu và hiện đã thực hiện bước tiếp theo, thực sự là chuẩn hóa và phát hiện trùng lặp.

… trước tiên, bạn cần xác định các trang trùng lặp, về cơ bản nhóm chúng lại với nhau và nói rằng tất cả các trang này là bản sao của nhau. Và sau đó về cơ bản bạn phải tìm một trang dẫn đầu cho mọi người.

Và cách chúng tôi thực hiện, có lẽ hầu hết mọi người đều thực hiện với các công cụ tìm kiếm khác, cụ thể là giảm nội dung thành băm hoặc tổng kiểm và sau đó so sánh tổng kiểm tra.

Và đó là bởi vì nó dễ dàng hơn rất nhiều so với việc so sánh ba nghìn từ …

… Và vì vậy chúng tôi giảm nội dung thành tổng kiểm tra và chúng tôi làm điều đó bởi vì chúng tôi không muốn quét toàn bộ văn bản, bởi vì nó không có ý nghĩa gì cả. Về cơ bản, nó cần nhiều tài nguyên hơn và kết quả sẽ khá giống nhau. Vì vậy, chúng tôi tính toán một số loại tổng kiểm tra trên nội dung văn bản của trang và sau đó so sánh chúng với tổng kiểm tra. “

quảng cáo

Đọc bên dưới

Tiếp theo, Gary phản hồi khi quá trình này phát hiện gần các bản sao hoặc bản sao chính xác:

Câu hỏi hay. Nó có thể bắt được cả hai. Nó cũng có thể bắt gần trùng lặp.

Ví dụ, chúng tôi có một số thuật toán cố gắng nhận ra bảng soạn sẵn và sau đó xóa nó khỏi các trang.

Ví dụ: chúng tôi loại trừ điều hướng khỏi tính toán tổng kiểm tra. Chúng tôi cũng đang xóa chân trang. Và sau đó cái mà chúng ta gọi là trái tim vẫn là nội dung trung tâm của trang, phần thịt của trang, có thể nói như vậy.

Nếu chúng ta thêm các tổng kiểm tra và so sánh các tổng kiểm tra với nhau, thì những tổng kiểm tra khá giống nhau, hoặc ít nhất là một chút giống nhau, sẽ được ghép lại với nhau để tạo thành một cụm dupe. “

Gary sau đó được hỏi tổng kiểm tra là gì:

“Tổng kiểm tra về cơ bản là một hàm băm của nội dung. Về cơ bản là một dấu vân tay. Về cơ bản, đó là dấu vân tay của một thứ gì đó. Trong trường hợp này, đó là nội dung của tệp …

Và sau khi chúng tôi tính toán các tổng kiểm tra đó, chúng tôi có cụm dupe. Sau đó, chúng tôi phải chọn một tài liệu mà chúng tôi muốn hiển thị trong kết quả tìm kiếm. “

quảng cáo

Đọc bên dưới

Gary sau đó đã thảo luận về lý do Google ngăn các trang trùng lặp xuất hiện trong SERPs:

“Tại sao chúng ta lại làm việc này? Chúng tôi làm điều này vì người dùng thường không thích khi cùng một nội dung được lặp lại trong nhiều kết quả tìm kiếm. Và chúng tôi làm điều đó bởi vì không gian lưu trữ của chúng tôi trong chỉ mục không phải là vô hạn. Tại sao về cơ bản chúng ta nên lưu trữ các bản sao trong chỉ mục của mình? “

Tiếp theo, anh ấy quay trở lại cốt lõi của chủ đề, nhận ra các điểm trùng lặp và chọn khía cạnh chính tắc:

“Nhưng tính toán xem bên nào là chính quy, bên nào dẫn đầu cụm, thực ra không phải dễ. Bởi vì có những tình huống mà ngay cả con người cũng khó biết trang nào sẽ xuất hiện trong kết quả tìm kiếm.

Vì vậy, tôi tin rằng chúng tôi đang sử dụng hơn hai mươi tín hiệu, chúng tôi đang sử dụng hơn hai mươi tín hiệu để quyết định bên nào của một cụm dupe sẽ chọn làm chuẩn.

Và hầu hết các bạn có thể đoán được những tín hiệu đó sẽ như thế nào. Rõ ràng một điều là nội dung.

Nhưng nó cũng có thể là những thứ như Xếp hạng trang, chẳng hạn như trang nào có Xếp hạng trang cao hơn bởi vì chúng tôi vẫn đang sử dụng Xếp hạng trang sau ngần ấy năm.

Có thể là, đặc biệt là trên cùng một trang web, trang nào trên url https, trang nào trong sơ đồ trang web hoặc nếu một trang chuyển hướng đến trang kia, thì đây là một tín hiệu rất rõ ràng rằng trang kia đang trở thành trang chuẩn. thuộc tính rel = canonical … lại là một tín hiệu khá mạnh … bởi vì … ai đó đã chỉ ra rằng phía bên kia nên là trang chuẩn.

Và sau đó khi chúng tôi so sánh tất cả các tín hiệu này cho tất cả các cặp cạnh, chúng tôi kết thúc với tín hiệu chuẩn thực tế. Và sau đó mỗi tín hiệu mà chúng ta sử dụng có trọng lượng riêng của nó. Và chúng tôi sử dụng Voodoo cho máy học để tính toán trọng số cho những tín hiệu này. “

Bây giờ anh ấy đi vào chi tiết và giải thích lý do tại sao trọng số của Google chuyển hướng nhiều hơn tín hiệu URL http / https:

“Nhưng để cung cấp cho bạn một ý tưởng, ví dụ: chuyển hướng 301 hoặc bất kỳ loại chuyển hướng nào sẽ có trọng lượng hơn nhiều trong việc chuẩn hóa so với việc trang nằm trên url http hay https.

Sau cùng, người dùng sẽ thấy đích chuyển tiếp. Vì vậy, không có ý nghĩa gì khi bao gồm nguồn chuyển tiếp trong kết quả tìm kiếm. “

Mueller hỏi tại sao Google lại sử dụng máy học để điều chỉnh trọng số tín hiệu:

“Đôi khi chúng ta có hiểu sai không? Tại sao chúng ta cần học máy khi rõ ràng chúng ta chỉ viết những trọng số này xuống một lần và sau đó nó hoàn hảo, đúng không? “

Gary sau đó đã kể một giai thoại về công việc của mình trong việc chuẩn hóa và cố gắng sử dụng hreflang như một tín hiệu trong tính toán. Anh ấy nói rằng việc điều chỉnh trọng lượng bằng tay là một cơn ác mộng. Ông nói rằng việc điều chỉnh trọng lượng theo cách thủ công có thể loại bỏ các trọng lượng khác, dẫn đến kết quả không mong muốn như kết quả tìm kiếm kỳ lạ không có ý nghĩa.

quảng cáo

Đọc bên dưới

Anh ấy đã chia sẻ một ví dụ lỗi về các trang có URL ngắn đột nhiên xếp hạng tốt hơn, điều mà Gary cho là ngớ ngẩn.

Anh ấy cũng chia sẻ một giai thoại về việc giảm tín hiệu sơ đồ trang web theo cách thủ công để sửa một lỗi liên quan đến chuẩn hóa, nhưng điều đó làm cho một tín hiệu khác mạnh hơn và sau đó gây ra các vấn đề khác.

Vấn đề là tất cả các tín hiệu trọng lượng đều có liên quan chặt chẽ với nhau và cần có máy học để thay đổi thành công trọng lượng.

Gary:

“Giả sử rằng … trọng số của tín hiệu sơ đồ trang web quá cao. Và sau đó chúng tôi nói, nhóm Dupes nói: Được rồi, hãy giảm tín hiệu một chút.

Nhưng nếu bạn giảm tín hiệu đó đi một chút, tín hiệu khác sẽ trở nên mạnh hơn.

Nhưng bạn thực sự không thể kiểm soát tín hiệu đó là gì vì có khoảng hai mươi trong số chúng.

Và sau đó bạn điều chỉnh tín hiệu khác đột nhiên mạnh hơn hoặc nặng hơn và sau đó kích hoạt một tín hiệu khác. Và sau đó bạn điều chỉnh điều đó và về cơ bản nó là một trò chơi không bao giờ kết thúc, đó là một trò chơi không bao giờ kết thúc.

Vì vậy, nếu bạn cung cấp tất cả các tín hiệu này cho một thuật toán máy học cộng với bất kỳ kết quả mong muốn nào, bạn có thể huấn luyện nó đặt các trọng số này cho bạn và sau đó sử dụng các trọng số đã được tính toán hoặc đề xuất bởi thuật toán máy học. “

quảng cáo

Đọc bên dưới

Tiếp theo, John Mueller hỏi liệu hai mươi trọng số này, giống như tín hiệu sơ đồ trang web đã đề cập trước đó, có thể được xem là tín hiệu xếp hạng hay không.

Müller:

“Có phải những trọng số này cũng là một yếu tố xếp hạng? … Hay việc chuẩn hóa độc lập với xếp hạng? “

Gary trả lời:

“Do đó, việc truyền hóa đơn hoàn toàn độc lập với bảng xếp hạng. Nhưng trang chúng tôi chọn là trang chuẩn sẽ xuất hiện trên các trang kết quả tìm kiếm và nó sẽ được xếp hạng, nhưng không dựa trên các tín hiệu đó. “

Takeaways

Gary đã chia sẻ rất nhiều về cách thức hoạt động của chuẩn hóa, bao gồm cả sự phức tạp của nó. Họ thảo luận về việc viết ra thông tin này vào một ngày sau đó, nhưng họ có vẻ chán nản với nhiệm vụ viết ra tất cả.

Tập podcast có tiêu đề “Nội dung tìm kiếm kỹ thuật được viết như thế nào, được đăng trên Google và hơn thế nữa!” Nhưng tôi phải nói rằng cho đến nay, phần thú vị nhất là mô tả của Gary về việc chuẩn hóa trong Google.

Nghe toàn bộ podcast:

Tìm Podcast Off-the-Record

Nguồn: www.searchenginejournal.com

Trả lời

Chat Zalo