Penguin – tiếp theo là gì? 10 dự đoán theo hướng dữ liệu

Twitter đã gây xôn xao trong vài tuần qua với tin tức rằng bản cập nhật mới nhất cho thuật toán Penguin gần như đã sẵn sàng để sử dụng.

Đối với những người vẫn bị ảnh hưởng bởi chiến thuật “sốc và sợ hãi” ban đầu của Google khoảng 12 tháng trước, “tin chính thức” là một bản cập nhật đang được thực hiện, với thời gian dài giữa các lần phát lại, đây thực sự là một tin tốt.

Chúng tôi biết rằng con tàu sẽ sớm hoạt động trở lại nhờ thông báo chào mừng từ Kỹ sư tìm kiếm của Google, Gary Illyes rằng các tệp từ chối sẽ không còn được xử lý cho bản cập nhật tiếp theo này. Nó gần rồi.

Tuy nhiên, câu hỏi đặt ra là bản cập nhật này mang lại gì cho bữa tiệc và các quản trị viên web có thể chuẩn bị như thế nào?

Penguin 3.0

Rõ ràng, không có hướng dẫn chính thức nào được đưa ra ở đây, nhưng những gì chúng tôi chắc chắn có là dữ liệu từ cả hai lần chạy trước đây và quan trọng là từ sự chuyển đổi của bản cập nhật thuật toán Panda giúp chúng tôi hiểu Penguin đang đi đâu.

Bài học về gấu trúc

Như chúng ta đã biết và có thể thấy từ hình ảnh sau, Panda được phát hành lần đầu tiên vào tháng 2 năm 2011 dưới dạng một bản cập nhật vụng về, có vấn đề nhưng cực kỳ hiệu quả, được tung ra trên toàn thế giới trong vòng sáu tuần.

Tuy nhiên, việc xử lý dữ liệu cho một bộ lọc chủ yếu dựa trên các yếu tố trên trang dễ dàng hơn nhiều vì nó không phải là lập bản đồ toàn bộ biểu đồ liên kết và không hiểu bất kỳ sắc thái nào. Điều đó có nghĩa là kế hoạch lặp lại nhanh chóng đạt được động lực và giống như các nhà phân tích dữ liệu tài năng, đã bắt đầu một loạt các cập nhật nhỏ, sau đó là phân tích, lặp lại và chỉnh sửa.

Chúng tôi đã biết ít nhất 30 trong khoảng thời gian chỉ hơn ba năm rưỡi. Nếu đã từng có bất kỳ bằng chứng nào về chiến lược của Google, hãy để mọi người cùng xem.

Panda cập nhật thông tin cập nhật về chim cánh cụt

Vì vậy, chúng tôi biết rằng Penguin đã lên kế hoạch tương tự, thách thức chỉ đơn giản là lượng dữ liệu tuyệt đối phải được xử lý để làm cho nó “đúng” với bản cập nhật dựa trên chất lượng liên kết.

Trong khi Panda đo lường cơ sở mã của một trang web và nội dung của nó, trong số những thứ khác, Penguin phải lập bản đồ, xác định và đo lường toàn bộ biểu đồ liên kết và công cụ tìm kiếm cần trợ giúp.

Và bạn đoán không, sự trợ giúp đến từ các quản trị viên web và từ những người bị ảnh hưởng bởi năm lần lặp lại đầu tiên của “hình phạt”. Làm việc với Disavow cho phép nhóm tìm kiếm sử dụng hàng chục nghìn “chuyên gia” khác để gửi hàng triệu ví dụ về các liên kết “chất lượng kém”.

Tập hợp dữ liệu do con người sắp xếp này chắc chắn sẽ tạo cơ sở cho bản cập nhật tiếp theo; lập phiên bản thông minh hơn nhiều dựa trên hiểu biết thực tế về “dữ liệu lớn” về yếu tố phân biệt liên kết tốt với liên kết xấu. Hay chính xác hơn, một liên kết gia tăng giá trị từ một liên kết vô giá trị chỉ dùng để thao túng PageRank.

Vì vậy, nếu chúng ta biết rằng họ đã sử dụng một số kỹ thuật đánh bạc khá thông minh để thu thập dữ liệu quan trọng và “xử lý” biểu đồ liên kết, thì chúng ta có thể mong đợi gì từ bản cập nhật đã được phát triển trong suốt một năm? Dưới đây là một số dự đoán:

Dự đoán của Penguin

1. Hiểu vùng lân cận và huyết thống

Một khía cạnh quan trọng của các lần lặp lại tiếp theo của Penguin chắc chắn sẽ là khả năng hiểu “nguồn” của bất kỳ giá trị liên kết nào mà một trang web “kiếm được” từ mỗi vị trí liên kết.

Thay vì sử dụng liên kết cho mệnh giá, điều bắt buộc đối với bộ lọc là thực sự hiểu cách trang web này có cổ phần của chính nó ngay từ đầu.

Nó giống như biết lịch sử của một chiếc xe mà bạn đang mua. Nếu thiếu nhiều tem bảo hành và có những sửa chữa đáng ngờ đối với thân xe, người ta có thể tự hỏi liệu đây có thực sự là chiếc xe rắn mà người bán yêu cầu hay không.

Các liên kết đều giống nhau và tôi nghĩ phần lớn sự chờ đợi là do Google đã nghiên cứu biểu đồ liên kết theo cách mà một thuật toán sẽ đo lường không chỉ giá trị của liên kết theo mệnh giá mà còn bằng cách xem xét “lịch sử” của trang web đó xem xét. “

Nếu bạn nhìn vào sơ đồ liên kết, nó được tạo thành từ một loạt các “nút”, khi được mở rộng, trông giống như sau:

Liên kết đồ họa

Trong hầu hết các trường hợp, vốn chủ sở hữu liên kết có thể được truy ngược trực tiếp đến các “vùng lân cận” của “vốn chủ sở hữu” được chia sẻ và bằng cách này, tìm ra đâu là điểm “tốt” và “xấu”. Tất nhiên, giống như trong cuộc sống thực, có những người tốt và xấu trong các khu phố tốt và xấu, và việc xác định mức độ chính xác đó sẽ là một phần của quá trình lặp đi lặp lại liên tục mà chúng ta chắc chắn sẽ thấy trong nhiều tháng và nhiều năm tới.

Chìa khóa, tất nhiên, sẽ là đạt được số tiền phù hợp, có đạo đức và tránh xa các trang web đang cố gắng sử dụng vốn của chính họ.

2. Tìm hiểu cụ thể hơn

Một điều khác mà Panda đã dạy chúng tôi là Google thích bắt đầu với tác động của trang web, học hỏi từ dữ liệu và sau đó sử dụng phản hồi đó để tạo ra tác động có mục tiêu hơn.

Chúng tôi sẽ thấy điều này trong Penguin với các trang web gặp phải ở cấp danh mục hoặc trang, thay vì ngẫu nhiên hoặc toàn quốc. Điều này làm cho việc kiểm tra hồ sơ liên kết quan trọng hơn ở cấp độ này.

3. Chạy thường xuyên hơn với ít tác động hơn

Cũng như với Panda, chúng ta sẽ thấy một bản cập nhật thường xuyên hơn bây giờ khi công việc nặng nhọc đã kết thúc. Điều này có nghĩa là những người đang chờ hồi phục sẽ thấy kết quả lao động của họ nhanh hơn nhiều theo cả hai hướng.

Và khi được kết hợp với động thái hướng tới tác động ở cấp độ trang chứ không phải toàn bộ trang web, điều đó có nghĩa là theo thời gian, Penguin sẽ ít trở thành kẻ phá hoại doanh nghiệp và nhiều hơn là “kẻ đứng sau tai”.

4. Ít hơn về “neo”, nhiều hơn về mức độ liên quan và sự tin tưởng

Ban đầu, bản cập nhật thuật toán tập trung rất nhiều vào các tín hiệu rõ ràng như lạm dụng văn bản neo, nhưng khi trò chơi dữ liệu trở nên thông minh hơn, chúng ta sẽ thấy mức độ liên quan của liên kết đó và nguồn gốc hoặc sự tin tưởng ở trên có nhiều tác dụng hơn.

Điều này tất nhiên sẽ đặt ra những thách thức lớn hơn cho những người vẫn đang cố gắng vượt qua hệ thống, vì nó sẽ dễ dàng xác định các mạng liên kết “ẩn” trước đây và cơ quan quản lý miền được xây dựng từ các trang web rất mạnh nhưng không liên quan hoặc không tự nhiên.

Chúng tôi cũng biết rằng Google có bằng sáng chế mới về Panda cũng đang khám phá việc sử dụng anchor text trong ngữ cảnh đếm anchor text liên kết đến như một phần của tính toán nội dung trên trang.

Về cơ bản, điều này có nghĩa là ngay cả những trang rất tự nhiên “trên trang” vẫn có thể bị phạt vì spam nếu sau đó chúng có nhiều anchor text khớp chính xác bên ngoài trang. Một lý do khác để tránh chiến thuật này!

5. Các miền liên kết duy nhất và sự cân bằng tự nhiên

Số lượng liên kết tên miền hoặc IP duy nhất luôn quan trọng, nhưng nó sẽ có một khía cạnh khác trong các phiên bản Penguin trong tương lai. Tìm kiếm sự cân bằng tự nhiên giữa đủ và quá nhiều cho thị trường ngách của bạn sẽ quan trọng hơn. Không tự nhiên được nhô ra và được đánh dấu bằng màu đen, điều này làm cho việc hiểu sự cân bằng cạnh tranh là rất quan trọng.

Những gì có thể chấp nhận được ở một ngách này sẽ rất không tự nhiên ở một ngách khác, và một chú chim cánh cụt thông minh hơn sẽ nhanh chóng đánh hơi được điều này.

6. Đồi

Google từ lâu đã nắm giữ bằng sáng chế Hilltop của mình và việc Penguin sử dụng một phần của nó để hiểu sự tin cậy và mức độ liên quan sẽ là điều hợp lý.

Đối với những người chưa biết, bằng sáng chế xem xét các trang “chuyên gia” và “cơ quan” và định nghĩa trước đây là một trang liên kết đến nhiều trang khác có liên quan để tăng giá trị cho một bài báo / trang trong khi thẩm quyền của trang được liên kết.

Do đó, các liên kết thực sự có giá trị là những liên kết đến từ các trang chuyên gia và kiếm được nhiều từ chúng là cách để xếp hạng tốt và tránh Penguin. Tất nhiên, cách duy nhất để làm điều này là chia sẻ nội dung thú vị và trở thành nhà lãnh đạo tư tưởng và có thẩm quyền trong lĩnh vực của bạn.

7. Tỷ lệ liên kết sâu

Số lượng liên kết dẫn đến các trang sâu hơn cũng được coi là một phần của bước này nhằm hướng tới một phép đo chính xác hơn. Các trang web tuyệt vời xứng đáng có liên kết sâu, nhưng khi có quá nhiều đến một trang thương mại, nó có thể dẫn đến các vấn đề về chim cánh cụt.

Chiến lược an toàn hơn dường như là các liên kết ở cấp miền và các liên kết từ các tài liệu chuyên gia trên các trang của nhà lãnh đạo tư tưởng, những liên kết này có nhiều khả năng được tìm thấy trên blog của bạn hoặc trong một khu vực nội dung hoặc tài nguyên.

8. Theo dõi / Không theo dõi / Đề cập / Chia sẻ

Điều này có thể liên quan nhiều hơn một chút và, không giống như Penguin, có thể là một phần của Panda, nhưng mối quan hệ giữa số lượng liên kết bạn có và số lượng thương hiệu của bạn được “nói đến” trực tuyến là một cách rất hợp lý để xác thực liên kết thẩm quyền.

Đó là điều mà tôi đã viết về nó có ý nghĩa hoàn hảo như một phép kiểm tra để hiểu liệu một hồ sơ liên kết có phải là thật hay không.

Google nói rất nhiều về “thương hiệu” và một trong những cách tốt nhất để đo lường thương hiệu là thực hiện điều đó bằng cách “lắng nghe” các đề cập và cảm xúc trên mạng xã hội hoặc web.

Các công cụ để tìm những thứ này rất dễ tạo, vì vậy các kỹ sư của công ty tìm kiếm không gặp khó khăn gì khi thực hiện nó trên quy mô lớn.

9. Dữ liệu lưu lượng – từ các nguồn liên kết?

Cuối cùng, là phần về dữ liệu sử dụng. Chúng tôi chắc chắn đã thấy các dấu hiệu của điều này đang lan rộng trên trang web Panda vì Google không chỉ cố gắng hiểu một trang hoặc trang web có thể “trông như thế nào” đối với trình thu thập thông tin hoặc trình duyệt không có đầu.

Việc xem hoặc đo lường lượng “lưu lượng truy cập” từ các liên kết nhất định nằm trong tầm tay của họ thông qua phân tích và sẽ là một cách khác để kiểm tra chất lượng và mức độ liên quan của các liên kết. Vì ai nhấp vào một liên kết không liên quan?

10. Phần trăm “Liên kết Đáng ngờ được Cho phép”

Tôi đã viết một bài đăng ở đây một năm trước, kiểm tra một số dữ liệu mà nhóm Zazzle Media trích xuất từ ​​các dự án khôi phục trang web gần đây. Nó chỉ ra rằng tỷ lệ liên kết “đáng ngờ” hoặc spam được phép trên một hồ sơ đang giảm. Bảng bên dưới cho thấy điều này đã tiến triển như thế nào và chúng tôi sẽ kiểm tra lại xem điều này đã đi được bao xa sau Penguin 3.0.

Phần trăm liên kết đáng ngờ-sau khi khôi phục-1

Bạn sẽ làm gì tiếp theo

Tương lai là không chắc chắn và những dự đoán ở trên rõ ràng chỉ có vậy. Tuy nhiên, chúng ta biết rằng Penguin ngày càng thông minh hơn và sau một năm làm việc với nó, phiên bản tiếp theo sẽ chính xác hơn nhiều: loại bỏ hành vi liên kết không liên quan.

Thách thức lớn hơn đối với những người bị dính đòn tất nhiên là phân biệt tác động của gấu trúc với chim cánh cụt, và khi cả hai di chuyển gần nhau hơn và chim cánh cụt được đưa vào thuật toán chính theo cách giống như gấu trúc, càng ngày càng khó tìm ra đúng một “Khắc phục.”

Đối với những người đang gặp khó khăn với điều này, bảng gian lận Google Penalty đơn giản này được thiết kế để giúp đỡ.

Nguồn: www.searchenginewatch.com

Trả lời

Chat Zalo