Cách xác định và khắc phục sự cố với lập chỉ mục

Lập chỉ mục cồng kềnh là khi một trang web chứa các trang trong chỉ mục của công cụ tìm kiếm không nên được lập chỉ mục và có thể gây ra sự cố nếu không được theo dõi và giám sát đúng cách.

Đây là một vấn đề SEO rất phổ biến và ảnh hưởng đến tất cả các trang web từ blog WordPress nhỏ đến các trang web thương mại điện tử lớn và lớn của Magento.

Các trường hợp lập chỉ mục nghiêm trọng hơn thường xảy ra trên các trang web thương mại điện tử vì chúng có xu hướng sử dụng các điều hướng và danh sách bộ lọc dễ sử dụng cho phép người dùng nhanh chóng xác định sản phẩm họ muốn.

Tôi đã tận mắt chứng kiến ​​các ví dụ về trang web Demandware và Open Cart đơn giản chỉ có vài trăm sản phẩm với hàng triệu URL xuất hiện trong chỉ mục của Google do các bộ lọc sản phẩm tạo URL.

Tại sao lập chỉ mục là một vấn đề?

Có một thực tế là Google và các công cụ tìm kiếm khác không hoàn toàn thu thập dữ liệu trang web của bạn. Cho phép và yêu cầu họ thu thập dữ liệu các URL không cần thiết là một sự lãng phí tài nguyên này.

Nếu các công cụ tìm kiếm không thường xuyên thu thập dữ liệu các trang “kiếm tiền” của bạn và thay vào đó bị mắc kẹt trong các lỗ hổng khác mà không nhận được bản cập nhật, điều đó có thể ảnh hưởng đến hiệu suất không phải trả tiền của bạn.

Bloat cũng có thể dẫn đến các vấn đề trùng lặp nội dung. Mặc dù sao chép nội dung của nội dung trang web nội bộ không phải là vấn đề nghiêm trọng như sao chép bên ngoài, nó có thể làm loãng tầm quan trọng và mức độ liên quan của một trang với các cụm từ tìm kiếm khi chính trang đó, giống như các công cụ tìm kiếm, không chắc chắn về URL nào được xếp hạng cho điều khoản nên.

Xác định các vấn đề về thổi chỉ số

Một chỉ báo ban đầu về sự phồng lên của chỉ mục là số lượng trang xuất hiện trong kết quả của công cụ tìm kiếm.

Điều quan trọng cần lưu ý ở đây là số lượng trang thường được sử dụng với Trang? ˅: Các nhà khai thác trong tìm kiếm của Google và Bing thường hiển thị các con số khác với các số liệu họ làm trong Google Search Console và Bing Webmaster Tools – điều đó không có gì đáng lo ngại.

Giám sát trang web

Mặc dù có nhiều cách để khắc phục tình trạng đầy hơi chỉ số, nhưng theo kinh nghiệm của tôi, cách tốt nhất để giải quyết nó là ngăn chặn nó xảy ra ngay từ đầu.

Việc đánh giá hàng tháng đối với Google Search Console và Bing Webmaster Tools, đặc biệt là dữ liệu thu thập thông tin, sẽ giúp bạn ghi lại những gì phổ biến và không phổ biến cho trang web của bạn.

Sự gia tăng hoặc đột biến bất thường về “số trang được thu thập thông tin mỗi ngày” và “số kilobyte được tải xuống mỗi ngày” có thể cho thấy rằng Google đang truy cập vào nhiều URL hơn trước.

Tương tự như vậy khi thực hiện một trang web: tìm kiếm trên Google và Bing, bạn có thể thấy chúng có bao nhiêu URL trong chỉ mục và bạn có thể biết gần như trang web của mình có bao nhiêu trang.

Làm cách nào để sửa lỗi lập chỉ mục?

Xác định một vấn đề chỉ số cồng kềnh chỉ là bước đầu tiên. Bây giờ bạn cần phải xác định những gì đang gây ra tình trạng đầy hơi.

Đây là một số nguyên nhân phổ biến nhất gây ra tình trạng phình chỉ mục, nhưng cũng không hiếm khi có nhiều hơn một trong những nguyên nhân này.

  • URL miền được phân phát bằng cả giao thức http và https
  • Các phiên bản có thể in của các trang gây ra URL trùng lặp
  • Các url tham số do tìm kiếm nội bộ tạo ra
  • URL thông số do bộ lọc sản phẩm tạo ra
  • Phân trang
  • Blog phân loại
  • ID phiên trong URL
  • Xâm nhập các trang web spam sau khi bị hack
  • Các URL cũ không được chuyển hướng chính xác sau khi di chuyển
  • Dấu gạch chéo ở cuối URL gây ra sự trùng lặp
  • Nguồn UTM

Khắc phục sự cố với siêu rô bốt

Thẻ meta rô bốt cấp trang là cách ưa thích của tôi để đối phó với việc thổi chỉ mục và đặc biệt hữu ích khi được triển khai ở cấp máy chủ trên nhiều trang cùng một lúc.

Các rô bốt meta cấp độ trang cũng được ưu tiên hơn các hướng dẫn phân trang và chuẩn hóa, cũng như tệp robots.txt (trừ khi bị chặn trong tệp robots.txt).

Chúng cũng hiệu quả trong việc loại bỏ các URL có chứa các thông số do bộ lọc sản phẩm, điều hướng theo khía cạnh và các chức năng tìm kiếm nội bộ gây ra. Chặn những thứ này trong tệp robots.txt không phải lúc nào cũng là tốt nhất vì nó có thể gây ra sự cố giữa các quảng cáo của các tác nhân người dùng Google khác nhau, điều này có thể tác động tiêu cực đến các chiến dịch tìm kiếm có trả tiền.

Phương pháp hay nhất là sử dụng “noindex, theo dõi“- Bằng cách này, bất kỳ liên kết ngược nào trỏ đến trang sẽ tiếp tục chuyển vốn chủ sở hữu đến miền.

Tệp Robots.txt

Chặn các tham số URL trong tệp robots.txt vừa là một biện pháp ngăn chặn và phản ứng tuyệt vời, nhưng không phải là một giải pháp tuyệt đối.

Tất cả những gì tệp Robots.txt làm là yêu cầu các công cụ tìm kiếm không thu thập dữ liệu một trang, nhưng Google vẫn có thể lập chỉ mục trang nếu trang được liên kết nội bộ hoặc từ các trang web bên ngoài. Khi bạn biết các liên kết nội bộ đó ở đâu, hãy thêm a. thêm rel = “nofollow” đối với họ.

Thẻ hợp quy

Chuẩn hóa tự tham chiếu thường là cách hành động tốt nhất, ngoại trừ các URL cồng kềnh. Các nền tảng thương mại điện tử như Open Cart có thể tạo nhiều URL cho cùng một sản phẩm và danh mục.

Việc thêm thẻ chuẩn vào tiêu đề của các URL danh mục và sản phẩm không cần thiết trỏ đến URL “chính” giúp các công cụ tìm kiếm hiểu phiên bản nào của trang nên được lập chỉ mục.

Tuy nhiên, chỉ thị kinh điển chỉ là một chỉ thị và có thể bị bỏ qua bởi các công cụ tìm kiếm.

Phân trang

Sự cố phân trang có thể xảy ra với bài đăng blog và các trang danh mục blog, trang danh mục sản phẩm, trang kết quả tìm kiếm nội bộ; về cơ bản là bất kỳ phần tử nào của một trang web có nhiều trang.

Bởi vì các trang này chứa thông tin meta giống nhau, các công cụ tìm kiếm có thể nhầm lẫn mối quan hệ giữa chúng và quyết định rằng có nội dung trùng lặp.

Sử dụng rel = “tiếp tục”rel = “trước” Đánh dấu phân trang giúp công cụ tìm kiếm hiểu mối quan hệ giữa các trang này và cùng với cấu hình trong Google Search Console, quyết định trang nào cần được lập chỉ mục.

Sử dụng Công cụ tham số URL của Google Search Console

Công cụ tham số URL có thể được sử dụng để cho Google biết các tham số nhất định đang làm gì với nội dung trên một trang (ví dụ: sắp xếp, thu hẹp, lọc). Như với các phương pháp khác đã đề cập trước đó, bạn cần đảm bảo rằng bạn không vô tình yêu cầu Google không lập chỉ mục các URL bạn muốn đưa vào chỉ mục và không chỉ định sai hành vi của tham số.

Google phân loại các thông số của bạn thành hai loại; chủ động và thụ động. Thông số hoạt động là thứ ảnh hưởng đến nội dung của trang, do đó, bộ lọc sản phẩm và thông số bị động giống như ID phiên hoặc nguồn UTM.

Điều này chỉ nên được sử dụng như một phương sách cuối cùng và kết hợp đúng cách với các phương pháp khác, vì nó có thể ảnh hưởng đến hiệu suất tìm kiếm không phải trả tiền của miền.

Trước khi sử dụng công cụ này, hãy nhớ đọc tài liệu và hướng dẫn chính thức từ Google.

Công cụ xóa URL

Tùy thuộc vào cơ quan quản lý miền của bạn, có thể mất một lúc để Google nhận ra và lọc ra các URL mà bạn muốn xóa. Sau khi bạn đã triển khai điều gì đó để yêu cầu Google không lập chỉ mục lại URL (thẻ meta rô bốt cấp trang), bạn có thể sử dụng Google Search Console để yêu cầu Google xóa URL khỏi chỉ mục.

Đây chỉ là một biện pháp tạm thời vì URL sẽ chỉ bị ẩn khỏi kết quả tìm kiếm của Google trong 90 ngày, nhưng nó sẽ không ảnh hưởng đến cách Google thu thập dữ liệu và lập chỉ mục URL.

Điều này tốt để sử dụng khi bạn không muốn người dùng tìm thấy các trang cụ thể, nhưng bạn cần phải gửi từng URL riêng lẻ, vì vậy đây không phải là giải pháp tốt nếu bạn có chỉ mục cồng kềnh.

Chỉ mục phình to do bị hack

Chà, nếu trang web của bạn đã bị tấn công, thì chắc chắn việc tăng chỉ mục không phải là mối quan tâm chính. Tuy nhiên, một vụ hack có thể gây ra sự cố cho miền.

Ảnh chụp màn hình sau đây cho thấy một miền Thụy Sĩ (.ch) đang hoạt động ở Châu Âu vài tuần sau khi bị hack:

Bản thân trang web chỉ có khoảng 50 trang, nhưng như bạn thấy, Google hiện đang lập chỉ mục 112.000.

Điều này có nghĩa là, trong số những thứ khác, 50 trang sản phẩm và trang thông tin sản phẩm hiện đang bị mất trước hàng nghìn URL bị tấn công, vì vậy có thể mất vài tuần để nhận thấy các bản cập nhật cho các trang này – đặc biệt nếu trang web của bạn không yêu cầu thu thập thông tin lớn về ngân sách.

Một chỉ báo khác về điều này có thể là sự gia tăng đột ngột về khả năng hiển thị tìm kiếm (đối với các cụm từ không liên quan):

Tôi đã làm việc trên các trang web mà đây là chỉ số đầu tiên. Trong quá trình đánh giá Google Search Console định kỳ hàng tháng, một trang web bán đồ làm lễ rửa tội đã bắt đầu xếp hạng cho “áo đấu NFL giá rẻ” và các cụm từ đồ thể thao khác của Mỹ.

Các mức tăng đột biến về khả năng hiển thị này thường tồn tại trong thời gian ngắn, nhưng có thể phá hủy lòng tin giữa Google và miền của bạn trong một thời gian dài. Do đó, có rất nhiều điều để nói về việc đầu tư vào an ninh mạng ngoài https.

Phần kết luận

Giảm đầy hơi chỉ số không xảy ra trong một sớm một chiều, vì vậy điều quan trọng là phải kiên nhẫn.

Điều quan trọng nữa là phải có một quy trình hoặc khuôn khổ và đặt người phụ trách quy trình đó, quy trình này được thực hiện một cách thường xuyên.

Nguồn: www.searchenginewatch.com

Trả lời

Chat Zalo