Cách khắc phục “được lập chỉ mục mặc dù bị chặn bởi robots.txt” trong GSC

“Được lập chỉ mục mặc dù bị robots.txt chặn” được hiển thị trong Google Search Console (Điều khoản dịch vụ) nếu Google có các URL được lập chỉ mục không thể thu thập thông tin.

Về phần lớn, đây là một sự cố đơn giản mà bạn đã chặn thu thập thông tin trong tệp robots.txt của mình. Tuy nhiên, có một số điều kiện bổ sung có thể gây ra sự cố. Vì vậy, hãy cùng trải qua quy trình khắc phục sự cố sau để chẩn đoán và khắc phục mọi thứ hiệu quả nhất có thể:

Bạn có thể thấy rằng bước đầu tiên là tự hỏi bản thân xem bạn có muốn Google thực hiện Url.

Nếu bạn không muốn điều đó Url đã lập chỉ mục …

Chỉ cần thêm thẻ meta rô bốt ngăn lập chỉ mục và đảm bảo cho phép thu thập thông tin – giả sử đó là thẻ chuẩn.

Nếu bạn chặn thu thập thông tin một trang, Google vẫn có thể lập chỉ mục trang đó vì thu thập thông tin và lập chỉ mục là hai việc khác nhau. Nếu Google không thể thu thập dữ liệu một trang, thẻ meta ngăn lập chỉ mục sẽ không được hiển thị và vẫn có thể được lập chỉ mục vì nó chứa các liên kết.

Nếu Url được chuẩn hóa cho một trang khác, không thêm thẻ meta rô bốt lập chỉ mục. Chỉ cần đảm bảo có các tín hiệu chuẩn hóa chính xác, bao gồm thẻ chuẩn ở mặt chuẩn và cho phép thu thập thông tin để các tín hiệu được định tuyến và hợp nhất đúng cách.

Nếu bạn muốn Url đã lập chỉ mục …

Bạn cần tìm hiểu lý do tại sao Google không thể thu thập dữ liệu này Url và loại bỏ khối.

Nguyên nhân rất có thể là do khối thu thập thông tin trong tệp robots.txt. Tuy nhiên, có một số trường hợp khác mà bạn có thể thấy thông báo cho biết rằng bạn bị chặn. Hãy xem qua những thứ này theo thứ tự mà bạn có thể nên tìm kiếm chúng.

  1. Tìm khối thu thập thông tin trong tệp robots.txt
  2. Kiểm tra sự tắc nghẽn không liên tục
  3. Kiểm tra khóa tác nhân người dùng
  4. Hãy tìm một cái IP khối

Tìm khối thu thập thông tin trong tệp robots.txt

Cách dễ nhất để phát hiện vấn đề là sử dụng trình kiểm tra robots.txt trong Điều khoản dịch vụlàm nổi bật quy tắc chặn.

2-Robot-Tester.gif

Khi bạn biết những gì bạn đang tìm kiếm hoặc không có quyền truy cập vào nó Điều khoản dịch vụ, bạn có thể điều hướng đến domain.com/robots.txt để tìm tệp. Hãy xem bài viết robots.txt của chúng tôi để biết thêm thông tin, nhưng có thể bạn đang tìm kiếm một tuyên bố từ chối như:

Disallow: /

Một tác nhân người dùng cụ thể có thể được đề cập hoặc nó có thể chặn tất cả chúng. Nếu trang web của bạn là mới hoặc chỉ mới ra mắt gần đây, đây là một số điều bạn cần tìm:

User-agent: *
Disallow: /

Không thể tìm thấy một vấn đề?

Có thể ai đó đã sửa khối robots.txt và khắc phục sự cố trước khi bạn xử lý sự cố. Đó là tình huống tốt nhất. Tuy nhiên, nếu sự cố dường như đã được giải quyết nhưng lại tái diễn ngay sau đó, thì có thể bị tắc nghẽn tạm thời.

Làm thế nào để khắc phục

Bạn nên xóa câu lệnh không cho phép đang gây ra việc chặn. Làm thế nào bạn làm điều này phụ thuộc vào công nghệ được sử dụng.

WordPress

Nếu sự cố ảnh hưởng đến toàn bộ trang web của bạn, thì nguyên nhân rất có thể là bạn đã bật một cài đặt trong WordPress để cấm lập chỉ mục. Lỗi này thường xảy ra với các trang web mới và sau khi di chuyển trang web. Làm theo các bước sau để kiểm tra điều này:

  1. Nhấp vào “Cài đặt”
  2. Nhấp vào “Đọc”
  3. Đảm bảo rằng “Chế độ hiển thị động cơ” đã được tắt.
3-wordpress-search-engine-block.png
WordPress với Yoast

Nếu bạn đang sử dụng Yoast SEO Plugin, bạn có thể chỉnh sửa trực tiếp tệp robots.txt để xóa lệnh khóa.

  1. Nhấp vào ‘Yoast SEO
  2. Nhấp vào “Công cụ”.
  3. Nhấp vào ‘Trình chỉnh sửa tệp’
WordPress với Xếp hạng Toán

Tương tự như Yoast, Rank Math cho phép bạn chỉnh sửa trực tiếp tệp robots.txt.

  1. Nhấp vào Xếp hạng Toán học.
  2. Nhấp vào ‘Cài đặt chung’
  3. Nhấp vào “Chỉnh sửa Robots.txt”.
FTP hoặc máy chủ

Nếu bạn có FTP Nếu bạn có quyền truy cập vào trang web, bạn có thể chỉnh sửa trực tiếp tệp robots.txt để loại bỏ tuyên bố không cho phép có vấn đề. Nhà cung cấp dịch vụ lưu trữ của bạn cũng có thể cấp cho bạn quyền truy cập vào trình quản lý tệp cung cấp cho bạn quyền truy cập trực tiếp vào tệp robots.txt.

Kiểm tra sự tắc nghẽn không liên tục

Các sự cố gián đoạn có thể khó khắc phục hơn vì không phải lúc nào các điều kiện gây ra tắc nghẽn cũng có mặt.

Tôi khuyên bạn nên kiểm tra lịch sử của tệp robots.txt của bạn. Ví dụ trong Điều khoản dịch vụ trình kiểm tra robots.txt, nếu bạn nhấp vào trình đơn thả xuống, bạn sẽ thấy các phiên bản trước của tệp để nhấp vào và xem chúng chứa những gì.

4-history-robot-txt.gif

Wayback Machine trên archive.org cũng có lịch sử của các tệp robots.txt cho các trang web mà chúng đã thu thập thông tin. Bạn có thể nhấp vào bất kỳ ngày nào mà nó có dữ liệu và xem tệp chứa những gì vào ngày cụ thể đó.

5-wayback-machine.png

Hoặc sử dụng phiên bản beta của báo cáo thay đổi cho phép bạn dễ dàng xem các thay đổi nội dung giữa hai phiên bản khác nhau.

6-wayback-machine.gif

Làm thế nào để khắc phục

Quá trình sửa chữa các khối không liên tục phụ thuộc vào nguyên nhân gây ra sự cố. Một nguyên nhân có thể xảy ra, chẳng hạn như bộ nhớ đệm được chia sẻ giữa môi trường thử nghiệm và môi trường trực tiếp. Nếu bộ đệm ẩn từ môi trường thử nghiệm đang hoạt động, tệp robots.txt có thể chứa hướng dẫn khóa. Và nếu bộ nhớ cache đang hoạt động từ môi trường trực tiếp, trang web có thể được thu thập thông tin. Trong trường hợp này, bạn muốn chia bộ nhớ cache hoặc có thể loại trừ các tệp .txt khỏi bộ nhớ cache trong môi trường thử nghiệm.

Kiểm tra các khối tác nhân người dùng

Chặn tác nhân người dùng là khi một trang web chặn một tác nhân người dùng cụ thể như Googlebot hoặc AhrefsBot. Nói cách khác, trang web phát hiện một bot cụ thể và chặn tác nhân người dùng tương ứng.

Nếu bạn có thể dễ dàng xem một trang trong trình duyệt thông thường của mình nhưng bị khóa sau khi thay đổi tác nhân người dùng của mình, điều đó có nghĩa là tác nhân người dùng bạn nhập đã bị khóa.

Bạn có thể chỉ định một tác nhân người dùng cụ thể bằng các công cụ phát triển của Chrome. Một tùy chọn khác là sử dụng tiện ích mở rộng của trình duyệt để thay đổi tác nhân người dùng như tùy chọn này.

Ngoài ra, bạn có thể kiểm tra các khối tác nhân người dùng bằng lệnh cURL. Đây là cách nó hoạt động trong Windows:

  1. Nhấn Windows + R để mở hộp “Chạy”.
  2. Nhập “cmd” và sau đó nhấp vào “đồng ý. “
  3. Nhập một lệnh cURL như sau:
curl -A “user-agent-name-here” -Lv [URL]
curl -A “Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)” -Lv https://ahrefs.com

Làm thế nào để khắc phục

Thật không may, đây là một vấn đề khác mà việc biết cách khắc phục nó phụ thuộc vào nơi bạn có thể tìm thấy khối. Nhiều hệ thống khác nhau có thể chặn bot bao gồm .htaccess, cấu hình máy chủ, tường lửa, CDN, hoặc thậm chí một cái gì đó mà bạn có thể không thấy rằng nhà cung cấp dịch vụ lưu trữ của bạn kiểm soát. Tốt nhất là liên hệ với nhà cung cấp dịch vụ lưu trữ của bạn hoặc CDN và hỏi xem sự tắc nghẽn đến từ đâu và cách giải quyết.

Ví dụ: đây là hai cách khác nhau để chặn tác nhân người dùng trong .htaccess mà bạn có thể cần tìm.

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Googlebot [NC]
RewriteRule .* - [F,L]

Hoặc là…

BrowserMatchNoCase "Googlebot" bots
Order Allow,Deny
Allow from ALL
Deny from env=bots

Kiểm tra IP khối

Nếu bạn đã xác nhận rằng mình không bị robots.txt chặn và loại trừ việc chặn tác nhân người dùng, thì đây có thể là IP Khối.

Làm thế nào để khắc phục

IP Các khối rất khó tìm. Cũng như các lệnh cấm tác nhân người dùng, tốt nhất là kiểm tra với nhà cung cấp dịch vụ lưu trữ của bạn hoặc CDN và hỏi xem sự tắc nghẽn đến từ đâu và cách giải quyết.

Dưới đây là một ví dụ về một cái gì đó bạn có thể đang tìm kiếm trong .htaccess:

deny from 123.123.123.123

Suy nghĩ cuối cùng

Hầu hết thời gian, cảnh báo “được lập chỉ mục mặc dù bị chặn bởi robots.txt” là kết quả từ một khối robots.txt. Hy vọng rằng hướng dẫn này đã giúp bạn tìm và khắc phục sự cố, nếu nó không phải là trường hợp của bạn.

Có bất kỳ câu hỏi? cho tôi biết Twitter.


Nguồn: Ahrefs

Trả lời

Chat Zalo