Ngân sách thu thập thông tin là gì và những người làm SEO có nên lo lắng về nó không?

Ngân sách thu thập thông tin cho biết tốc độ và số lượng trang mà công cụ tìm kiếm muốn thu thập thông tin trên trang web của bạn. Nó bị ảnh hưởng bởi số lượng tài nguyên mà trình thu thập thông tin muốn sử dụng trên trang web của bạn và số lượng thu thập thông tin mà máy chủ của bạn hỗ trợ.

Thu thập thông tin nhiều hơn không có nghĩa là bạn sẽ xếp hạng tốt hơn, nhưng nếu các trang của bạn không được thu thập thông tin và lập chỉ mục, chúng sẽ không xếp hạng gì cả.

Hầu hết các trang web không phải lo lắng về ngân sách thu thập thông tin, nhưng có một vài thời điểm bạn có thể muốn xem xét. Hãy xem xét một số trường hợp này.

Khi nào bạn nên lo lắng về ngân sách thu thập thông tin?

Thông thường, bạn không phải lo lắng về ngân sách thu thập thông tin trên các trang web phổ biến. Thông thường, đó là các trang mới hơn, không liên kết tốt hoặc không thay đổi nhiều và không được thu thập thông tin thường xuyên.

Ngân sách thu thập thông tin có thể là một vấn đề với các trang web mới hơn, đặc biệt là những trang có nhiều trang. Máy chủ của bạn có thể hỗ trợ thu thập thông tin nhiều hơn, nhưng vì trang web của bạn là mới và có thể không phổ biến lắm, công cụ tìm kiếm có thể không muốn thu thập dữ liệu trang web của bạn thường xuyên. Điều này hầu hết là không phù hợp với mong đợi. Bạn muốn các trang của mình được thu thập thông tin và lập chỉ mục, nhưng Google không biết liệu các trang của bạn có đáng được lập chỉ mục hay không và có thể không muốn thu thập thông tin nhiều trang như bạn muốn.

Thu thập thông tin ngân sách cũng có thể là một vấn đề đối với các trang web lớn hơn với hàng triệu trang hoặc các trang web được cập nhật thường xuyên. Nói chung, nếu nhiều trang không thu thập thông tin hoặc làm mới thường xuyên như bạn muốn, bạn nên tăng tốc độ thu thập thông tin. Chúng ta sẽ nói về cách thực hiện điều này ở phần sau của bài viết.

Cách kiểm tra hoạt động thu thập thông tin

Nếu bạn muốn xem tổng quan về hoạt động thu thập thông tin của Google và các vấn đề mà nó đã xác định, đây là nơi tốt nhất để truy cập Thu thập thông tin thống kê báo cáo trong Google Search Console.

Tại đây, bạn sẽ tìm thấy các báo cáo khác nhau sẽ giúp bạn xác định các thay đổi trong hành vi thu thập thông tin, các vấn đề khi thu thập thông tin và cung cấp cho bạn thêm thông tin về cách Google thu thập dữ liệu trang web của bạn.

Bạn chắc chắn muốn kiểm tra nó đánh dấu trạng thái thu thập thông tin như những cái được hiển thị ở đây:

Ngoài ra còn có các dấu thời gian về thời điểm các trang được thu thập thông tin lần cuối.

Nếu bạn muốn xem các lần truy cập từ tất cả các bot và người dùng, bạn cần có quyền truy cập vào các tệp nhật ký của mình. Tùy thuộc vào lưu trữ và thiết lập của bạn, bạn có thể có quyền truy cập vào các công cụ như Awstats và Webalizer, như được thấy ở đây trên máy chủ được chia sẻ với cPanel. Các công cụ này hiển thị một số dữ liệu tổng hợp từ các tệp nhật ký của bạn.

Đối với các thiết lập phức tạp hơn, bạn sẽ cần truy cập và lưu các tệp nhật ký thô, có thể từ nhiều nguồn. Bạn cũng có thể cần các công cụ đặc biệt cho các dự án lớn hơn như MOOSE (asticsearch, logstash, kibana) Ngăn xếp cho phép lưu trữ, xử lý và hiển thị các tệp nhật ký. Ngoài ra còn có các công cụ phân tích giao thức như Splunk.

Ngân sách thu thập thông tin tính là gì?

Tất cả các URL và yêu cầu được tính vào ngân sách thu thập thông tin của bạn. Điều này bao gồm các URL thay thế như AMP hoặc các trang m-dot, hreflang, CSSvà JavaScript bao gồm XHR Yêu cầu.

Các URL này có thể được lấy bằng cách thu thập thông tin và phân tích cú pháp các trang hoặc từ nhiều nguồn khác bao gồm cả sơ đồ trang web, RSS Nguồn cấp dữ liệu, gửi URL để lập chỉ mục trong Google Search Console hoặc sử dụng lập chỉ mục API.

Cũng có nhiều googlebots người chia sẻ ngân sách thu thập thông tin. Để biết danh sách các Googlebots khác nhau đang thu thập dữ liệu trang web của bạn, hãy xem Báo cáo thống kê thu thập thông tin trong Điều khoản dịch vụ.

Google điều chỉnh việc thu thập thông tin

Mỗi trang web có một ngân sách thu thập thông tin khác nhau được tạo thành từ một số đầu vào khác nhau.

Thu thập thông tin nhu cầu

Nhu cầu thu thập thông tin chỉ đơn giản là số lượng Google muốn thu thập dữ liệu trên trang web của bạn. Các trang phổ biến hơn và các trang có thay đổi quan trọng được thu thập thông tin thường xuyên hơn.

Các trang phổ biến hoặc những trang có nhiều liên kết đến chúng thường được ưu tiên hơn các trang khác. Hãy nhớ rằng, Google cần ưu tiên các trang của bạn theo một cách nào đó để thu thập thông tin và liên kết là một cách dễ dàng để biết trang nào trên trang web của bạn phổ biến hơn. Tuy nhiên, không chỉ trang web của bạn, mà tất cả các trang trên tất cả các trang web trên internet mà Google cần tìm ra cách ưu tiên.

Bạn có thể dùng … Tốt nhất là thông qua liên kết Báo cáo trong Trình khám phá trang web cho biết trang nào có khả năng được thu thập thông tin thường xuyên hơn. Nó cũng cho bạn biết thời điểm Ahrefs thu thập dữ liệu các trang của bạn lần cuối.

Ngoài ra còn có một khái niệm về ngôi sao. Khi Google nhận thấy rằng một trang không thay đổi, trang đó sẽ được thu thập thông tin ít thường xuyên hơn. Ví dụ: nếu bạn đang thu thập thông tin một trang và không thấy bất kỳ thay đổi nào sau một ngày, bạn có thể đợi ba ngày trước khi thu thập thông tin lại, mười ngày vào lần tiếp theo, 30 ngày, 100 ngày, v.v. khoảng thời gian chờ đợi giữa các lần thu thập thông tin. nhưng trở nên hiếm hơn theo thời gian. Tuy nhiên, khi Google nhận thấy những thay đổi lớn đối với toàn bộ trang web hoặc một trang web di chuyển, nó thường làm tăng tốc độ thu thập dữ liệu, ít nhất là tạm thời.

Giới hạn tốc độ thu thập thông tin

Giới hạn tốc độ thu thập thông tin là số lượng thu thập thông tin mà trang web của bạn có thể hỗ trợ. Các trang web có một lượng thu thập dữ liệu nhất định mà chúng có thể chịu được trước khi các vấn đề ổn định của máy chủ như chậm hoặc lỗi phát sinh. Hầu hết các trình thu thập thông tin ngừng thu thập thông tin khi họ thấy những vấn đề này để chúng không gây hại cho trang web.

Google điều chỉnh dựa trên trạng thái thu thập thông tin của trang web. Nếu trang web ổn với việc thu thập thông tin nhiều hơn, giới hạn sẽ được tăng lên. Khi trang web gặp sự cố, Google sẽ làm chậm tốc độ thu thập dữ liệu.

Tôi muốn google thu thập dữ liệu nhanh hơn

Có một số điều bạn có thể làm để đảm bảo trang web của bạn hỗ trợ thu thập thông tin bổ sung và tăng nhu cầu thu thập dữ liệu trang web của bạn. Hãy xem xét một số tùy chọn này.

Tăng tốc máy chủ của bạn / tăng tài nguyên

Về cơ bản, cách Google thu thập dữ liệu các trang là tải xuống các tài nguyên và sau đó xử lý chúng ở cuối trang. Tốc độ trang của bạn được người dùng cảm nhận không hoàn toàn giống nhau. Điều ảnh hưởng đến ngân sách thu thập thông tin là Google có thể kết nối và tải xuống tài nguyên nhanh như thế nào, điều này liên quan nhiều hơn đến máy chủ và tài nguyên.

Các liên kết khác, bên ngoài & trong nội bộ

Hãy nhớ rằng, nhu cầu thu thập thông tin thường dựa trên mức độ phổ biến hoặc liên kết. Bạn có thể tăng ngân sách của mình bằng cách tăng số lượng liên kết bên ngoài và / hoặc liên kết nội bộ. Liên kết nội bộ dễ dàng hơn vì bạn kiểm soát trang web. Bạn có thể tìm thấy các đề xuất cho các liên kết nội bộ trong Liên kết các khả năng Báo cáo trong Kiểm tra trang web cũng có hướng dẫn giải thích cách hoạt động.

Sửa chữa các liên kết bị hỏng và được chuyển hướng

Giữ các liên kết đến các trang bị hỏng hoặc được chuyển hướng hoạt động trên trang web của bạn sẽ có ít tác động đến ngân sách thu thập thông tin. Thông thường các trang được liên kết ở đây có mức độ ưu tiên khá thấp vì chúng có thể không thay đổi trong một thời gian, nhưng việc dọn dẹp các vấn đề sẽ tốt cho việc bảo trì trang web nói chung và giúp ngân sách thu thập thông tin của bạn một chút.

Bạn có thể dễ dàng tìm thấy các liên kết bị hỏng (4xx) và được chuyển hướng (3xx) trên trang web của mình trong Trang nội bộ Báo cáo trong cuộc kiểm tra địa điểm.

Đối với các liên kết bị hỏng hoặc được chuyển hướng trong sơ đồ trang web, hãy kiểm tra Tất cả các vấn đề Báo cáo cho “3XX chuyển hướng đến sơ đồ trang web “và”4XX Trang trong sơ đồ trang web “Vấn đề.

Để sử dụng NHẬN ĐƯỢC Thay vì BÀI ĐĂNG nơi bạn có thể

Cái này kỹ thuật hơn một chút ở chỗ nó nói về HTTP Yêu cầu các phương thức. Không được dùng BÀI ĐĂNG Yêu cầu ở đâu NHẬN ĐƯỢC Yêu cầu hoạt động. Về cơ bản nó là NHẬN ĐƯỢC (kéo) vs BÀI ĐĂNG (để nhấn). BÀI ĐĂNG Các yêu cầu không được lưu vào bộ nhớ đệm để chúng ảnh hưởng đến ngân sách thu thập thông tin, nhưng NHẬN ĐƯỢC Các câu hỏi có thể được lưu vào bộ nhớ đệm.

Sử dụng lập chỉ mục API

Nếu bạn muốn các trang được thu thập thông tin nhanh hơn, hãy xem liệu bạn có đủ điều kiện cho Google hay không lập chỉ mục API. Hiện tại, tính năng này chỉ khả dụng cho một số trường hợp sử dụng như tin tuyển dụng hoặc video trực tiếp.

Bing cũng có một lập chỉ mục API cái đó có sẵn cho tất cả mọi người.

Những gì sẽ không hoạt động

Có một số điều đôi khi được thử không thực sự giúp ích cho ngân sách thu thập thông tin của bạn.

  • Những thay đổi nhỏ ở bên cạnh. Thực hiện các thay đổi nhỏ đối với các trang như cập nhật ngày tháng, khoảng trắng hoặc dấu chấm câu với hy vọng rằng các trang sẽ được thu thập thông tin thường xuyên hơn. Google khá giỏi trong việc xác định xem những thay đổi có quan trọng hay không, vì vậy những thay đổi nhỏ đó không có khả năng ảnh hưởng đến việc thu thập thông tin.
  • Hướng dẫn về độ trễ thu thập thông tin trong tệp robots.txt. Chỉ thị này sẽ làm chậm nhiều bot. Tuy nhiên, Googlebot không sử dụng nó, vì vậy nó không có tác dụng. Chúng tôi tại Ahrefs tôn trọng điều này. Vì vậy, nếu bạn cần làm chậm quá trình thu thập thông tin của chúng tôi, bạn có thể thêm độ trễ thu thập thông tin vào tệp robots.txt của mình.
  • Xóa tập lệnh của bên thứ ba. Các tập lệnh của bên thứ ba không được tính vào ngân sách thu thập thông tin của bạn, vì vậy việc xóa chúng sẽ không hữu ích.
  • Đừng theo. Được rồi, điều này là đáng ngờ. Trước đây, các liên kết nofollow sẽ không sử dụng ngân sách thu thập thông tin. Tuy nhiên, nofollow hiện được coi như một gợi ý để Google có thể thu thập thông tin các liên kết này.

Tôi muốn google thu thập dữ liệu chậm hơn

Chỉ có một số cách tốt để làm chậm quá trình thu thập dữ liệu của Google. Về mặt kỹ thuật, có một số điều chỉnh khác mà bạn có thể thực hiện, chẳng hạn như: B. Làm chậm trang web của bạn, nhưng đây không phải là phương pháp mà tôi muốn giới thiệu.

Điều chỉnh chậm, nhưng đảm bảo

Kiểm soát quan trọng nhất mà Google cung cấp cho chúng tôi để thu thập dữ liệu chậm hơn là Bộ giới hạn tốc độ trong Google Search Console. Bạn có thể sử dụng công cụ để làm chậm tốc độ thu thập dữ liệu, nhưng có thể mất đến hai ngày để công cụ có hiệu lực.

Thích ứng nhanh nhưng có rủi ro

Nếu bạn cần một giải pháp nhanh hơn, bạn có thể tận dụng các điều chỉnh tốc độ thu thập dữ liệu của Google để đảm bảo chất lượng trang web của bạn. Nếu bạn cung cấp cho Googlebot mã trạng thái “503 Dịch vụ không khả dụng” hoặc “429 Yêu cầu Quá nhiều” trên các trang, việc thu thập thông tin sẽ chậm hơn hoặc việc thu thập thông tin sẽ tạm thời dừng lại. Tuy nhiên, bạn không nên làm điều này trong một vài ngày, hoặc bạn có thể bắt đầu xóa các trang khỏi chỉ mục.

Suy nghĩ cuối cùng

Một lần nữa, tôi muốn nhắc lại rằng ngân sách thu thập thông tin không có gì đáng lo ngại đối với hầu hết mọi người. Nếu bạn có bất kỳ mối quan tâm nào, tôi hy vọng hướng dẫn này hữu ích.

Tôi thường chỉ xem xét vấn đề này khi có vấn đề với các trang không được thu thập thông tin và lập chỉ mục, cần giải thích lý do tại sao ai đó không nên lo lắng hoặc thấy điều gì đó trong báo cáo thống kê thu thập thông tin trong Google Search Console khiến tôi lo lắng. .

Có bất kỳ câu hỏi? cho tôi biết Twitter.


Nguồn: Ahrefs

Trả lời

Chat Zalo