SEO kỹ thuật – Tất cả là về thu thập thông tin

Trong khoảng thời gian tôi làm SEO (hơn 12 năm), tôi đã thấy rất nhiều người tuyên bố “làm SEO”. Từ nhà thiết kế đến nhà tiếp thị nội dung, người PPC, người PR đến người truyền thông xã hội. Mọi người đều muốn tham gia trò chơi.

Đó là tất cả tốt và tốt … những người này có vị trí của họ.

Nhưng với SEO, mọi thứ bắt đầu với “thu thập thông tin”.

Nếu công cụ tìm kiếm không thể thu thập dữ liệu trang web của bạn hoặc lập chỉ mục các trang của bạn, tất cả nội dung trên thế giới sẽ không di chuyển theo kim. Bạn thậm chí có thể tạo ra một số lượng lớn các liên kết ngược tuyệt vời mà vẫn bị mắc kẹt trong bùn.

Một số trang web đủ đơn giản để được thu thập thông tin. Ý tôi là, nếu trang web của bạn nói chung là “tĩnh” và được xây dựng theo cách đơn giản (WordPress với một vài plugin?) Bạn có thể sẽ không gặp bất kỳ vấn đề nào. Tuy nhiên, vẫn có nhiều trường hợp các trang web gặp thách thức với việc lập chỉ mục tối ưu.

Nghiên cứu điển hình

Gần đây, công ty của tôi đã giành được một khách hàng mới – dường như và từ phân tích đầu tiên của chúng tôi – đã bị ảnh hưởng bởi Google Panda WAY BACK vào tháng 2 năm 2011 /. Bằng chứng có vẻ khá rõ ràng:

semrushchart

Trong nhiều năm, khách hàng của tôi đã quyết tâm tiếp tục công việc kinh doanh như bình thường và không cân nhắc hay cân nhắc nhiều đến SEO. Họ vẫn kiếm tiền từ tiếp thị thông qua PPC, email và các phương tiện truyền thống khác.

Sau đó, họ quyết định đã đến lúc bắt kịp với những người khác và đầu tư một chút thời gian, tiền bạc và, vâng, kiên nhẫn trong quá trình khôi phục sự hiện diện tìm kiếm không phải trả tiền của họ.

Trang web cụ thể này là thương mại điện tử và giống như nhiều trang web khác bán lại sản phẩm; tất cả các mô tả sản phẩm của họ được chia sẻ bởi nhiều người khác, những người cũng bán lại những sản phẩm giống hệt nhau này. “Rất đơn giản,” chúng tôi nghĩ … chúng tôi sẽ viết lại một vài mô tả sản phẩm và sau đó bắt đầu tối ưu hóa kết quả.

Không quá nhanh.

Giống như nhiều người trong số các bạn, chúng tôi bắt đầu sáng kiến ​​bằng một “cuộc kiểm toán”. Chúng tôi muốn xem xét mọi thứ một cách tổng thể để đảm bảo một cách tiếp cận chiến lược cho nỗ lực. Đó là cho đến khi chúng tôi bắt đầu phát hiện ra một danh sách dường như vô tận các lỗi kỹ thuật, sai sót và chuyển hướng (theo nghĩa đen) khiến chúng tôi bỏ qua “quy trình điển hình” và tìm hiểu sâu hơn về khả năng thu thập thông tin / khả năng lập chỉ mục.

“Những điều đầu tiên trước tiên,” họ nói.

Với Wayback Machine, chúng tôi có thể xem trang web từ tháng 12 năm 2010 đến tháng 2 năm 2011 (hồ sơ phân tích từ thời kỳ này đã bị mất; các nhà phát triển đã làm việc trên trang web vào thời điểm đó không còn để tham khảo). Điều đó bắt đầu quá trình tìm hiểu chính xác những gì chúng tôi đang tham gia. Một số “thiên tài” đã quyết định viết lại tất cả các URL của họ (chèn một thư mục mà không có lý do rõ ràng), ngừng sử dụng cấu trúc URL thân thiện với công cụ tìm kiếm (ví dụ: CompanyName.com/Category/Product/ProductName) và sau đó chuyển hướng mọi thứ đến chúng các url mới . Điều đó một mình đã / là xấu. Sau đó, một loạt các phản ứng khó chịu trước những tổn thất dẫn đến việc thực hiện hầu hết các hoạt động xấu được biết đến với SEO.

Chúng tôi nhanh chóng viết lại bản sao đã hứa và loại bỏ “kế hoạch trò chơi” để đối phó với một số SEO kỹ thuật.

Điều đầu tiên chúng tôi cần làm là xem liệu các bot có thể thu thập dữ liệu trang web một cách đầy đủ hay không.

Công cụ quản trị trang web của Google: Mặc dù Công cụ Quản trị Trang web của Google được cung cấp, nhưng các sơ đồ trang web đã lỗi thời. Thay vì chỉ gửi lại các sơ đồ trang web, chúng tôi đã tạo các sơ đồ trang web mới được phân loại theo các phần của trang web mà chúng tôi muốn phân tích (Chính, Blog, Sản phẩm XYZ, Sản phẩm ABC, v.v.). Có lẽ đây là điều tốt nhất chúng tôi đã làm. Nó đã giúp chúng tôi cô lập hoàn toàn các khu vực của trang web không được lập chỉ mục.

Phân tích tệp nhật ký: Chúng tôi nghi ngờ những kẻ phá hoại đang tích cực nhắm mục tiêu đến trang web của khách hàng của chúng tôi. Một phân tích tệp nhật ký đã xác nhận điều này. Chúng tôi đã có thể cô lập một số IP và chặn chúng thu thập dữ liệu trang web. Chúng tôi cũng muốn tìm kiếm bất kỳ dấu hiệu nào cho thấy bot đang gặp sự cố khi thu thập dữ liệu trang web.

Phân tích nội dung: Vì chúng tôi vẫn tin rằng Panda có thể có trong trò chơi và chúng tôi có thể xác định nhiều trang web khác có nội dung trùng lặp (bị đánh cắp), chúng tôi vẫn phải tìm các trường hợp mà chúng tôi có thể đã tạo bản sao trên trang web của mình. Mặc dù điều này không dễ nhìn thấy trong nhiều công cụ / trình thu thập thông tin, nhưng khi xem các phiên bản được lưu trong bộ nhớ cache của các trang mà chúng tôi cho là có vấn đề, chúng tôi nhận thấy rằng khách hàng của mình đã lập chỉ mục nội dung “cửa sổ bật lên”. Nội dung bật lên này quan trọng đối với người dùng (họ có biết sản phẩm đã hết hàng hay không, v.v.), nhưng nội dung này cũng hiện diện trên mọi trang sản phẩm, bất kể sản phẩm đã hết hàng hay chưa. Nó nằm trong bộ nhớ cache của Google. Tính theo tỷ lệ phần trăm, nội dung “rác” này chiếm một số lượng lớn. Có lẽ một nửa nội dung văn bản trên các trang của họ liên quan đến nội dung đã hết hàng hoặc “không có sẵn”. Ý bạn là các công cụ tìm kiếm thích đọc cái này? Bạn có nghĩ rằng họ muốn lập chỉ mục các trang này không? Suy nghĩ của chúng tôi? “Chắc là không”.

Sự cố DNS: Khi xem xét kỹ các vấn đề kỹ thuật có thể xảy ra, chúng tôi muốn biết liệu có bất kỳ sự cố DNS nào đối với miền hay không. Chúng tôi muốn đảm bảo rằng không có vấn đề thiết lập miền và bất kỳ trở ngại nào khi trang web được “nhập” và máy chủ cần bắt đầu giao tiếp. Chúng tôi nhận thấy một vấn đề nhỏ ở cấp DNSSEC là thiếu ủy quyền khiến giao tiếp không thể được xác thực. Điều này đã được sửa chữa.

dnssec-image

Bảo mật trang web / Cross-Site-Scripting (XSS) /: Trong khi thực hiện một số truy vấn trang web trong công cụ tìm kiếm, chúng tôi đã gặp trường hợp chúng tôi nhấp qua trang web của khách hàng và nhận được thông báo rằng trang web “không đáng tin cậy”. Chúng tôi quyết định cần kiểm tra phần mềm độc hại trên trang web. Chúng tôi đã sử dụng Zed Attack Proxy cho việc này. Hóa ra, trang web của khách hàng thực sự trả về “tích cực” (thực tế có nghĩa là “tiêu cực”) trong thử nghiệm của chúng tôi. Và hóa ra, nó không thực sự là XSS, mà là một kết quả “sai / dương tính” do cách phần mềm của họ thực hiện các tác vụ khác nhau trong phần phụ trợ. Nhưng nếu một công cụ hiển thị vấn đề, tại sao một công cụ tìm kiếm không nghĩ rằng có vấn đề?

Điện thoại di động, điện thoại di động: Không có cách khắc phục nhanh nào ở đây vì khách hàng đang sử dụng ứng dụng di động và chưa (chưa) vận hành trang web đáp ứng. Tính năng này sắp ra mắt nhưng chúng tôi đang làm việc với ứng dụng dành cho thiết bị di động của bạn để có được ít nhất một ánh xạ 1-1 cho tất cả các trang (hiện tại bạn đang chuyển hướng tất cả các trang trên thiết bị di động đến trang chủ vì chúng có ứng dụng “trợ lý” để hướng dẫn bạn thông qua quy trình bán hàng).

JavaScript / CSS: Máy khách đã chặn JS và CSS khỏi các bot. Như Google đã thông báo vào năm ngoái, đây không phải là một điều tốt.

googlewebmastercentral

Cấu trúc URL: Khách hàng này đã sử dụng một phương pháp tạo URL khá phổ biến đã từng hoạt động trong quá khứ, được cho là (có thể). Vì vậy, hãy đặt tất cả các trang sản phẩm trực tiếp từ thư mục gốc miền (companyname.com/productname). Tôi luôn tin rằng điều này thực sự hiệu quả, nhưng nó không nên. Công cụ tìm kiếm nên thông minh hơn. Với những thay đổi gần đây trong thuật toán di động, tôi hiện là người ủng hộ mạnh mẽ các cấu trúc URL tuân theo cấu trúc của trang web (và đường dẫn đi kèm với chúng). Bây giờ chúng tôi đã viết lại tất cả các URL thành định dạng thích hợp và thêm các trang danh mục mà trước đây chưa có.

Chúng tôi đã thực hiện rất nhiều thay đổi (và mọi thứ vẫn chưa đúng như mong muốn) nên giờ đây chúng tôi có thể lùi lại một bước và bắt đầu xem xét cách tiếp cận chiến lược hơn mà chúng tôi đã lên kế hoạch từ lâu. Bây giờ chúng ta có thể xem xét những thứ như phân tích khoảng cách nội dung, cải tiến kiến ​​trúc thông tin, thiết kế lại trang web, chiến lược truyền thông xã hội, PR và tối ưu hóa khả năng sử dụng / tỷ lệ chuyển đổi. Tất cả những điều này chắc chắn là quan trọng, nhưng tất cả đều bắt đầu với sự leo thang.

Nguồn: www.searchenginewatch.com

Trả lời

Chat Zalo