Lập chỉ mục ngữ nghĩa tiềm ẩn là gì và tại sao nó không quan trọng đối với SEO

Nhiều tuyên bố được đưa ra cho Lập chỉ mục ngữ nghĩa tiềm ẩn (LSI) và “Từ khóa LSI” cho SEO.

Một số người thậm chí còn nói rằng Google dựa vào “từ khóa LSI” để hiểu các trang web.

Điều này đã được thảo luận trong gần hai mươi năm và các sự kiện dựa trên bằng chứng đã có từ lâu.

Đây là lập chỉ mục ngữ nghĩa tiềm ẩn

Lập chỉ mục ngữ nghĩa tiềm ẩn (còn được gọi là phân tích ngữ nghĩa tiềm ẩn) là một phương pháp phân tích một loạt các tài liệu để khám phá các lần xuất hiện thống kê của các từ xảy ra cùng nhau, sau đó cung cấp những hiểu biết sâu sắc về đối tượng của các từ và tài liệu đó.

Hai trong số các vấn đề (trong số nhiều vấn đề) mà LSI muốn giải quyết là các vấn đề về từ đồng nghĩa và từ đa nghĩa.

Từ đồng nghĩa là dấu hiệu cho biết có bao nhiêu từ có thể mô tả cùng một thứ.

Một người đang tìm kiếm “công thức nấu ăn bánh kếp” đồng nghĩa với việc tìm kiếm “công thức nấu ăn bánh kếp” (bên ngoài Vương quốc Anh) vì đồ ăn vặt và bánh kếp là đồng nghĩa với nhau.

Polysemy đề cập đến các từ và cụm từ có nhiều hơn một nghĩa. Từ jaguar có thể có nghĩa là một con vật, một chiếc xe hơi hoặc một đội bóng đá Mỹ.

quảng cáo

Đọc bên dưới

LSI có thể thống kê dự đoán ý nghĩa của một từ bằng cách phân tích thống kê các từ xuất hiện đồng thời trong một tài liệu.

Nếu từ “jaguar” được đi kèm với từ “Jacksonville” trong một tài liệu, thì theo thống kê thì từ “jaguar” là ám chỉ đến một đội bóng Mỹ.

Khi một máy tính hiểu cách các từ xuất hiện cùng nhau, nó sẽ tốt hơn có thể trả lời một truy vấn bằng cách kết hợp chính xác truy vấn tìm kiếm với các từ khóa chính xác.

Bằng sáng chế của LSI được nộp vào ngày 15 tháng 9 năm 1988. Đó là một công nghệ cổ đại ra đời nhiều năm trước khi có internet như chúng ta biết.

LSI không mới cũng không cập nhật.

Điều quan trọng là phải hiểu rằng vào năm 1988, LSI đã nâng cao trình độ của nghệ thuật đối sánh văn bản đơn giản.

LSI có trước Internet và được tạo ra vào thời điểm mà các máy tính của Apple trông như thế này:

Hình ảnh chiếc máy tính Apple Macintosh SE từ năm 1988

LSI được tạo ra khi một máy tính doanh nghiệp phổ biến (IBM AS / 400) trông như thế này:

Hình ảnh chiếc máy tính IBM AS400 từ năm 1988

LSI là một công nghệ đã đi qua một chặng đường dài.

quảng cáo

Đọc bên dưới

Cũng giống như máy tính từ năm 1988, trình độ tân tiến trong việc truy xuất thông tin đã phát triển đáng kể trong hơn 30 năm qua.

LSI không thực tế cho web

Một nhược điểm lớn của việc sử dụng Lập chỉ mục ngữ nghĩa tiềm ẩn trên web là các phép tính để tạo ra phân tích thống kê phải được tính toán lại mỗi khi một trang web mới được xuất bản và lập chỉ mục.

Thiếu sót này được đề cập trong một báo cáo nghiên cứu năm 2003 không phải của Google về việc Sử dụng Lập chỉ mục Ngữ nghĩa Tiềm ẩn để Lọc PDF Spam.

Bài báo nghiên cứu nêu rõ:

“Một vấn đề với LSI là nó không hỗ trợ thêm các tài liệu mới đặc biệt sau khi tạo câu ngữ nghĩa. Mỗi lần cập nhật giá trị ô sẽ thay đổi hệ số trong mọi vectơ từ khác, vì SVD sử dụng tất cả các mối quan hệ tuyến tính trong kích thước được chỉ định của nó để tạo ra vectơ dự đoán tất cả các mẫu văn bản trong đó từ xuất hiện …

Tôi đã hỏi Bill Slawski về sự không phù hợp của LSI để lấy thông tin công cụ tìm kiếm và anh ấy đồng ý và nói:

“LSI là một cách tiếp cận cũ hơn để lập chỉ mục được phát triển cho các cơ sở dữ liệu tĩnh nhỏ hơn. Có những điểm tương đồng với các công nghệ mới hơn như việc sử dụng các vectơ từ hoặc word2Vec.

Một trong những hạn chế của LSI là khi nội dung mới được thêm vào kho tài liệu, nó yêu cầu lập chỉ mục toàn bộ kho tài liệu, điều này khiến nó bị hạn chế sử dụng đối với một kho ngữ liệu thay đổi nhanh chóng như web. “

Có Tài liệu Nghiên cứu Từ khoá LSI của Google không?

Một số người trong cộng đồng tìm kiếm tin rằng Google đang sử dụng “Từ khóa LSI” trong thuật toán tìm kiếm của mình như thể LSI vẫn là công nghệ tiên tiến.

Để chứng minh điều này, một số tham khảo bài báo nghiên cứu năm 2016 có tên Cải thiện phân nhóm chủ đề ngữ nghĩa cho các truy vấn tìm kiếm với Từ đồng xuất hiện và Phân cụm Bigraph (PDF).

Bài báo nghiên cứu này hoàn toàn không phải là một ví dụ về Lập chỉ mục ngữ nghĩa tiềm ẩn. Đó là một công nghệ hoàn toàn khác.

Trên thực tế, bài báo nghiên cứu này đề cập rất ít đến LSI (còn được gọi là Phân tích ngữ nghĩa tiềm ẩn) đến nỗi nó trích dẫn một bài báo nghiên cứu LSI năm 1999 ([5] T. Hofmann. Lập chỉ mục ngữ nghĩa tiềm ẩn xác suất. … 1999) như một phần giải thích tại sao LSI không hữu ích cho vấn đề mà các tác giả đang cố gắng giải quyết.

quảng cáo

Đọc bên dưới

Đây là những gì nó nói:

“Phân bổ Dirichlet tiềm ẩn (LDA) và Phân tích ngữ nghĩa tiềm ẩn xác suất (PLSA) là những kỹ thuật được sử dụng rộng rãi để phát hiện các vấn đề tiềm ẩn trong dữ liệu văn bản. … Các mô hình này tìm hiểu các vấn đề tiềm ẩn bằng cách ngầm tận dụng lợi thế của các mẫu cùng xuất hiện từ ở cấp độ tài liệu.

Tuy nhiên, các văn bản ngắn – chẳng hạn như truy vấn tìm kiếm, tweet hoặc tin nhắn tức thời – bị thiếu dữ liệu gây ra vấn đề cho các kỹ thuật mô hình chủ đề truyền thống. “

Việc sử dụng tài liệu nghiên cứu trên làm bằng chứng cho thấy Google sử dụng LSI như một yếu tố xếp hạng quan trọng là một sai lầm. Bài báo không nói về LSI và thậm chí không phải về phân tích các trang web.

Đây là một bài báo nghiên cứu thú vị năm 2016 về các truy vấn nhanh khai thác dữ liệu để hiểu ý nghĩa của chúng.

Ngoài bài báo nghiên cứu này, chúng tôi biết rằng Google sử dụng BERT và công nghệ kết hợp thần kinh để hiểu các tìm kiếm trong thế giới thực.

Tóm lại một câu chuyện dài: Việc sử dụng bài báo nghiên cứu này để đưa ra tuyên bố dứt khoát về thuật toán xếp hạng của Google là hoàn toàn không đầy đủ.

quảng cáo

Đọc bên dưới

Google có sử dụng từ khóa LSI không?

Có hai loại dữ liệu đáng tin cậy và có thẩm quyền trong tiếp thị công cụ tìm kiếm:

  1. Ý tưởng thực tế dựa trên các tài liệu công khai như tài liệu nghiên cứu và bằng sáng chế.
  2. Ý tưởng SEO dựa trên những hiểu biết sâu sắc của nhân viên Google

Mọi thứ khác là ý kiến ​​thuần túy.

Điều quan trọng là phải biết sự khác biệt.

John Mueller của Google đã trực tiếp lật tẩy khái niệm từ khóa LSI.

Chuyên gia về bằng sáng chế tìm kiếm nổi tiếng Bill Slawski cũng đã lên tiếng về thuật ngữ Lập chỉ mục ngữ nghĩa tiềm ẩn và SEO.

Các tuyên bố của Bill về LSI dựa trên kiến ​​thức sâu sắc về các thuật toán của Google mà ông đã chia sẻ trong các bài báo dựa trên thực tế (như đây và đây).

quảng cáo

Đọc bên dưới

Bill Slawski đã tweet ý kiến ​​sáng suốt của anh ấy về việc lập chỉ mục ngữ nghĩa tiềm ẩn

Tại sao Google được kết hợp với phân tích ngữ nghĩa tiềm ẩn

Mặc dù không có bằng chứng về bằng sáng chế và nghiên cứu cho thấy LSI / LSA là các yếu tố xếp hạng quan trọng, Google vẫn liên kết với Lập chỉ mục ngữ nghĩa tiềm ẩn.

Một lý do cho điều này là năm 2003, Google tiếp quản một công ty có tên là Ngữ nghĩa Ứng dụng.

Ngữ nghĩa ứng dụng đã phát triển một công nghệ gọi là Circa. Circa là một thuật toán phân tích ngữ nghĩa đã được sử dụng trong AdSense và cả trong Google AdWords.

quảng cáo

Đọc bên dưới

Theo thông cáo báo chí của Google:

Sergey Brin, Người đồng sáng lập và Chủ tịch Công nghệ của Google cho biết: “Ngữ nghĩa ứng dụng là một sáng tạo đã được chứng minh trong xử lý văn bản ngữ nghĩa và quảng cáo trực tuyến. “Việc mua lại này sẽ cho phép Google phát triển các công nghệ mới giúp quảng cáo trực tuyến trở nên hữu ích hơn cho người dùng, nhà xuất bản và nhà quảng cáo.

Các sản phẩm của Applied Semantics dựa trên công nghệ CIRCA đã được cấp bằng sáng chế giúp hiểu, sắp xếp và trích xuất kiến ​​thức từ các trang web và kho thông tin theo cách bắt chước suy nghĩ của con người và cho phép truy xuất thông tin hiệu quả hơn. Một ứng dụng chính của công nghệ CIRCA là sản phẩm AdSense từ Ngữ nghĩa Ứng dụng, cho phép các nhà xuất bản web hiểu các chủ đề quan trọng nhất trên các trang web để phân phối quảng cáo có liên quan và được nhắm mục tiêu cao. “

Phân tích ngữ nghĩa & SEO

Thuật ngữ “phân tích ngữ nghĩa” là một từ thông dụng phổ biến vào đầu những năm 2000, có thể được thúc đẩy một phần bởi công nghệ tìm kiếm ngữ nghĩa của Ask Jeeves.

Việc mua Ngữ nghĩa Ứng dụng của Google đã đẩy nhanh xu hướng liên kết Google với Lập chỉ mục ngữ nghĩa tiềm ẩn, mặc dù không có bằng chứng đáng tin cậy nào chứng minh điều đó.

quảng cáo

Đọc bên dưới

Cho đến năm 2005, cộng đồng tiếp thị công cụ tìm kiếm đã đưa ra những tuyên bố không có cơ sở như sau:

“Trong vài tháng nay, tôi đã nhận thấy những thay đổi trong thứ hạng của các trang web trên Google và rõ ràng là có điều gì đó về thuật toán của họ đã thay đổi.

Một trong những thay đổi quan trọng nhất là khả năng Google giờ đây sẽ quan tâm nhiều hơn đến Lập chỉ mục ngữ nghĩa tiềm ẩn (LSI).

Điều này không có gì đáng ngạc nhiên khi xem xét rằng Google đã mua Ngữ nghĩa Ứng dụng vào tháng 4 năm 2003 và được báo cáo là đã chạy quảng cáo AdSense của mình với lập chỉ mục ngữ nghĩa tiềm ẩn. “

Huyền thoại SEO rằng Google sử dụng các từ khóa LSI có thể bắt nguồn từ sự phổ biến của các cụm từ như “Phân tích ngữ nghĩa”, “Lập chỉ mục ngữ nghĩa” và “Tìm kiếm ngữ nghĩa” đã trở thành các từ thông dụng SEO do công nghệ tìm kiếm ngữ nghĩa của Ask Jeeves và việc mua lại Ngữ nghĩa của Google đã được thành lập công ty phân tích Applied Semantics.

Sự thật về lập chỉ mục ngữ nghĩa tiềm ẩn

LSI là một cách hiểu rất cũ về tài liệu.

Nó đã được cấp bằng sáng chế vào năm 1988 rất lâu trước khi có Internet như chúng ta biết.

quảng cáo

Đọc bên dưới

Bản chất của LSI khiến nó không phù hợp để quảng cáo trên Internet cho các mục đích truy xuất thông tin.

Không có nghiên cứu nào chỉ ra rõ ràng rằng lập chỉ mục ngữ nghĩa tiềm ẩn là một tính năng quan trọng của bảng xếp hạng tìm kiếm của Google.

Các dữ kiện được trình bày trong bài báo này cho thấy rằng điều này đã xảy ra từ đầu những năm 2000.

Tin đồn về việc Google sử dụng LSI và LSA xuất hiện vào năm 2003 sau khi Google mua lại Applied Semantics, công ty đã tạo ra sản phẩm quảng cáo theo ngữ cảnh AdSense.

Tuy nhiên, các nhân viên của Google đã nhiều lần khẳng định rằng Google không sử dụng từ khóa LSI.

Hãy để tôi nói to hơn một lần nữa cho phần sau: Từ khóa LSI không tồn tại.

Với số lượng lớn bằng chứng, có thể khẳng định rằng khái niệm từ khóa LSI là sai.

Thực tế cũng cho thấy LSI không phải là một phần quan trọng trong các thuật toán xếp hạng của Google.

Với những tiến bộ gần đây trong AI, xử lý ngôn ngữ tự nhiên và BERT, ý tưởng rằng Google sẽ sử dụng LSI nổi bật như một tính năng xếp hạng thực sự là đáng kinh ngạc và nực cười.

quảng cáo

Đọc bên dưới

Nhiêu tai nguyên hơn:


Hình ảnh chọn lọc của tác giả


Nguồn:searchenginejournal.com

Trả lời

Chat Zalo