Chuyển sang Sơ đồ tri thức của Google, đây là Kho tri thức

Sơ đồ tri thức được biết đến trong cộng đồng SEO như một cơ sở kiến ​​thức thu thập dữ liệu từ nhiều nguồn khác nhau trên web để cải thiện kết quả tìm kiếm. Nhưng liệu công nghệ của nó có sớm là “tin cũ”? Tham gia vào Kho tri thức, sản phẩm trí tuệ của Google và một loại “Sơ đồ tri thức trên Steroid” có thể sớm trở thành hiện thực cho việc tìm kiếm.

Theo một báo cáo trong Nhà khoa học mới, Knowledge Vault khác với Sơ đồ tri thức ở chỗ nó không dựa vào “nguồn cung ứng cộng đồng” để có thông tin. Từ báo cáo:

Cơ sở hiện có này, được gọi là Sơ đồ tri thức, dựa vào nguồn cung ứng cộng đồng để bổ sung thông tin của nó. Nhưng công ty nhận thấy rằng sự tăng trưởng đã bị đình trệ; Con người chỉ có thể đạt được xa đến mức này. Do đó, Google quyết định rằng quy trình này cần được tự động hóa. Nó bắt đầu bằng việc xây dựng Vault bằng cách sử dụng một thuật toán để tự động truy xuất thông tin từ khắp nơi trên web, sử dụng máy học để biến dữ liệu thô thành kiến ​​thức có thể sử dụng được.

Google đã ám chỉ đến Kho tri thức trong một thời gian. Lấy bài thuyết trình này của Google vào năm 2013. Trong bài thuyết trình này, Google chỉ ra rằng Sơ đồ tri thức được vận hành bởi Freebase.com, một cơ sở dữ liệu do cộng đồng quản lý, tập hợp nhiều nguồn dữ liệu; và trong khi “Freebase lớn”, bản trình bày cho biết “vẫn còn rất chưa hoàn thiện” và “chúng tôi cần các phương pháp tự động để xây dựng cơ sở kiến ​​thức”.

Sau đó, phần trình bày giải thích cách Google đang xây dựng cơ sở kiến ​​thức toàn diện hơn thông qua Kho kiến ​​thức, nơi tập hợp nhiều tín hiệu khác nhau. Từ bài thuyết trình:

Có nhiều nhóm học thuật (ví dụ: CMU, UW, MPI) đã phát triển các phương pháp để trích xuất dữ kiện từ kho văn bản lớn. Tại Google, chúng tôi đã phát triển một hệ thống tương tự, chỉ khác là nó lớn hơn gấp 10 lần. Ngoài ra, chúng tôi sử dụng “kiến thức trước” để giảm tỷ lệ lỗi.

Kho kiến ​​thức

Bài báo này, do Google xuất bản, đi vào chi tiết hơn về các khái niệm đằng sau Kho tri thức và xác định ba thành phần chính:

  • Bộ chiết: Các hệ thống này trích xuất gấp ba lần từ nhiều nguồn web khác nhau. Mỗi bộ trích xuất chỉ định một giá trị tin cậy cho một bộ ba được trích xuất, giá trị này thể hiện sự không chắc chắn về nhận dạng của mối quan hệ và các đối số tương ứng.
  • Sơ đồ dựa trên đồ thị: Các hệ thống này tìm hiểu xác suất của từng bộ ba có thể dựa trên các bộ ba được đánh giá trong KB (cơ sở kiến ​​thức) hiện có.
  • Hợp nhất kiến ​​thức: Hệ thống này tính toán xác suất bộ ba là đúng dựa trên sự tương ứng giữa các bộ chiết và bộ đôi khác nhau.

Nhận xét về các chi tiết của bài báo Knowledge Vault, AJ Kohn của công ty tư vấn tiếp thị và SEO Blind Five Year Old cho biết nó chỉ ra “các cách khác nhau mà Google trích xuất các thực thể và cách họ xác nhận chúng dựa trên kiến ​​thức trước đó. Giá trị thực của quy trình được vạch ra nằm ở sự kết hợp của các phương pháp trích xuất và xác nhận khác nhau để tạo ra một cơ sở dữ liệu thực thể mạnh mẽ và đáng tin cậy hơn nhiều. “

Ông nói thêm, “Nói tóm lại, Google đã tìm ra cách để tạo ra một biểu đồ tri thức lớn hơn, đáng tin cậy hơn. Google sử dụng tất cả các ứng dụng thực thể và về cơ bản phân tích các ứng dụng có ý nghĩa. “

Điều này có ý nghĩa gì đối với tương lai của tối ưu hóa tìm kiếm vẫn còn được các nhà tiếp thị nhìn thấy. Kohn gần đây đã viết về Tối ưu hóa Sơ đồ tri thức và nói rằng các chi tiết của thông tin về Kho tri thức chứa đựng một số thông tin chi tiết.

“Nếu bạn đi sâu vào chi tiết, có một số hiểu biết thú vị. Đầu tiên, đánh dấu mà các trang web đang tích cực sử dụng (ví dụ: schema.org) là một phần rất nhỏ trong tổng số phần trích xuất và tạo ra các dữ kiện thực thể kém đáng tin cậy hơn nhiều, “Kohn nói. “Thay vào đó, phần lớn đến từ Google, công ty thu thập dữ liệu cây HTML của các trang web – dữ liệu phi cấu trúc mà sau đó chúng biến thành một thứ gì đó có ý nghĩa.”

Điều đó có nghĩa là chúng ta nên ngừng sử dụng dữ liệu có cấu trúc?

Kohn nói không: “Tôi nghĩ điều này là quan trọng cần làm nếu bạn muốn tham gia vào tương lai của cuộc tìm kiếm. Tuy nhiên, nó có thể cho thấy rằng đánh dấu không lý tưởng, rằng các trang web đang ích kỷ hoặc triển khai nó không đúng cách. Hoặc đủ quyền để được sử dụng như một dữ kiện thực thể. “

Một khía cạnh thú vị khác, Kohn nói, là phần “con người” của quá trình Kho tri thức này.

“Điều này đã được nêu rõ trong bài báo và đưa ra ý tưởng rằng Google muốn có một số loại xếp hạng dựa trên tác giả hoặc năng lực, nhưng điều này thông qua các thực thể chứ không phải thông qua đánh dấu rõ ràng, thêm một chút nữa.”

Cuối cùng, Kohn nói, có một yếu tố dự đoán liên kết và “làm thế nào Google có thể xác định tốt hơn các thực thể bằng cách hiểu những loại sự kiện có thể mong đợi. Đối với mỗi người, bạn mong đợi tìm thấy các dữ kiện tiềm năng như “vợ / chồng”, “ngày sinh”, “nơi sinh”, “giới tính”, “cha mẹ”, “con cái”, v.v. Để có thể tạo ra các dự đoán liên kết này và tìm kiếm chúng để tắt tự động là điều vô cùng mạnh mẽ. “

Điều này có nghĩa là gì đối với nhà tiếp thị công cụ tìm kiếm trung bình? Kohn nói rằng “Các thực thể chủ yếu là cách Google sẽ cải thiện kết quả tìm kiếm trong tương lai gần.”

Thứ hai, Kohn nói, “Phần lớn thông tin này được đưa vào bảng tri thức. Do đó, các trang web có thể liên kết nội dung của họ với Kho tri thức có thể được hiển thị trong Bảng tri thức trong tương lai. “

Nguồn: www.searchenginewatch.com

Trả lời

Chat Zalo