Google KELM làm giảm sự biến dạng và cải thiện độ chính xác thực tế

Google AI Blog đã công bố KELM, một phương pháp có thể được sử dụng để giảm thành kiến ​​và nội dung độc hại trong tìm kiếm (trả lời câu hỏi miền mở). Nó sử dụng một phương pháp gọi là TEKGEN để chuyển đổi các dữ kiện Sơ đồ tri thức thành văn bản ngôn ngữ tự nhiên, sau đó có thể được sử dụng để nâng cao các mô hình xử lý ngôn ngữ tự nhiên.

KELM là gì?

KELM là từ viết tắt của đào tạo trước mô hình ngôn ngữ nâng cao kiến ​​thức. Các mô hình xử lý ngôn ngữ tự nhiên như BERT thường được đào tạo trên web và các tài liệu khác. KELM đề xuất thêm nội dung đáng tin cậy (nâng cao kiến ​​thức) để đào tạo trước mô hình ngôn ngữ để cải thiện độ chính xác thực tế và giảm sự sai lệch.

KELM TEKGENTEKGEN chuyển đổi dữ liệu biểu đồ kiến ​​thức có cấu trúc thành văn bản ngôn ngữ tự nhiên được gọi là kho ngữ liệu KELM

KELM sử dụng dữ liệu đáng tin cậy

Các nhà nghiên cứu của Google đề xuất sử dụng biểu đồ tri thức để cải thiện độ chính xác của dữ kiện vì chúng là nguồn dữ kiện đáng tin cậy.

quảng cáo

Đọc bên dưới

“Các nguồn thông tin thay thế là Sơ đồ tri thức (KG), bao gồm dữ liệu có cấu trúc. Bản chất của KG là thực tế vì thông tin thường được trích xuất từ ​​các nguồn đáng tin cậy hơn và các bộ lọc xử lý hậu kỳ và người biên tập đảm bảo rằng nội dung không phù hợp và không chính xác sẽ bị xóa. “

Google có sử dụng KELM không?

Google chưa cho biết có sử dụng KELM hay không. KELM là một cách tiếp cận đầy hứa hẹn để đào tạo trước mô hình ngôn ngữ đã được tóm tắt trên blog Google AI.

Độ chệch, độ chính xác thực tế và kết quả tìm kiếm

Theo bài báo nghiên cứu, cách tiếp cận này cải thiện độ chính xác thực tế:

“Nó có những lợi thế hơn nữa là độ chính xác thực tế được cải thiện và độc tính thấp hơn trong mô hình ngôn ngữ kết quả.”

Nghiên cứu này rất quan trọng vì nó làm giảm sự sai lệch và tăng độ chính xác thực tế có thể ảnh hưởng đến cách các trang web được xếp hạng.

Nhưng cho đến khi KELM được sử dụng, người ta không thể đoán được nó sẽ gây ra những ảnh hưởng gì.

Google hiện không kiểm tra kết quả tìm kiếm.

KELM, nếu được giới thiệu, có thể ảnh hưởng đến các trang web quảng bá những tuyên bố và ý tưởng sai sự thật.

quảng cáo

Đọc bên dưới

KELM Có thể Hiệu quả hơn tìm kiếm

KELM Corpus được xuất bản theo giấy phép Creative Commons (CC BY-SA 2.0).

Điều đó có nghĩa là, trên lý thuyết, bất kỳ công ty nào khác (như Bing, Facebook hoặc Twitter) cũng có thể sử dụng nó để cải thiện khả năng xử lý ngôn ngữ tự nhiên của họ.

Nó là khả thi thì ảnh hưởng của KELM có thể mở rộng trên nhiều nền tảng mạng xã hội và tìm kiếm.

Liên kết gián tiếp đến MUM

Google cũng đã đưa ra lời khuyên rằng thuật toán MUM thế hệ tiếp theo sẽ không được phát hành cho đến khi Google tin rằng sự thiên vị không ảnh hưởng tiêu cực đến các phản hồi mà nó đưa ra.

Theo thông báo của Google MUM:

“Cũng như chúng tôi đã thử nghiệm cẩn thận nhiều ứng dụng BERT đã được giới thiệu từ năm 2019, MUM sẽ trải qua quá trình tương tự như khi chúng tôi sử dụng các mô hình này trong tìm kiếm.
Đặc biệt, chúng tôi đang tìm kiếm các mẫu biểu thị thành kiến ​​học máy để tránh đưa thành kiến ​​vào hệ thống của chúng tôi. “

Phương pháp KELM đặc biệt nhằm mục đích giảm biến dạng, điều này có thể làm cho nó có giá trị cho sự phát triển của thuật toán MUM.

Học máy có thể dẫn đến kết quả sai lệch

Bài báo nghiên cứu lưu ý rằng dữ liệu sử dụng các mô hình ngôn ngữ tự nhiên như BERT và GPT-3 để đào tạo dẫn đến “nội dung độc hại“Và định kiến.

Trong khoa học máy tính có một từ viết tắt cũ là GIGO, viết tắt của Garbage In – Rác thải ra ngoài. Tức là chất lượng đầu ra do chất lượng đầu vào quyết định.

Nếu bạn đào tạo thuật toán với chất lượng cao, kết quả sẽ là chất lượng cao.

Các nhà nghiên cứu đề xuất cải thiện chất lượng dữ liệu mà các công nghệ như BERT và MUM được đào tạo để giảm sự sai lệch.

Sơ đồ tri thức

Biểu đồ tri thức là một tập hợp các dữ kiện ở định dạng dữ liệu có cấu trúc. Dữ liệu có cấu trúc là một ngôn ngữ đánh dấu để truyền đạt thông tin cụ thể theo cách mà máy móc có thể dễ dàng sử dụng.

Trong trường hợp này, thông tin là dữ kiện về con người, địa điểm và sự vật.

Sơ đồ tri thức của Google được giới thiệu vào năm 2012 để giúp Google hiểu mối quan hệ giữa mọi thứ. Vì vậy, nếu ai đó hỏi về Washington, Google có thể cho biết liệu người hỏi đang hỏi về Washington, tiểu bang hay Đặc khu Columbia.

quảng cáo

Đọc bên dưới

Đã có thông báo rằng Sơ đồ tri thức của Google được tạo thành từ dữ liệu từ các nguồn thông tin đáng tin cậy.

Thông báo năm 2012 của Google đã xác định Sơ đồ tri thức là bước đầu tiên hướng tới việc xây dựng thế hệ tìm kiếm tiếp theo mà chúng tôi hiện đang tận hưởng.

Sơ đồ tri thức và độ chính xác thực tế

Trong bài nghiên cứu này, dữ liệu Sơ đồ tri thức được sử dụng để cải thiện các thuật toán của Google vì thông tin đáng tin cậy và đáng tin cậy.

Bài báo nghiên cứu của Google đề xuất tích hợp thông tin từ biểu đồ kiến ​​thức vào quá trình đào tạo để xóa bỏ định kiến ​​và tăng độ chính xác thực tế.

Những gì nghiên cứu của Google gợi ý là gấp đôi.

  1. Đầu tiên, họ cần chuyển các cơ sở kiến ​​thức thành văn bản ngôn ngữ tự nhiên.
  2. Thứ hai, kho dữ liệu kết quả được gọi là Đào tạo trước Mô hình Ngôn ngữ Nâng cao Kiến thức (KELM) sau đó có thể được tích hợp vào đào tạo trước thuật toán để giảm sự sai lệch.

Các nhà nghiên cứu giải thích vấn đề theo cách này:

“Các mô hình xử lý ngôn ngữ tự nhiên (NLP) lớn được đào tạo trước như BERT, RoBERTa, GPT-3, T5 và REALM sử dụng kho ngữ liệu tự nhiên có nguồn gốc từ web và khớp với dữ liệu dành riêng cho nhiệm vụ …

Tuy nhiên, chỉ riêng văn bản ngôn ngữ tự nhiên đã đại diện cho một phạm vi kiến ​​thức hạn chế … Ngoài ra, sự hiện diện của thông tin phi thực tế và nội dung độc hại trong văn bản cuối cùng có thể dẫn đến sự sai lệch trong các mô hình kết quả “

quảng cáo

Đọc bên dưới

Từ dữ liệu biểu đồ tri thức có cấu trúc đến văn bản ngôn ngữ tự nhiên

Các nhà nghiên cứu chỉ ra rằng một vấn đề với việc tích hợp thông tin cơ sở kiến ​​thức vào đào tạo là dữ liệu cơ sở kiến ​​thức ở dạng dữ liệu có cấu trúc.

Giải pháp là chuyển đổi dữ liệu có cấu trúc của biểu đồ tri thức thành văn bản ngôn ngữ tự nhiên bằng cách sử dụng một tác vụ ngôn ngữ tự nhiên được gọi là tạo dữ liệu thành văn bản.

Họ tuyên bố rằng bởi vì việc tạo dữ liệu thành văn bản là một thách thức, họ đang tạo ra mộtđường ống“được đặt tên”Văn bản từ trình tạo KG (TEKGEN)“để giải quyết vấn đề.

Trích dẫn: Tạo ngữ liệu tổng hợp dựa trên biểu đồ tri thức để đào tạo trước mô hình ngôn ngữ dựa trên kiến ​​thức (PDF)

TEKGEN Văn bản ngôn ngữ tự nhiên Cải thiện độ chính xác thực tế

TEKGEN là công nghệ mà các nhà nghiên cứu đã phát triển để chuyển đổi dữ liệu có cấu trúc thành văn bản bằng ngôn ngữ tự nhiên. Đó là kết quả cuối cùng này, văn bản thực tế có thể được sử dụng để tạo kho ngữ liệu KELM, sau đó có thể được sử dụng như một phần của quá trình đào tạo trước máy học để ngăn chặn sự sai lệch khi nhập các thuật toán.

Các nhà nghiên cứu nhận thấy rằng việc thêm thông tin biểu đồ kiến ​​thức bổ sung (kho tài liệu) này vào dữ liệu đào tạo dẫn đến cải thiện độ chính xác thực tế.

quảng cáo

Đọc bên dưới

Trong bài báo TEKGEN / KELM nó nói:

“Chúng tôi cũng cho thấy rằng việc sử dụng ngôn ngữ của một KG toàn diện, bách khoa như Wikidata có thể được sử dụng để tích hợp các KG có cấu trúc và kho ngữ liệu của ngôn ngữ tự nhiên.

… cách tiếp cận của chúng tôi chuyển đổi KG thành văn bản tự nhiên và do đó có thể được tích hợp liền mạch vào các mô hình ngôn ngữ hiện có. Nó có những lợi thế hơn nữa là độ chính xác thực tế được cải thiện và tính độc hại thấp hơn trong mô hình ngôn ngữ kết quả. “

Bài báo KELM đã xuất bản một minh họa cho thấy cách một nút dữ liệu có cấu trúc được nối và từ đó được chuyển đổi thành văn bản tự nhiên (bằng lời nói).

Tôi chia hình minh họa thành hai phần.

Dưới đây là hình ảnh đại diện cho dữ liệu có cấu trúc từ biểu đồ tri thức. Dữ liệu được nối thành văn bản.

Ảnh chụp màn hình phần đầu tiên của quá trình chuyển đổi TEKGEN

Nối Google KELMHình ảnh dưới đây đại diện cho bước tiếp theo trong quy trình TEKGEN, lấy văn bản nối và chuyển nó thành văn bản ngôn ngữ tự nhiên.

Ảnh chụp màn hình của văn bản được chuyển đổi sang văn bản ngôn ngữ tự nhiên

Dữ liệu Sơ đồ tri thức bằng lời nói từ Google KELM

Tạo kho ngữ liệu KELM

Có một minh họa khác cho thấy cách tạo văn bản KELM bằng ngôn ngữ tự nhiên, có thể được sử dụng để đào tạo trước.

quảng cáo

Đọc bên dưới

Bài báo TEKGEN cho thấy hình ảnh minh họa này cùng với mô tả:

Đây là cách TEKGEN hoạt động

  • “Trong bước 1, bộ ba KG được căn chỉnh với văn bản Wikipedia với sự trợ giúp của giám sát từ xa.
  • Trong bước 2 và 3, đầu tiên T5 được tinh chỉnh tuần tự trên kho ngữ liệu này, sau đó là một số bước nhỏ trên kho ngữ liệu WebNLG,
  • Trong bước 4, BERT được tinh chỉnh để tạo ra điểm chất lượng ngữ nghĩa cho các câu được tạo liên quan đến bộ ba.
  • Bước 2, 3 và 4 cùng nhau tạo thành TEKGEN.
  • Để tạo kho ngữ liệu KELM, các đồ thị con của thực thể được tạo ở bước 5 bằng cách sử dụng số lượng căn chỉnh của cặp quan hệ từ kho ngữ liệu đào tạo được tạo ở bước 1.
    Sau đó, bộ ba một phần của biểu đồ được chuyển đổi thành văn bản tự nhiên với TEKGEN. “

quảng cáo

Đọc bên dưới

KELM hoạt động để giảm biến dạng và tăng độ chính xác

Bài báo KELM được xuất bản trên blog KI của Google nói rằng KELM có các ứng dụng trong thế giới thực, đặc biệt để trả lời các câu hỏi liên quan rõ ràng đến thu thập thông tin (tìm kiếm) và xử lý ngôn ngữ tự nhiên (các công nghệ như BERT và MUM).

Google thực hiện rất nhiều nghiên cứu, một số nghiên cứu trong số đó có vẻ giống như một cuộc khám phá xem những gì có thể xảy ra nhưng nếu không thì có vẻ như là ngõ cụt. Nghiên cứu không có khả năng đưa nó vào thuật toán của Google thường kết luận bằng cách tuyên bố rằng cần phải nghiên cứu thêm vì công nghệ theo một cách nào đó không đáp ứng được kỳ vọng.

Nhưng đó không phải là trường hợp của nghiên cứu KELM và TEKGEN. Thật vậy, bài báo lạc quan về ứng dụng thực tế của những khám phá. Điều này làm tăng khả năng một ngày nào đó KELM có thể tham gia tìm kiếm bằng hình thức này hay hình thức khác.

Vì vậy, các nhà nghiên cứu đã kết luận bài báo về KELM để giảm biến dạng:

“Điều này có các ứng dụng trong thế giới thực cho các nhiệm vụ đòi hỏi nhiều kiến ​​thức như trả lời các câu hỏi mà việc cung cấp kiến ​​thức thực tế là cần thiết. Ngoài ra, kho ngữ liệu như vậy có thể được sử dụng trong quá trình đào tạo trước các mô hình ngôn ngữ lớn và có khả năng giảm độc tính và cải thiện tính dễ hiểu. “

quảng cáo

Đọc bên dưới

KELM sẽ sớm được sử dụng chứ?

Thông báo gần đây của Google về thuật toán MUM yêu cầu độ chính xác, đó là điều mà kho dữ liệu KELM được tạo ra. Nhưng ứng dụng của KELM không giới hạn ở MUM.

Thực tế là giảm độ lệch và độ chính xác thực tế là mối quan tâm lớn trong xã hội ngày nay, và các nhà nghiên cứu lạc quan về kết quả, làm tăng khả năng chúng sẽ được sử dụng ở một số hình thức trong tìm kiếm trong tương lai.

Báo giá

Bài viết về AI của Google trên KELM
KELM: Tích hợp biểu đồ kiến ​​thức với kho ngữ liệu đào tạo trước mô hình ngôn ngữ

Tài liệu nghiên cứu KELM (PDF)
Tạo ngữ liệu tổng hợp dựa trên biểu đồ tri thức để đào tạo trước mô hình ngôn ngữ dựa trên kiến ​​thức

Kho tài liệu đào tạo TEKGEN trên GitHub

Nguồn:searchenginejournal.com

Trả lời

Chat Zalo