Từ khóa cho đến cuộc hội thoại: Tái định hình lại hành trình khám phá tài liệu với Amazon Bedrock

Các tổ chức lưu trữ kho tài liệu khổng lồ gồm các báo cáo, chiến lược, đánh giá và các nội dung khác thường đối mặt với thách thức trong việc giúp người dùng điều hướng và truy cập nguồn thông tin phong phú này một cách hiệu quả. Bài đăng blog này khám phá cách các kỹ thuật trí tuệ nhân tạo (AI) tiên tiến, được cung cấp bởi Amazon Web Services (AWS), có thể biến đổi cách người dùng tương tác với các cơ sở tri thức (knowledge bases). Cụ thể, chúng tôi đề xuất tích hợp mô hình ngôn ngữ lớn (LLM) và khuôn khổ Tạo sinh Tăng cường truy xuất (Retrieval Augmented Generation – RAG) để cách mạng hóa việc tìm kiếm và khám phá thông tin. Bài đăng này cũng giải thích những hạn chế của phương pháp tìm kiếm truyền thống, tiềm năng của việc kết hợp LLM và RAG, cũng như tầm nhìn của chúng tôi về một nền tảng tìm kiếm thế hệ mới.

Tại AWS, chúng tôi tin rằng tương lai của việc khám phá tri thức không nằm ở các câu truy vấn—mà nằm ở các cuộc hội thoại. Bằng cách kết hợp các mô hình ngôn ngữ lớn (LLM) và khuôn khổ Tạo sinh Tăng cường truy xuất (RAG) trên nền tảng Amazon Bedrock, các tổ chức có thể biến đổi những kho tài liệu tĩnh thành các giao diện khám phá thông tin năng động và trực quan.

Hạn chế của các công cụ tìm kiếm truyền thống

Mặc dù tìm kiếm dựa trên từ khóa đã là một công cụ đáng tin cậy, nhưng nó có những hạn chế nhất định. Người dùng phải dựa vào các cụm từ và thuật ngữ cụ thể để tìm các tài liệu phù hợp, điều này trở nên thách thức khi tìm kiếm thông tin phức tạp đòi hỏi sự hiểu biết sâu sắc về ngôn ngữ. Các công cụ tìm kiếm truyền thống chủ yếu khớp với các từ khóa mà không xem xét ngữ cảnh hoặc ý nghĩa, thường dẫn đến tình trạng quá tải thông tin hoặc khó khăn trong việc tìm kiếm các tài liệu có độ liên quan cao.

Đối với các tổ chức có cơ sở tri thức rộng lớn, những thách thức này càng được khuếch đại. Mặc dù đã có nỗ lực phân loại tài nguyên, người dùng thường gặp khó khăn trong việc tìm câu trả lời cho các câu hỏi thực tế bị chôn vùi trong nội dung.

LLM + RAG = Khám phá thông tin có nhận thức về ngữ cảnh

Mô hình ngôn ngữ lớn (Large Language Models – LLMs) là các thuật toán AI được huấn luyện trên khối lượng dữ liệu văn bản khổng lồ, cho phép chúng tạo ra ngôn ngữ và có khả năng suy luận giống như con người. Khi được hỏi, LLM cung cấp các câu trả lời theo ngữ cảnh thay vì chỉ đơn thuần đối chiếu từ khóa.

Tạo sinh Tăng cường truy xuất (Retrieval Augmented Generation – RAG) nâng cao khả năng này bằng cách kết hợp LLM với các kỹ thuật truy xuất thông tin (information retrieval) mạnh mẽ. Hệ thống RAG trước tiên sẽ tìm kiếm trong các nguồn tri thức có sẵn để thu thập các đoạn văn, dữ kiện hoặc tài liệu liên quan. Sau đó, LLM sẽ tích hợp thông tin bên ngoài này để tạo ra các câu trả lời chất lượng cao và phù hợp với ngữ cảnh.

Một tổ chức phi lợi nhuận về sức khỏe toàn cầu đã áp dụng phương pháp này và ghi nhận:

  • Nhanh hơn 60% trong việc khám phá dữ liệu đánh giá chương trình.
  • Giảm 40% các truy vấn “không tìm thấy kết quả”.
  • Lần đầu tiên có được các insight xuyên báo cáo (ví dụ: liên kết kết quả giáo dục với các sáng kiến về dinh dưỡng).

Tiềm năng cách mạng cho việc tìm kiếm tài liệu

Bằng cách kết hợp thuật toán LLM và RAG với nội dung được lập chỉ mục, các tổ chức có thể kích hoạt trải nghiệm tìm kiếm thông minh thực sự. Ví dụ, thay vì tìm kiếm “chương trình dinh dưỡng châu Phi”, người dùng có thể hỏi, “Dinh dưỡng trẻ em ở khu vực hạ Sahara châu Phi đang được cải thiện như thế nào?” Hệ thống sẽ tự động xác định và cung cấp các báo cáo, đánh giá và trích đoạn phù hợp nhất.

Lợi ích bổ sung:

  • Hỏi đáp theo kiểu hội thoại: Người dùng có thể truy vấn tài nguyên bằng các câu hỏi ngôn ngữ tự nhiên thay vì dựa vào từ khóa.
  • Kết nối thông tin qua các kho dữ liệu riêng lẻ: LLMs có thể tổng hợp thông tin từ nhiều báo cáo và cơ sở dữ liệu, cung cấp các góc nhìn tích hợp.
  • Khớp độ liên quan đa chiều: Độ liên quan được xác định bởi ngữ nghĩa, ý định và tính cụ thể, không chỉ dựa trên khớp từ khóa.
  • Đề xuất cá nhân hóa: Các mẫu sử dụng thông báo sở thích riêng của người dùng, cho phép đưa ra các gợi ý và phản hồi phù hợp.
  • Theo dõi tác động: LLMs có thể nhanh chóng phân tích tài liệu để trích xuất các số liệu thống kê chính, kết quả và tác động, giúp nắm bắt nhanh hiệu quả của chương trình.

Tầm nhìn của chúng tôi về nền tảng tìm kiếm thế hệ tiếp theo

Chúng tôi hình dung một nền tảng tìm kiếm thế hệ tiếp theo sẽ là nguồn tài nguyên hàng đầu để dễ dàng truy xuất các hiểu biết tổ chức. Hệ thống này kết hợp giao diện trò chuyện thân thiện với người dùng cùng với khả năng khớp độ liên quan, đề xuất và phân tích được hỗ trợ bởi AI.

Cả những người dùng thông thường và các chuyên gia đều sẽ được hưởng lợi từ việc truy cập liền mạch vào kiến thức tổ chức.

Việc dân chủ hóa quyền truy cập vào những bài học và kết quả đánh giá mới nhất có thể khuếch đại tác động trên các cộng đồng. Ngoài ra, việc kết nối các hiểu biết từ các cơ sở dữ liệu và báo cáo khác nhau có thể phát hiện ra các mối quan hệ chưa từng thấy, từ đó hỗ trợ việc khám phá các giải pháp mới cho những thách thức phức tạp. Các tổ chức có cơ hội độc đáo để tiên phong trong đổi mới các chức năng tìm kiếm khu vực công được hỗ trợ bởi AI.

“Những ý tưởng tốt nhất trong tổ chức của bạn không nên là những thứ khó tìm nhất.” Hãy xây dựng một trải nghiệm tìm kiếm xứng đáng với sứ mệnh của bạn.

Kết luận

Việc tích hợp các mô hình ngôn ngữ lớn (LLMs) với khung RAG có thể biến các kho thông tin tĩnh thành những trợ lý thông minh cho việc tìm kiếm và khám phá tự nhiên. Việc hiện đại hóa các nền tảng tìm kiếm với những công nghệ này hứa hẹn mang lại giá trị to lớn, cho phép người dùng trên toàn thế giới dễ dàng truy cập vào các tài sản tri thức phong phú. Nỗ lực này cũng mở ra những hướng nghiên cứu thú vị để áp dụng AI một cách có trách nhiệm trong các ứng dụng tìm kiếm khu vực công.