của Nick Biso , Ian Lunsford , Jeff Ryan , Max Rathmann , Michael Massey và Brian Weston, Ian Thompson, Anna D’Angela trên23 THÁNG 4 NĂM 2025 trong Amazon SageMaker , Amazon SageMaker AI , Trí tuệ nhân tạo , Giải pháp khách hàng , AI tạo sinh , AI tạo sinh* , Hướng dẫn kỹ thuật Liên kết cố định Bình luận Chia sẻ
Dữ liệu lưu trữ tại các viện nghiên cứu và phòng thí nghiệm quốc gia là một kho tàng tri thức lịch sử khổng lồ, nhưng phần lớn vẫn không thể truy cập được do các yếu tố như siêu dữ liệu hạn chế và nhãn không nhất quán. Các cơ chế tìm kiếm dựa trên từ khóa truyền thống thường không đủ để định vị các tài liệu có liên quan một cách hiệu quả, đòi hỏi phải tốn nhiều công sức rà soát thủ công để trích xuất được những thông tin giá trị.
Để giải quyết những thách thức này, một Phòng thí nghiệm quốc gia Hoa Kỳ đã triển khai một nền tảng xử lý tài liệu do AI điều khiển, tích hợp nhận dạng thực thể có tên (NER) và các mô hình ngôn ngữ lớn (LLM) trên Amazon SageMaker AI . Giải pháp này cải thiện khả năng tìm kiếm và khả năng truy cập của các hồ sơ lưu trữ bằng cách tự động làm giàu siêu dữ liệu, phân loại tài liệu và tóm tắt. Bằng cách sử dụng Mixtral-8x7B để tóm tắt trừu tượng và tạo tiêu đề, cùng với mô hình NER dựa trên BERT để trích xuất siêu dữ liệu có cấu trúc, hệ thống cải thiện đáng kể khả năng tổ chức và truy xuất các tài liệu được quét.
Được thiết kế với kiến trúc không cần máy chủ, tối ưu hóa chi phí, nền tảng này cung cấp các endpoint (điểm cuối) SageMaker theo nhu cầu, cung cấp khả năng sử dụng tài nguyên hiệu quả trong khi vẫn duy trì khả năng mở rộng. Việc tích hợp các công nghệ xử lý ngôn ngữ tự nhiên (NLP) và LLM hiện đại giúp tăng cường độ chính xác của siêu dữ liệu, cho phép chức năng tìm kiếm chính xác hơn và quản lý tài liệu hợp lý. Phương pháp này hỗ trợ mục tiêu rộng hơn là chuyển đổi số, đảm bảo rằng dữ liệu lưu trữ có thể được sử dụng hiệu quả cho nghiên cứu, phát triển chính sách và lưu giữ kiến thức của tổ chức.
Trong bài viết này, chúng tôi thảo luận về cách bạn có thể xây dựng nền tảng xử lý tài liệu hỗ trợ AI với NER và LLM nguồn mở trên SageMaker.
Tổng quan về giải pháp
Ứng dụng NER & LLM Gen AI là giải pháp xử lý tài liệu được xây dựng trên AWS kết hợp NER và LLM để tự động phân tích tài liệu ở quy mô lớn. Hệ thống giải quyết các thách thức khi xử lý khối lượng lớn dữ liệu văn bản bằng cách sử dụng hai mô hình chính: Mixtral-8x7B để tạo và tóm tắt văn bản và mô hình BERT NER để nhận dạng thực thể.
Sơ đồ sau đây minh họa kiến trúc giải pháp.
Kiến trúc triển khai thiết kế không cần máy chủ với các endpoint (điểm cuối) SageMaker được quản lý động được tạo theo yêu cầu và hủy sau khi sử dụng, tối ưu hóa hiệu suất và hiệu quả về chi phí. Ứng dụng tuân theo cấu trúc mô-đun với các thành phần riêng biệt xử lý các khía cạnh khác nhau của quá trình xử lý tài liệu, bao gồm tóm tắt trích xuất, tóm tắt trừu tượng, tạo tiêu đề và trích xuất tác giả. Các phần mô-đun này có thể được loại bỏ, thay thế, sao chép và tạo mẫu để có khả năng tái sử dụng tối ưu.
Quy trình xử lý bắt đầu khi các tài liệu được phát hiện trong Extracts Bucket, kích hoạt so sánh với các tệp đã xử lý hiện có để ngăn chặn các hoạt động trùng lặp. Sau đó, hệ thống sẽ sắp xếp việc tạo các endpoint (điểm cuối) mô hình cần thiết, xử lý tài liệu theo từng đợt để đạt hiệu quả và tự động dọn dẹp tài nguyên sau khi hoàn tất. Nhiều Amazon Simple Storage Service Bucket chuyên dụng (Amazon S3 Bucket) lưu trữ các loại đầu ra khác nhau.
Nhấp vào đây để mở bảng điều khiển AWS và làm theo.
Thành phần giải pháp
Kiến trúc lưu trữ
Ứng dụng sử dụng kiến trúc lưu trữ Amazon S3 đa bucket được thiết kế để có sự rõ ràng, theo dõi quá trình xử lý hiệu quả và phân tách rõ ràng các giai đoạn xử lý tài liệu. Mỗi bucket phục vụ một mục đích cụ thể trong đường ống, cung cấp quản lý dữ liệu có tổ chức và kiểm soát truy cập đơn giản hóa. Amazon DynamoDB được sử dụng để theo dõi quá trình xử lý của từng tài liệu.
Các loại thùng như sau:
- Trích xuất – Tài liệu nguồn để xử lý
- Tóm tắt trích xuất – Trích xuất câu chính
- Tóm tắt trừu tượng – Tóm tắt do LLM tạo ra
- Tiêu đề được tạo ra – Tiêu đề do LLM tạo ra
- Thông tin tác giả – Trích xuất tên bằng NER
- Trọng số mô hình – Lưu trữ mô hình ML
endpoint (điểm cuối) SageMaker
Các endpoint (điểm cuối) SageMaker trong ứng dụng này đại diện cho một phương pháp tiếp cận động, tối ưu hóa chi phí cho việc triển khai mô hình học máy (ML). Thay vì duy trì các endpoint (điểm cuối) liên tục chạy, hệ thống sẽ tạo chúng theo yêu cầu khi quá trình xử lý tài liệu bắt đầu và tự động dừng chúng khi hoàn tất. Hai endpoint (điểm cuối) chính được quản lý: một cho Mixtral-8x7B LLM, xử lý các tác vụ tạo văn bản bao gồm tóm tắt trừu tượng và tạo tiêu đề, và một cho mô hình NER dựa trên BERT chịu trách nhiệm trích xuất tác giả. Kiến trúc dựa trên endpoint (điểm cuối) này cung cấp khả năng tách rời giữa các quá trình xử lý khác, cho phép mở rộng quy mô, tạo máy ảo (instance) và bảo trì độc lập từng thành phần. Kiến trúc endpoint (điểm cuối) tách rời này cũng mang lại sự linh hoạt, cho phép cập nhật hoặc thay thế các mô hình riêng lẻ mà không ảnh hưởng đến toàn bộ hệ thống.
Vòng đời endpoint (điểm cuối) được sắp xếp thông qua các hàm AWS Lambda chuyên dụng xử lý việc tạo và xóa. Khi quá trình xử lý được kích hoạt, các endpoint (điểm cuối) sẽ tự động được khởi tạo và các tệp mô hình sẽ được tải xuống từ Amazon S3. endpoint (điểm cuối) LLM được cung cấp trên các máy ảo (instance) ml.p4d.24xlarge (GPU) để cung cấp đủ sức mạnh tính toán cho các hoạt động LLM. endpoint (điểm cuối) NER được triển khai trên máy ảo (instance) ml.c5.9xlarge (CPU), đủ để hỗ trợ mô hình ngôn ngữ này. Để tối đa hóa hiệu quả về chi phí, hệ thống xử lý tài liệu theo từng đợt trong khi các endpoint (điểm cuối) đang hoạt động, cho phép xử lý nhiều tài liệu trong một chu kỳ triển khai endpoint (điểm cuối) duy nhất và tối đa hóa việc sử dụng các endpoint (điểm cuối).
Để nhận biết mức sử dụng, hệ thống quản lý endpoint (điểm cuối) bao gồm các cơ chế thông báo thông qua Amazon Simple Notification Service (Amazon SNS). Người dùng nhận được thông báo khi endpoint (điểm cuối) bị hủy, cung cấp khả năng hiển thị rằng một phiên bản lớn đã bị hủy và không ở chế độ chờ. Toàn bộ vòng đời endpoint (điểm cuối) được tích hợp vào quy trình làm việc rộng hơn thông qua AWS Step Functions , cung cấp xử lý phối hợp trên tất cả các thành phần của ứng dụng.
Quy trình làm việc của Step Functions
Hình sau minh họa quy trình làm việc của Step Functions.
Ứng dụng triển khai một đường ống xử lý thông qua AWS Step Functions, sắp xếp một loạt các hàm Lambda xử lý các khía cạnh riêng biệt của phân tích tài liệu. Nhiều tài liệu được xử lý theo lô trong khi các endpoint (điểm cuối) đang hoạt động, tối đa hóa việc sử dụng tài nguyên. Khi quá trình xử lý hoàn tất, quy trình làm việc tự động kích hoạt xóa endpoint (điểm cuối), ngăn chặn việc tiêu thụ tài nguyên không cần thiết.
Các hàm Lambda có tính mô-đun cao được thiết kế để linh hoạt và có khả năng mở rộng, cho phép chúng thích ứng với nhiều trường hợp sử dụng khác nhau ngoài các triển khai mặc định của chúng. Ví dụ, tóm tắt trừu tượng có thể được sử dụng lại để thực hiện QnA hoặc các hình thức tạo khác và mô hình NER có thể được sử dụng để nhận dạng các loại thực thể khác như tổ chức hoặc địa điểm.
Luồng logic
Quy trình xử lý tài liệu sắp xếp nhiều giai đoạn phân tích hoạt động theo cả mô hình song song và tuần tự. Các chức năng bước điều phối chuyển động của tài liệu thông qua các quy trình tóm tắt trích xuất, tóm tắt trừu tượng, tạo tiêu đề và trích xuất tác giả. Mỗi giai đoạn được quản lý như một bước riêng biệt, với các thông số kỹ thuật đầu vào và đầu ra rõ ràng, như minh họa trong hình sau.
Trong các phần sau, chúng ta sẽ xem xét từng bước của luồng logic chi tiết hơn.
Tóm tắt trích xuất:
Quá trình tóm tắt trích xuất sử dụng thuật toán TextRank, được hỗ trợ bởi các thư viện sumy và NLTK, để xác định và trích xuất các câu quan trọng nhất từ các tài liệu nguồn. Phương pháp này coi các câu như các nút trong cấu trúc đồ thị, trong đó tầm quan trọng của mỗi câu được xác định bởi các mối quan hệ và kết nối của nó với các câu khác. Thuật toán phân tích các mối liên kết này để xác định các câu chính thể hiện tốt nhất nội dung cốt lõi của tài liệu, hoạt động tương tự như cách một biên tập viên sẽ chọn các đoạn quan trọng nhất từ một văn bản. Phương pháp này giữ nguyên văn bản gốc trong khi giảm tài liệu xuống các thành phần thiết yếu nhất của nó.
Tạo tiêu đề:
Quy trình tạo tiêu đề sử dụng mô hình Mixtral-8x7B nhưng tập trung vào việc tạo tiêu đề ngắn gọn, mô tả, nắm bắt chủ đề chính của tài liệu. Quy trình này sử dụng tóm tắt trích xuất làm đầu vào để cung cấp hiệu quả và tập trung vào nội dung chính. LLM được nhắc phân tích các chủ đề và chủ đề chính có trong bản tóm tắt và tạo tiêu đề phù hợp, thể hiện hiệu quả nội dung của tài liệu. Phương pháp này đảm bảo rằng tiêu đề được tạo ra vừa có liên quan vừa mang tính thông tin, giúp người dùng hiểu nhanh về chủ đề của tài liệu mà không cần phải đọc toàn bộ văn bản.
Tóm tắt trừu tượng:
Tóm tắt trừu tượng cũng sử dụng Mixtral-8x7B LLM để tạo ra văn bản hoàn toàn mới nắm bắt được bản chất của tài liệu. Không giống như tóm tắt trích xuất, phương pháp này không chỉ chọn các câu hiện có mà còn tạo ra nội dung mới diễn giải và tái cấu trúc thông tin. Quy trình này lấy tóm tắt trích xuất làm đầu vào, giúp giảm thời gian tính toán và chi phí bằng cách tập trung vào nội dung có liên quan nhất. Phương pháp này tạo ra các bản tóm tắt đọc tự nhiên hơn và có thể cô đọng thông tin phức tạp thành văn bản ngắn gọn, dễ đọc.
Trích xuất tác giả:
Trích xuất tác giả sử dụng mô hình BERT NER để xác định và phân loại tên tác giả trong tài liệu. Quy trình này tập trung cụ thể vào 1.500 ký tự đầu tiên của mỗi tài liệu, nơi thông tin tác giả thường xuất hiện. Hệ thống tuân theo quy trình ba giai đoạn: đầu tiên, nó phát hiện các mã thông báo tên tiềm năng với điểm tin cậy; thứ hai, nó lắp ráp các mã thông báo liên quan thành tên hoàn chỉnh; và cuối cùng, nó xác thực các tên đã lắp ráp để cung cấp định dạng phù hợp và loại bỏ các kết quả dương tính giả. Mô hình có thể nhận dạng nhiều loại thực thể khác nhau (PER, ORG, LOC, MISC) nhưng được điều chỉnh cụ thể để xác định tên người trong bối cảnh tác giả tài liệu.
Chi phí và hiệu suất
Giải pháp đạt được thông lượng đáng kể bằng cách xử lý 100.000 tài liệu trong khung thời gian 12 giờ. Các quyết định kiến trúc chính thúc đẩy cả hiệu suất và tối ưu hóa chi phí. Bằng cách triển khai tóm tắt trích xuất như một bước ban đầu, hệ thống giảm 75-90% mã thông báo đầu vào (tùy thuộc vào kích thước của tài liệu), giảm đáng kể khối lượng công việc cho quá trình xử lý LLM hạ lưu. Việc triển khai mô hình NER chuyên dụng để trích xuất tác giả mang lại mức giảm thêm 33% trong các cuộc gọi LLM bằng cách bỏ qua nhu cầu về mô hình ngôn ngữ tốn nhiều hơn về tài nguyên. Những tối ưu hóa chiến lược này mang lại lợi ích kép: vừa tăng tốc độ xử lý, vừa giảm chi phí vận hành – thiết lập nền tảng như một giải pháp hiệu quả và tiết kiệm chi phí cho nhu cầu xử lý tài liệu quy mô doanh nghiệp. Để ước tính chi phí xử lý 100.000 tài liệu, hãy nhân 12 với chi phí mỗi giờ của máy ảo (instance) ml.p4d.24xlarge trong vùng AWS của bạn. Điều quan trọng cần lưu ý là chi phí máy ảo (instance) thay đổi tùy theo khu vực và có thể thay đổi theo thời gian, do đó, bạn nên tham khảo giá hiện tại để có dự báo chi phí chính xác.
Triển khai giải pháp
Để triển khai, hãy làm theo hướng dẫn trong kho lưu trữ GitHub.
Dọn dẹp
Hướng dẫn dọn dẹp có thể được tìm thấy trong phần này.
Phần kết luận
Ứng dụng NER & LLM Gen AI đại diện cho sự tiến bộ của tổ chức trong việc xử lý tài liệu tự động, sử dụng các mô hình ngôn ngữ mạnh mẽ trong kiến trúc không máy chủ hiệu quả. Thông qua việc triển khai cả tóm tắt trích xuất và trừu tượng, nhận dạng thực thể được đặt tên và tạo tiêu đề, hệ thống chứng minh ứng dụng thực tế của các công nghệ AI hiện đại trong việc xử lý các tác vụ phân tích tài liệu phức tạp. Thiết kế mô-đun và kiến trúc linh hoạt của ứng dụng cho phép các tổ chức thích ứng và mở rộng khả năng của mình để đáp ứng các nhu cầu cụ thể của họ, trong khi việc quản lý cẩn thận các tài nguyên AWS thông qua việc tạo và xóa endpoint (điểm cuối) động vẫn duy trì hiệu quả về mặt chi phí. Khi các tổ chức tiếp tục phải đối mặt với nhu cầu ngày càng tăng về xử lý tài liệu hiệu quả, giải pháp này cung cấp một khuôn khổ có thể mở rộng, bảo trì và tùy chỉnh để tự động hóa và hợp lý hóa các quy trình công việc này.