Amazon SageMaker JumpStart đơn giản hoá việc sử dụng các giải pháp & mô hình Máy học dựng sẵn

Hôm nay, tôi vô cùng vui mừng thông báo về việc ra mắt Amazon SageMaker JumpStart, một tính năng trong Amazon SageMaker, giúp tăng tốc quy trình dự án máy học của bạn bằng việc cho phép bạn truy cập vào một bộ sưu tập các mô hình máy học phổ biến (còn được gọi là “model zoos”), và vào bộ các giải pháp hoàn chỉnh để giải quyết các bài toán phổ dụng, tất cả chỉ với một cú nhấp chuột.

Trong những năm gần đây, máy học (machine learning) đã tự khẳng định giá trị của mình trong việc cải tiến và tự động hoá các quy trình nghiệp vụ. Thật vậy, các mô hình được đào tạo dựa trên dữ liệu lịch sử có thể dự đoán chính xác kết quả trên nhiều ngành khác nhau: từ dịch vụ tài chính, bán lẻ, sản xuất, viễn thông, đến khoa học đời sống, v.v… Tuy nhiên, để làm việc với các mô hình này đòi hỏi các kỹ năng và kinh nghiệm mà chỉ một nhóm nhỏ các nhà khoa học và nhà phát triển mới có, như: chuẩn bị tập dữ liệu, chọn thuật toán, đào tạo mô hình, tối ưu hóa độ chính xác của nó, triển khai trên môi trường production hay theo dõi hiệu suất của mô hình theo thời gian.

Để đơn giản hóa quá trình xây dựng mô hình này, cộng đồng máy học đã tạo ra các model zoos, tức là các bộ sưu tập mô hình được xây dựng bằng các thư viện mã nguồn mở phổ biến, và thường các mô hình này đã được đào tạo trước trên các bộ dữ liệu tham chiếu. Ví dụ: TensorFlow HubPyTorch Hub cung cấp cho các nhà phát triển một danh sách dài các mô hình đã sẵn sàng để được tải xuống và tích hợp vào các ứng dụng dành cho thị giác máy tính, xử lý ngôn ngữ tự nhiên, v.v…

Tuy nhiên, tải một mô hình chỉ là một phần của công việc. Sau đó, các nhà phát triển cần triển khai nó để đánh giá và thử nghiệm, bằng cách sử dụng nhiều công cụ khác nhau, chẳng hạn như các bộ TensorFlow ServingTorchServe, hoặc mã nguồn riêng của họ. Một khi mô hình bước vào giai đoạn chạy, các nhà phát triển cũng cần phải tìm ra cách định dạng dữ liệu hợp lý, một việc khá khó nhằn. Tôi chắc là mình không phải là người duy nhất thường xuyên khổ sở ở bước này!

Tất nhiên, một ứng dụng máy học đầy đủ thường có rất nhiều phần lắp nối với nhau. Dữ liệu cần được tiền xử lý, được làm giàu với các dữ liệu bổ sung từ các chương trình phụ trợ, và được đưa vào mô hình. Các dự đoán của mô hình thì thường được hậu xử lý và lưu trữ để phân tích, biểu diễn sau. Tuy là rất hữu ích, nhưng model zoos chỉ giúp được cho phần tạo mô hình. Các nhà phát triển vẫn còn rất nhiều việc phải làm để đưa ra một giải pháp máy học hoàn chỉnh.

Vì tất cả những việc này, các chuyên gia máy học hiện tại đang bị ngập trong đống lớn những dự án tồn đọng, chờ được bắt đầu. Trong khi đó, những học viên ít kinh nghiệm hơn lại gặp khó khăn khi bắt đầu làm việc với máy học. Những rào cản này vô cùng khó chịu và khách hàng của AWS đã yêu cầu chúng tôi giúp loại bỏ chúng.

Giới thiệu Amazon SageMaker JumpStart

Amazon SageMaker JumpStart được tích hợp trong Amazon SageMaker Studio – một môi trường phát triển tích hợp (IDE) của AWS dành cho máy học, giúp bạn khám phá các mô hình, giải pháp, v.v… một cách trực quan. Ở đợt ra mắt này, SageMaker JumpStart bao gồm:

  • Hơn 15 giải pháp hoàn chỉnh (end-to-end) cho các trường hợp sử dụng máy học phổ biến như phát hiện gian lận, dự đoán bảo trì hệ thống, v.v…
  • Hơn 150 mô hình từ  TensorFlow HubPyTorch Hub, dành cho thị giác máy tính (phân loại hình ảnh, phát hiện đối tượng) và xử lý ngôn ngữ tự nhiên (phân loại câu, trả lời câu hỏi).
  • Jupyter notebook mẫu cho các thuật toán tích hợp có sẵn (built-in) trong Amazon SageMaker.

SageMaker JumpStart cũng cung cấp các notebook, blog và video hướng dẫn cụ thể để giúp bạn tìm hiểu máy học tốt hơn, loại bỏ nhiều rào cản trong quá trình trau dồi của các học viên. Các nội dung hỗ trợ này có thể dễ dàng được truy cập trong Amazon SageMaker Studio, cho phép bạn bắt đầu với máy học nhanh hơn.

Bạn có thể triển khai các giải pháp và mô hình chỉ với một cú nhấp chuột. Tất cả cơ sở hạ tầng được quản lý hoàn toàn bởi AWS, vì vậy tất cả những gì bạn phải làm là thưởng thức một tách trà hoặc cà phê ngon trong khi hệ thống đang được triển khai. Sau vài phút, bạn có thể bắt đầu kiểm thử hệ thống, nhờ vào notebook và mã nguồn cách gọi hàm dự đoán mẫu, có sẵn trong Amazon SageMaker Studio. Tất nhiên, bạn có thể dễ dàng sửa đổi chúng để sử dụng dữ liệu của riêng mình.

SageMaker JumpStart giúp cho cả các chuyên gia có kinh nghiệm và cả người mới bắt đầu nhanh chóng triển khai và đánh giá các mô hình và giải pháp, tiết kiệm hàng nhiều ngày hoặc thậm chí hàng nhiều tuần làm việc. Bằng cách rút ngắn đáng kể quá trình từ thử nghiệm đến production, SageMaker JumpStart tăng tốc việc đổi mới quy trình/công việc dựa trên máy học, đặc biệt là cho các tổ chức và các nhóm mới bắt đầu hành trình máy học của mình, và do đó chưa tích lũy được nhiều kỹ năng và kinh nghiệm.

Giờ, tôi sẽ chỉ cho bạn cách SageMaker JumpStart hoạt động.

Triển khai Giải pháp với Amazon SageMaker JumpStart

Tôi sẽ mở SageMaker Studio, chọn biểu tượng “Jumpstart” ở bên trái. Thao tác này sẽ mở ra một tab mới, hiển thị tất cả nội dung sẵn có (như các giải pháp, mô hình, v.v…)

Giả sử tôi muốn sử dụng thị giác máy tính để phát hiện lỗi trong một quy trình chế tạo sản phẩm ở nhà máy. Máy học có thể giúp giải quyết vấn đề này không?

Khi duyệt qua danh sách các giải pháp có sẵn, tôi tìm thấy một giải pháp dùng để phát hiện lỗi sản phẩm.

Anh chup man hinh SageMaker Jumpstart Solutions

Khi mở giải pháp này ra, ta có thể tìm hiểu thêm về loại vấn đề mà nó giải quyết, tập dữ liệu mẫu được sử dụng trong bản demo, các dịch vụ AWS liên quan, v.v…

Anh chup man hinh Product Defect Detection in Images

Ta chỉ cần một cú nhấp chuột để triển khai giải pháp này. Về cơ chế bên dưới, AWS CloudFormation sẽ sử dụng một bản mẫu (template) đã được dựng sẵn để tạo tất cả các tài nguyên AWS cần có.

Chỉ một vài phút sau, giải pháp này sẽ được triển khai, và ta có thể mở notebook tương ứng của nó.

Anh chup man hinh Deployed Product Defect Detection in Images

Với notebook được mở ra trong SageMaker Studio, tôi sẽ chạy bản demo và tìm hiểu cách máy học có thể giúp phát hiện các lỗi sản phẩm trong giải pháp này. Notebook này cũng có thể là điểm khởi đầu tốt cho dự án riêng của tôi, giúp tôi dễ dàng tuỳ chỉnh các thử nghiệm khác với tập dữ liệu riêng của mình (vui lòng nhấp vào hình bên dưới để phóng to).

Anh chup man hinh SageMaker Defect Detection Demo

Khi không dùng giải pháp này nữa, ta có thể xóa tất cả các tài nguyên nó sử dụng, cũng chỉ bằng một cú nhấp chuột, để cho AWS CloudFormation tự dọn dẹp mà không phải lo lắng về việc bỏ quên không tắt/xoá hết các tài nguyên AWS có liên quan.

Anh chup man hinh Resource Deletion

Giờ, cùng chuyển sang xem các mô hình máy học được cung cấp trong SageMaker Jumpstart.

Triển khai Mô hình với Amazon SageMaker JumpStart

SageMaker JumpStart chứa một bộ sưu tập lớn các mô hình có sẵn trong TensorFlow Hub và PyTorch Hub. Các mô hình này được đào tạo trước với các bộ dữ liệu tham chiếu, và bạn có thể trực tiếp sử dụng chúng để xử lý một loạt các tác vụ xử lý ngôn ngữ tự nhiên và thị giác máy tính. Bạn cũng có thể tinh chỉnh chúng trên bộ dữ liệu của riêng mình để có độ chính xác cao hơn, kỹ thuật này được gọi là học chuyển giao (transfer learning).

Anh chup man hinh Text models

Ở đây, tôi chọn một phiên bản của mô hình BERT, được đào tạo để tự động trả lời các câu hỏi. Ta có thể triển khai thẳng mô hình này, hoặc tinh chỉnh nó. Để demo ngắn gọn, ở đây tôi sẽ triển khai nó luôn: chỉ cần nhấp vào nút “Deploy”.

Anh chup man hinh BERT Large Cased

Một vài phút sau, mô hình đã được triển khai lên một endpoint, có hỗ trợ yêu cầu/lời gọi trong thời gian thực, với cơ sở hạ tầng được quản lý hoàn toàn bởi AWS.

Anh chup man hinh Model endpoint

Cùng thử chạy mô này này nào! Khi ta nhấp vào “Open Notebook”, SageMaker sẽ khởi chạy một Jupyter notebook mẫu, tôi sẽ chạy nó ngay để kiểm tra mô hình mới được triển khai mà không cần phải viết hay đổi một dòng mã nào cả (hãy nhấp vào hình bên dưới để phóng to). Ở đây, tôi đặt hai câu hỏi: “Nam California thường được viết tắt là gì?” (“What is Southern California often abbreviated as?”) và “Ai là đạo diễn phim Spectre?” (“Who directed Spectre?”), cùng với mỗi câu hỏi là một đoạn văn cảnh ngắn có chứa câu trả lời. Trong cả hai trường hợp, mô hình BERT đã đưa ra câu trả lời chính xác là “SoCal” và “Sam Mendes”.

Anh chup man hinh Query endpoint

Khi kiểm tra xong, ta có thể xóa endpoint này bằng một cú nhấp chuột và không trả tiền cho việc chạy nó nữa.

Bắt đầu sử dụng

Như bạn thấy đấy, ta có thể triển khai các mô hình và giải pháp với SageMaker JumpStart cực kỳ dễ dàng và chỉ trong vài phút, ngay cả khi bạn có ít hoặc không có kỹ năng về máy học.

Bạn có thể bắt đầu sử dụng tính năng này ngay hôm nay ở tất cả các khu vực AWS có SageMaker Studio mà không phải trả thêm phí.

Hãy thử nó và nói cho chúng tôi nghe về cảm nhận của bạn.

Như mọi khi, chúng tôi rất mong nhận được phản hồi của bạn, thông qua các kênh hỗ trợ AWS thông thường bạn đang có liên hệ, hoặc trên Diễn đàn AWS dành cho SageMaker.

– Julien Đặc biệt cảm ơn đồng nghiệp của tôi, anh Jared Heywood, vì sự giúp đỡ quý báu của anh ấy trong thời gian đầu thử nghiệm sản phẩm.


Bài được dịch từ bài viết trên AWS Blogs, bạn có thể xem bài viết gốc tại đây.

Leave a comment