Tác giả: Pranav Murthy, Gaurav Singh, Surya Kari, Marc Ritter, Scott Anderson, and Steven McDowall
Ngày phát hành: 09 JAN 2026
Chuyên mục: Amazon Machine Learning, Amazon SageMaker AI, Artificial Intelligence, Customer Solutions
Bài viết này được đồng tác giả bởi TrueLook và AWS.
TrueLook là một công ty camera xây dựng và thông tin chuyên sâu về công trường, cung cấp khả năng hiển thị theo thời gian thực cho các dự án xây dựng. Nền tảng của họ kết hợp camera tua nhanh thời gian độ phân giải cao, truyền phát video trực tiếp và thông tin chuyên sâu được hỗ trợ bởi AI để giúp các nhóm giám sát tiến độ, cải thiện trách nhiệm giải trình và giảm thiểu rủi ro trong toàn bộ vòng đời dự án.
TrueLook đã sử dụng Amazon SageMaker AI để xây dựng và triển khai một hệ thống giám sát an toàn xây dựng được hỗ trợ bởi AI, tự động phát hiện thiết bị bảo hộ cá nhân (PPE) bằng cách kết hợp kinh nghiệm của TrueLook trong các hệ thống camera công trường với cơ sở hạ tầng học máy (ML) của AWS. TrueLook đã xây dựng một giải pháp xác định các vấn đề an toàn thông qua phân tích hình ảnh tự động để nhận diện PPE như mũ bảo hộ, áo phản quang, mũ bảo hiểm an toàn, găng tay, kính bảo hộ, và nhiều hơn nữa. Thông qua hệ thống này, các nhóm dự án có thể phát hiện các điều kiện làm việc không an toàn, hành vi không tuân thủ và tiếp xúc với các khu vực rủi ro cao nhanh hơn, từ đó tăng cường quản lý an toàn tổng thể. AI đang giúp TrueLook chuyển từ kiểm tra thủ công sang một phương pháp thông minh hơn, có khả năng mở rộng hơn để đảm bảo an toàn công trường.
Bài viết này cung cấp một cái nhìn tổng quan kiến trúc chi tiết về cách TrueLook xây dựng hệ thống giám sát an toàn được hỗ trợ bởi AI của mình bằng cách sử dụng SageMaker AI, làm nổi bật các quyết định kỹ thuật chính, các mẫu thiết kế pipeline và các phương pháp hay nhất về MLOps. Bạn sẽ có được những thông tin chuyên sâu có giá trị về việc thiết kế các giải pháp thị giác máy tính có khả năng mở rộng trên AWS, đặc biệt là về quy trình làm việc huấn luyện mô hình, tạo pipeline tự động và chiến lược triển khai sản xuất để suy luận theo thời gian thực.
An toàn xây dựng: Thách thức quan trọng
Các công trường xây dựng là một trong những môi trường làm việc nguy hiểm nhất, với người lao động phải đối mặt với rủi ro từ máy móc hạng nặng, khu vực làm việc trên cao, nguy cơ điện giật và tiếp xúc hóa chất. Cục Quản lý An toàn và Sức khỏe Nghề nghiệp (OSHA) báo cáo rằng ngành xây dựng chiếm một trong năm trường hợp tử vong của người lao động tại Hoa Kỳ mỗi năm, mặc dù chỉ chiếm một phần nhỏ hơn đáng kể trong tổng lực lượng lao động. Ngoài chi phí về con người, các sự cố an toàn còn tạo ra gánh nặng tài chính đáng kể thông qua các yêu cầu bồi thường của người lao động, chậm trễ dự án, tiền phạt theo quy định và kiện tụng tiềm ẩn.
Giám sát an toàn truyền thống phụ thuộc nhiều vào giám sát thủ công với các nhà quản lý an toàn thực hiện kiểm tra công trường định kỳ, xem lại cảnh quay sau khi sự cố xảy ra hoặc phụ thuộc vào người lao động tự báo cáo vi phạm. Tuy nhiên, phương pháp này phải đối mặt với những hạn chế cơ bản:
- Hạn chế về quy mô – Các dự án xây dựng lớn với nhiều công trường và hàng trăm người lao động không thể được giám sát hiệu quả chỉ bởi con người.
- Phạm vi không nhất quán – Giám sát thủ công dễ bị mệt mỏi, mất tập trung và lỗi của con người, dẫn đến bỏ sót các vi phạm trong những thời điểm quan trọng.
- Phản ứng thụ động – Các phương pháp truyền thống thường chỉ xác định các vấn đề an toàn sau khi sự cố đã xảy ra, hạn chế cơ hội phòng ngừa.
- Tốn nhiều tài nguyên – Triển khai đủ số lượng người giám sát trên tất cả các công trường và ca làm việc đòi hỏi đầu tư nhân sự đáng kể.
- Khoảng trống tuân thủ – Việc ghi chép không nhất quán gây khó khăn trong việc duy trì các dấu vết kiểm toán toàn diện theo yêu cầu của OSHA và các cơ quan quản lý khác.
Những thách thức này tạo ra nhu cầu về các giải pháp giám sát an toàn tự động, có khả năng mở rộng, có thể cung cấp sự giám sát nhất quán, theo thời gian thực trên các hoạt động xây dựng.
Tổng quan giải pháp
Giải pháp phát hiện và giám sát PPE được hỗ trợ bởi AI của TrueLook sử dụng cơ sở hạ tầng AWS và ML để phát hiện các vấn đề tuân thủ an toàn trong các khu vực xây dựng thông qua hình ảnh công trường. TrueLook lấy hình ảnh để sử dụng trong việc phát hiện PPE từ các camera tại chỗ. Để xây dựng, huấn luyện và triển khai các mô hình này, TrueLook sử dụng SageMaker AI, cung cấp cơ sở hạ tầng được quản lý cho toàn bộ quy trình làm việc ML. Bằng cách chuyển giao công việc nặng nhọc không tạo ra sự khác biệt của việc thiết lập và điều phối cơ sở hạ tầng cho SageMaker AI, nhóm của TrueLook có thể tập trung vào việc cải thiện độ chính xác và độ tin cậy của mô hình, giúp đảm bảo rằng giải pháp mở rộng hiệu quả trên các công trường của khách hàng. Sơ đồ kiến trúc sau đây minh họa quy trình làm việc đầu cuối, làm nổi bật cách nhiều dịch vụ AWS được tích hợp để cung cấp một giải pháp AI liền mạch, có khả năng mở rộng.

Tập dữ liệu hình ảnh đã được gắn nhãn của TrueLook di chuyển qua một pipeline huấn luyện trong ba giai đoạn chính: tiền xử lý (SageMaker Processing Job), huấn luyện (SageMaker Training Job) và quản lý phiên bản với khả năng quan sát (SageMaker Model Registry). Các SageMaker Processing job xử lý việc làm sạch và chuẩn bị hình ảnh ở quy mô lớn, chạy trên một hoặc nhiều node tùy thuộc vào kích thước tập dữ liệu. Các SageMaker Training job thực hiện việc huấn luyện mô hình bằng cách sử dụng các container PyTorch tích hợp sẵn và GPU NVIDIA. Với cấu hình runtime cơ bản với SageMaker PyTorch estimators, cùng một script có thể chạy trên thiết lập đa GPU trên một node hoặc mở rộng ra huấn luyện phân tán đa node, để TrueLook có thể cân bằng tốc độ và độ chính xác khi cần. Các mô hình đã huấn luyện sau đó được quản lý phiên bản và lưu trữ trong SageMaker Model Registry, cung cấp một trung tâm để theo dõi, quản lý và triển khai.
Như được chỉ ra trong sơ đồ kiến trúc trên, quy trình làm việc này được điều phối đầu cuối bằng SageMaker Pipelines, kết nối các bước tiền xử lý, huấn luyện và đăng ký thành một quy trình tự động, lặp lại. Bằng cách sử dụng tích hợp MLflow được quản lý và chức năng TensorBoard do SageMaker cung cấp, TrueLook có thể theo dõi thử nghiệm, so sánh hiệu suất và cung cấp khả năng lặp lại ở quy mô lớn, giúp dễ dàng tinh chỉnh mô hình và cung cấp khả năng phát hiện PPE chính xác trên các công trường của khách hàng trên toàn quốc.
Sau khi các mô hình được huấn luyện, đánh giá và phê duyệt, việc triển khai được xử lý thông qua dịch vụ lưu trữ được quản lý hoàn toàn có sẵn thông qua SageMaker AI. Các endpoint thời gian thực cung cấp suy luận độ trễ thấp ở quy mô lớn, hỗ trợ phát hiện PPE trực tiếp trên các luồng video trực tiếp hoặc ảnh chụp nhanh. Khi phát hiện vi phạm, hệ thống sẽ kích hoạt các cảnh báo hạ nguồn thông báo cho khách hàng theo thời gian thực. Để giữ cho hệ thống liên tục cải thiện, TrueLook mở rộng pipeline này với một vòng lặp học tập chủ động. Bằng cách đưa các lô hình ảnh mới vào Amazon Simple Storage Service (Amazon S3), quy trình làm việc sẽ tự động kích hoạt tinh chỉnh hoặc huấn luyện lại thông qua quy trình tích hợp liên tục và phân phối liên tục (CI/CD). Trước khi được quảng bá lên sản xuất, mỗi mô hình ứng cử viên phải vượt qua các kiểm tra quản trị trong SageMaker Model Registry, đánh giá runtime với MLflow và xác thực suy luận trực quan với Tensorboard. Chỉ sau khi các bước này hoàn tất, các mô hình mới được triển khai, giúp đảm bảo độ tin cậy và tính nhất quán ở quy mô lớn.
Xây dựng các mô hình phát hiện đối tượng thị giác máy tính hiệu suất cao với SageMaker AI
Huấn luyện các mô hình thị giác máy tính chính xác bắt đầu bằng dữ liệu được chú thích chất lượng cao—một bước thường trở thành nút thắt cổ chai trong việc phát triển các dịch vụ được hỗ trợ bởi AI. Đối với TrueLook, việc xây dựng một mô hình phát hiện PPE đáng tin cậy có nghĩa là tạo ra một tập dữ liệu đã được gắn nhãn bao gồm tất cả các loại vi phạm chính—người, mũ bảo hộ, áo phản quang, ủng an toàn, v.v.—trong các điều kiện đa dạng như các cảnh khác nhau, ánh sáng, hướng và góc nhìn. Các chú thích này đến từ mạng lưới camera video trên toàn quốc của TrueLook trên các công trường xây dựng. Để đẩy nhanh tiến độ và cải thiện chất lượng mô hình, nhóm kỹ sư của TrueLook đã hợp tác với nhóm khoa học dữ liệu go-to-market (GTM) của SageMaker AI để thiết kế một pipeline huấn luyện đa giai đoạn độ chính xác cao. Phương pháp này đã giảm thời gian cần thiết để chuyển từ thử nghiệm sang sản xuất bằng cách kết hợp chuyên môn sâu về thị giác máy tính và khoa học dữ liệu của AWS và TrueLook với các quy trình làm việc huấn luyện và triển khai được quản lý đơn giản hóa được hỗ trợ bởi SageMaker AI. Kết quả là một pipeline đa giai đoạn, có khả năng mở rộng, cho phép lặp lại nhanh hơn, đơn giản hóa độ phức tạp vận hành và mang lại cải thiện độ chính xác vượt trội so với các mô hình phát hiện PPE tiên tiến trước đây của TrueLook.
Các thử nghiệm ban đầu và phương pháp thay thế
TrueLook bắt đầu bằng cách thử nghiệm với các nhà cung cấp khác cung cấp quy trình làm việc dựa trên UI hoặc API cho huấn luyện mô hình học máy (ML) và học sâu (DL) low-code và no-code. TrueLook ban đầu sử dụng các siêu tham số mặc định, được nhà cung cấp khuyến nghị và sau đó huấn luyện lại các mô hình sau khi điều chỉnh các tham số được hiển thị, chẳng hạn như kích thước batch, tốc độ học và ngưỡng tin cậy, để nhanh chóng tinh chỉnh và đánh giá các mô hình phát hiện đối tượng bằng cách sử dụng tập dữ liệu của riêng họ. Tuy nhiên, việc kiểm soát hạn chế đối với quá trình huấn luyện không mang lại kết quả đủ để sẵn sàng sản xuất, bởi vì hiệu suất mô hình chững lại trong một phạm vi hẹp do thiếu các điều khiển tinh chỉnh và tối ưu hóa bổ sung. Ví dụ, huấn luyện với một tập hợp ban đầu gồm 1.000 hình ảnh được gắn nhãn đã tạo ra độ chính xác trung bình (mAP) trong khoảng 60–70%. Mặc dù điều này đã chứng minh tính khả thi của phương pháp, nhưng kết quả cũng cho thấy hiệu suất tỷ lệ chặt chẽ với số lượng hình ảnh được gắn nhãn có sẵn, nhấn mạnh sự cần thiết của một pipeline tiên tiến và có khả năng mở rộng hơn.
Quy trình tinh chỉnh ba giai đoạn sử dụng SageMaker AI
Các thử nghiệm ban đầu với các phương pháp low-code và no-code đã tiết lộ nhu cầu chuyển đổi miền một mô hình phát hiện đối tượng miền mở, đã được huấn luyện trước—ban đầu được huấn luyện để nhận dạng các đối tượng chung như phương tiện, người và động vật—sang miền xây dựng và an toàn. Sự thích ứng miền ban đầu này cho phép mô hình học các khái niệm hình ảnh đặc thù của ngành xây dựng, bao gồm thiết bị an toàn và sự hiện diện của người lao động trong các điều kiện công trường phức tạp như che khuất một phần, bằng cách sử dụng các tập dữ liệu xây dựng mã nguồn mở được tuyển chọn. Mô hình phát hiện đối tượng đã chuyển đổi miền này sau đó được tinh chỉnh thêm trên các tập dữ liệu dành riêng cho khách hàng để điều chỉnh các lớp mục tiêu của mô hình với tiêu chuẩn gắn nhãn và điều kiện công trường của từng khách hàng. Sơ đồ sau đây minh họa sự tiến triển này dưới dạng quy trình làm việc huấn luyện ba giai đoạn.

- Mô hình đã được huấn luyện trước: Chọn một mô hình phát hiện đối tượng Thị giác máy tính (CV) đã được huấn luyện trước trên hình ảnh mã nguồn mở quy mô lớn.
- Thích ứng miền: Tinh chỉnh một mô hình đã được huấn luyện trước với tập dữ liệu miền an toàn xây dựng có sẵn công khai.
- Tinh chỉnh: Tinh chỉnh mô hình đã thích ứng miền trên tập dữ liệu đã được chú thích của TrueLook để cải thiện độ chính xác nhanh chóng.
Họ mô hình phát hiện đối tượng YOLO
Trước khi xem xét quy trình làm việc huấn luyện đa giai đoạn, chúng tôi muốn giới thiệu mô hình phát hiện đối tượng là trọng tâm của hệ thống an toàn xây dựng được hỗ trợ bởi AI của TrueLook.
YOLO (You Only Look Once) là một họ các mô hình phát hiện đối tượng thời gian thực được tối ưu hóa cho việc phát hiện nhanh, một lần chạy với sự cân bằng tốt giữa độ chính xác và thông lượng, làm cho nó rất phù hợp cho các môi trường động như công trường xây dựng. YOLOv11 phát triển dòng này với những cải tiến kiến trúc giúp nâng cao trích xuất đặc trưng, mang lại độ chính xác cao hơn với ít tham số hơn và cho phép suy luận nhanh hơn, ngay cả trên phần cứng hạn chế, đồng thời hỗ trợ các tác vụ như phân đoạn và ước tính tư thế.
Quy trình làm việc tinh chỉnh phát hiện đối tượng đa giai đoạn
Trong phần này, chúng tôi mô tả phương pháp đầu cuối được sử dụng để chọn, thích ứng và tinh chỉnh một mô hình thị giác đã được huấn luyện trước để giám sát an toàn công trường xây dựng.
- Chọn một mô hình đã được huấn luyện trước – Nhóm đã đánh giá các mô hình đã được huấn luyện trước dựa trên các yếu tố như kích thước, độ chính xác, số liệu huấn luyện, phạm vi lớp và cấp phép. YOLOv11 được chọn làm mô hình cơ sở vì hiệu suất mạnh mẽ và sự phù hợp cho các trường hợp sử dụng liên quan đến xây dựng.
- Thích ứng miền – Các mô hình đã được huấn luyện trước thường được huấn luyện trên các lớp rộng như ô tô, động vật hoặc các đối tượng hàng ngày. Bằng cách điều chỉnh các trọng số này để tập trung vào các lớp đặc thù của ngành xây dựng—chẳng hạn như mũ bảo hộ, nón an toàn và người lao động trong khu vực an toàn—mô hình đã có được nhận thức miền. Sự thích ứng này đã sử dụng các tập dữ liệu có sẵn công khai như Roboflow: Construction Safety và được hưởng lợi từ tăng cường dữ liệu để cải thiện độ mạnh mẽ trên các góc nhìn, che khuất và điều kiện ánh sáng.
- Tinh chỉnh với dữ liệu TrueLook – Mô hình đã thích ứng miền sau đó được tinh chỉnh trên tập dữ liệu độc quyền, chất lượng cao đã được gắn nhãn của TrueLook. Bởi vì mô hình đã nhận dạng các lớp PPE khá tốt sau giai đoạn hai, việc tinh chỉnh đã nâng cao hiệu suất của nó trên hình ảnh từ nguồn cấp dữ liệu xây dựng trực tiếp của TrueLook. Các tăng cường bổ sung trong quá trình huấn luyện đã cải thiện thêm khả năng khái quát hóa trong điều kiện thực tế.
Phương pháp theo giai đoạn này đã chứng minh hiệu quả cao. Ví dụ, với cùng 1.000 hình ảnh được gắn nhãn, pipeline đã đạt được điểm mAP trong khoảng 80–90%—cải thiện 20 điểm so với quy trình làm việc của nhà cung cấp thay thế. Một lợi ích khác của thiết kế này là hiệu quả: giai đoạn một và hai chỉ cần chạy một lần, tạo ra một mô hình thích ứng miền có thể tái sử dụng. Bất cứ khi nào có dữ liệu mới, TrueLook có thể chạy lại giai đoạn ba, giảm thời gian huấn luyện trong khi liên tục cải thiện độ chính xác tổng thể của mô hình. Ngược lại, các giải pháp thay thế low-code và no-code thường cung cấp kiểm soát hạn chế đối với kiến trúc mô hình, chiến lược huấn luyện và tối ưu hóa đa giai đoạn, gây khó khăn trong việc thực hiện thích ứng miền rõ ràng và tinh chỉnh lặp lại ở quy mô lớn. Mặc dù các công cụ này có thể đẩy nhanh quá trình tạo mẫu ban đầu, nhưng chúng thường không đạt yêu cầu khi cần độ chính xác cao hơn, khả năng tái tạo và tùy chỉnh cấp độ sản xuất cho các môi trường phức tạp, thực tế như công trường xây dựng.
Vận hành với SageMaker AI
Bằng cách sử dụng SageMaker AI, TrueLook đã vận hành quy trình làm việc phát hiện đối tượng đa giai đoạn của mình dưới dạng một khung MLOps có khả năng mở rộng, sẵn sàng cho sản xuất. Bằng cách sử dụng các khả năng được quản lý như SageMaker Pipelines và SageMaker Model Registry, TrueLook đã tự động hóa toàn bộ vòng đời mô hình, từ huấn luyện và đánh giá đến quản lý phiên bản và triển khai, trong khi duy trì quản trị và khả năng truy xuất nguồn gốc mạnh mẽ. Phương pháp này đã giảm điều phối thủ công, giảm rủi ro vận hành và cung cấp độ tin cậy và khả năng quan sát cần thiết để chạy các dịch vụ giám sát an toàn được hỗ trợ bởi AI ở quy mô lớn.
Triển khai phát hiện đối tượng đầu cuối bằng SageMaker Pipelines
Xây dựng một mô hình phát hiện đối tượng chính xác chỉ là bước đầu tiên trong việc xây dựng một hệ thống an toàn xây dựng toàn diện được hỗ trợ bởi AI. Việc cải thiện liên tục đòi hỏi lặp lại nhanh chóng, thử nghiệm có kiểm soát và quảng bá đáng tin cậy các mô hình chất lượng cao khi có dữ liệu mới. Để thực hiện điều này, TrueLook và AWS đã triển khai một quy trình làm việc tự động bằng SageMaker Pipelines hỗ trợ thử nghiệm song song với khả năng thêm đánh giá mô hình tự động, tự động loại bỏ các mô hình hoạt động kém và chỉ thúc đẩy những mô hình đáp ứng ngưỡng hiệu suất được xác định trước, dẫn đến lặp lại nhanh hơn, cải thiện khả năng tái tạo và một con đường đáng tin cậy từ thử nghiệm đến sản xuất.
Tạo pipeline – Triết lý “Xác định một lần”
TrueLook đã xác định một quy trình làm việc có tham số, có thể tái sử dụng, tự động hóa toàn bộ vòng đời của các mô hình phát hiện đối tượng an toàn xây dựng của họ. Quy trình làm việc bắt đầu bằng cách chuyển đổi hình ảnh công trường thô thành tập dữ liệu sẵn sàng cho mô hình. Sau đó, nó huấn luyện một mô hình phát hiện đối tượng YOLOv11 và tự động đăng ký mô hình đã huấn luyện vào một registry mô hình trung tâm để quản lý phiên bản và quản trị. Các bước đánh giá tích hợp sẵn đo lường hiệu suất mô hình (như mAP, F1-score, v.v.) so với các ngưỡng được xác định trước. Các mô hình đáp ứng các tiêu chuẩn này được quảng bá để triển khai và đăng ký dưới dạng các artifact có phiên bản trong một registry mô hình trung tâm. Các mô hình đã đăng ký này có thể được xem xét, bình luận, phê duyệt hoặc từ chối thông qua các quy trình làm việc có thể kiểm toán, trong khi các lần chạy hoạt động kém sẽ tự động dừng để ngăn chặn các mô hình chất lượng thấp tiếp cận sản xuất.

TrueLook đã xác định một quy trình làm việc có tham số, có thể tái sử dụng, giúp giảm nhu cầu xây dựng lại logic điều phối cho mỗi lần lặp mô hình. Các nhóm có thể kích hoạt các lần chạy lặp lại bằng cách điều chỉnh tập dữ liệu và cài đặt huấn luyện như độ phân giải hình ảnh, kích thước batch, tốc độ học, thời lượng huấn luyện và chiến lược tăng cường dữ liệu. Họ cũng có thể điều chỉnh cấu hình tính toán bao gồm loại instance GPU, số lượng GPU và dung lượng bộ nhớ. Nhiều lần chạy có thể thực hiện song song, trong khi cổng tự động và thực thi có điều kiện đảm bảo các tiêu chuẩn chất lượng nhất quán, giảm chi phí vận hành, giảm thiểu lỗi của con người và đẩy nhanh quá trình cải thiện mô hình liên tục ở quy mô lớn.
# Core experimentation parameters
object_detection_params = ParameterString(
name="pre_training_params",
default_value="epochs=1,lr0=1e-3,batch=1"
)
...
# Training instance as a parameter
training_instance_type = ParameterString(
name="ml_instance ",
default_value="ml.g6e.12xlarge"
)
...
# Stage 2 model hyperparams
fine_tuning_params = ParameterString(
name="fine_tuning_params",
default_value="epochs=1,lr0=1e-4,batch=1"
)
Thử nghiệm có kiểm soát và triển khai tự động
Mỗi lần chạy huấn luyện được tự động theo dõi thông qua các hệ thống quản lý thử nghiệm và đăng ký mô hình tích hợp, ghi lại các tham số, số liệu và artifact mô hình trong lịch sử phiên bản. Điều này tạo ra một danh mục kết quả thử nghiệm có thể tìm kiếm, cho phép so sánh có hệ thống các chiến lược huấn luyện khác nhau và xác định cấu hình tối ưu cho việc phát hiện an toàn xây dựng. Các mô hình đã được phê duyệt sau đó được tự động triển khai đến các endpoint sản xuất được tăng tốc bằng GPU bằng cách sử dụng đặt tên có phiên bản, có dấu thời gian để tránh xung đột. Điều này tạo ra một con đường liền mạch và lặp lại từ thử nghiệm đến triển khai thời gian thực, cho phép lặp lại nhanh chóng trong khi duy trì quản trị mạnh mẽ và can thiệp thủ công tối thiểu.
Tóm tắt
Nghiên cứu điển hình này làm nổi bật cách hợp tác giữa AWS và TrueLook đã cho phép các nhóm xây dựng sử dụng các dịch vụ ML được quản lý để giám sát an toàn có khả năng mở rộng, sẵn sàng cho sản xuất trong khi tránh chi phí cơ sở hạ tầng nặng nề. Nó chứng minh một phương pháp tinh chỉnh ba giai đoạn đã được chứng minh, cung cấp các mô hình an toàn xây dựng độ chính xác cao ngay cả với dữ liệu hạn chế, vượt trội so với những gì thường đạt được với các giải pháp thay thế low-code hoặc no-code. Bài viết này cũng cung cấp hướng dẫn thực tế về xây dựng, huấn luyện và triển khai các mô hình thị giác máy tính bằng cách sử dụng các dịch vụ được quản lý của AWS, và nhấn mạnh giá trị của việc hợp tác sớm với AWS để thiết kế kiến trúc và triển khai theo miền cụ thể. Thành công của TrueLook minh họa cách các giải pháp AI/ML tập trung vào ngành, được hỗ trợ bởi chuyên môn sâu về miền, có thể tự động hóa và nâng cao hiệu quả hoạt động an toàn công trường.
Về tác giả

Steven McDowall là một nhà lãnh đạo công nghệ và sản phẩm với kinh nghiệm sâu rộng trong chiến lược sản phẩm, quản lý sản phẩm và kỹ thuật phần mềm. Hiện tại, ông là Phó Chủ tịch Sản phẩm tại TrueLook, nơi ông lãnh đạo việc phát triển các giải pháp công nghệ xây dựng và video thời gian thực, mang đến nền tảng kỹ thuật vững chắc và cách tiếp cận tập trung vào người dùng trong việc thực hiện sản phẩm.

Scott Anderson là Giám đốc Kỹ thuật Nền tảng tại TrueLook, nơi ông lãnh đạo việc phát triển và khả năng mở rộng của các hệ thống cung cấp năng lượng cho nền tảng cốt lõi của công ty. Ông mang đến hơn 30 năm kinh nghiệm kỹ thuật sâu sắc và tư duy kỹ thuật thực dụng, tập trung vào việc xây dựng cơ sở hạ tầng đáng tin cậy, dễ bảo trì để hỗ trợ tăng trưởng sản phẩm dài hạn.

Marc Ritter là Kỹ sư Phần mềm Trưởng tại TrueLook, nơi ông thúc đẩy thiết kế và triển khai các tính năng nền tảng cốt lõi và đóng góp vào các sáng kiến công nghệ tiên tiến. Ông áp dụng tư duy kỹ thuật mạnh mẽ để giải quyết các thách thức kỹ thuật phức tạp và nâng cao hiệu suất cũng như độ tin cậy của các giải pháp TrueLook. Marc đam mê tận dụng kiến trúc chu đáo và phát triển hợp tác để xây dựng các hệ thống phần mềm có khả năng mở rộng.

Pranav Murthy là Nhà khoa học dữ liệu AI tạo sinh cấp cao tại AWS, chuyên giúp các tổ chức đổi mới với AI tạo sinh, Học sâu và Học máy trên Amazon SageMaker AI. Trong hơn 10 năm qua, ông đã phát triển và mở rộng các mô hình thị giác máy tính (CV) và xử lý ngôn ngữ tự nhiên (NLP) tiên tiến để giải quyết các vấn đề có tác động lớn—từ tối ưu hóa chuỗi cung ứng toàn cầu đến kích hoạt phân tích video thời gian thực và tìm kiếm đa ngôn ngữ. Khi không xây dựng các giải pháp AI, Pranav thích chơi các trò chơi chiến lược như cờ vua, đi du lịch để khám phá các nền văn hóa mới và cố vấn cho các học viên AI đầy tham vọng. Bạn có thể tìm thấy Pranav trên LinkedIn.

Gaurav Singh là Giám đốc Giải pháp Khách hàng cấp cao tại AWS với hơn 20 năm kinh nghiệm trong chuyển đổi đám mây và tư vấn CNTT. Ông chuyên hướng dẫn khách hàng trong hành trình đám mây của họ, đóng vai trò là cố vấn đáng tin cậy cho các cơ hội di chuyển, hiện đại hóa và đổi mới. Gaurav cung cấp hướng dẫn tăng trưởng chiến lược giúp khách hàng đạt được mục tiêu của họ trong khi tận dụng các dịch vụ AWS để thúc đẩy đổi mới và xuất sắc trong vận hành. Bạn có thể tìm thấy Gaurav trên LinkedIn.

Surya Kari là Nhà khoa học dữ liệu AI tạo sinh cấp cao tại AWS, chuyên phát triển các giải pháp tận dụng các mô hình nền tảng tiên tiến. Ông có kinh nghiệm sâu rộng trong việc làm việc với các mô hình ngôn ngữ tiên tiến bao gồm DeepSeek-R1, họ Llama và Qwen, tập trung vào việc tinh chỉnh và tối ưu hóa chúng cho các ứng dụng khoa học cụ thể. Chuyên môn của ông mở rộng sang việc triển khai các pipeline huấn luyện hiệu quả và chiến lược triển khai bằng AWS SageMaker, cho phép mở rộng các mô hình nền tảng từ phát triển đến sản xuất. Ông hợp tác với khách hàng để thiết kế và triển khai các giải pháp AI tạo sinh, giúp họ điều hướng lựa chọn mô hình, phương pháp tinh chỉnh và chiến lược triển khai để đạt được hiệu suất tối ưu cho các trường hợp sử dụng cụ thể của họ. Bạn có thể tìm thấy Surya trên LinkedIn.