Kỷ niệm 20 năm Amazon S3 và hành trình xây dựng tương lai

Tác giả: Sébastien Stormacq
Ngày phát hành: 13 MAR 2026
Chuyên mục: Amazon Simple Storage Service (S3), News

Hai mươi năm trước, vào ngày 14 tháng 3 năm 2006, Amazon Simple Storage Service (Amazon S3) đã ra mắt một cách lặng lẽ với một thông báo ngắn gọn chỉ một đoạn văn trên trang What’s New:

Amazon S3 là dịch vụ lưu trữ dành cho Internet. Nó được thiết kế để giúp các nhà phát triển dễ dàng hơn trong việc tính toán quy mô web. Amazon S3 cung cấp một giao diện dịch vụ web đơn giản có thể được sử dụng để lưu trữ và truy xuất bất kỳ lượng dữ liệu nào, bất cứ lúc nào, từ bất kỳ đâu trên web. Nó cung cấp cho bất kỳ nhà phát triển nào quyền truy cập vào cùng một cơ sở hạ tầng lưu trữ dữ liệu có khả năng mở rộng cao, đáng tin cậy, nhanh chóng và không tốn kém mà Amazon sử dụng để vận hành mạng lưới các trang web toàn cầu của riêng mình.

Ngay cả bài đăng trên blog của Jeff Barr cũng chỉ vài đoạn văn, được viết trước khi ông lên máy bay đến một sự kiện dành cho nhà phát triển ở California. Không có ví dụ code. Không có bản demo. Rất ít sự phô trương. Vào thời điểm đó, không ai biết rằng sự ra mắt này sẽ định hình toàn bộ ngành công nghiệp của chúng ta.

Những ngày đầu: Các khối xây dựng hoạt động hiệu quả
Về cốt lõi, S3 đã giới thiệu hai nguyên tắc cơ bản đơn giản: PUT để lưu trữ một đối tượng và GET để truy xuất nó sau này. Nhưng sự đổi mới thực sự nằm ở triết lý đằng sau nó: tạo ra các khối xây dựng xử lý những công việc nặng nhọc không khác biệt, giúp các nhà phát triển tập trung vào công việc cấp cao hơn.

Ngay từ ngày đầu tiên, S3 đã được định hướng bởi năm nguyên tắc cơ bản vẫn không thay đổi cho đến ngày nay.

Bảo mật (Security) có nghĩa là dữ liệu của bạn được bảo vệ theo mặc định. Độ bền (Durability) được thiết kế cho 11 số 9 (99.999999999%), và chúng tôi vận hành S3 để không mất dữ liệu. Tính sẵn sàng (Availability) được thiết kế trong mọi lớp, với giả định rằng lỗi luôn hiện hữu và phải được xử lý. Hiệu suất (Performance) được tối ưu hóa để lưu trữ hầu như bất kỳ lượng dữ liệu nào mà không bị suy giảm. Tính đàn hồi (Elasticity) có nghĩa là hệ thống tự động mở rộng và thu hẹp khi bạn thêm và xóa dữ liệu, không cần can thiệp thủ công.

Khi chúng tôi thực hiện đúng những điều này, dịch vụ trở nên đơn giản đến mức hầu hết các bạn không bao giờ phải nghĩ về sự phức tạp của những khái niệm này.

S3 ngày nay: Quy mô vượt ngoài sức tưởng tượng
Trong suốt 20 năm, S3 vẫn cam kết với các nguyên tắc cơ bản cốt lõi của mình ngay cả khi nó đã phát triển đến một quy mô khó có thể hình dung.

Khi S3 lần đầu ra mắt, nó cung cấp khoảng một petabyte tổng dung lượng lưu trữ trên khoảng 400 node lưu trữ trong 15 rack trải rộng ba trung tâm dữ liệu, với tổng băng thông 15 Gbps. Chúng tôi đã thiết kế hệ thống để lưu trữ hàng chục tỷ đối tượng, với kích thước đối tượng tối đa là 5 GB. Giá ban đầu là 15 cent mỗi gigabyte.

Minh họa các chỉ số chính của S3

Ngày nay, S3 lưu trữ hơn 500 nghìn tỷ đối tượng và phục vụ hơn 200 triệu yêu cầu mỗi giây trên toàn cầu, trải rộng hàng trăm exabyte dữ liệu trong 123 Availability Zone thuộc 39 AWS Region, cho hàng triệu khách hàng. Kích thước đối tượng tối đa đã tăng từ 5 GB lên 50 TB, tăng gấp 10.000 lần. Nếu bạn xếp chồng tất cả hàng chục triệu ổ cứng S3 lên nhau, chúng sẽ vươn tới Trạm Vũ trụ Quốc tế và gần như quay trở lại.

Ngay cả khi S3 đã phát triển để hỗ trợ quy mô đáng kinh ngạc này, mức giá bạn phải trả đã giảm. Ngày nay, AWS tính phí chỉ hơn 2 cent mỗi gigabyte. Đó là mức giảm giá khoảng 85% kể từ khi ra mắt vào năm 2006. Song song đó, chúng tôi tiếp tục giới thiệu các cách để tối ưu hóa chi phí lưu trữ hơn nữa với các tầng lưu trữ. Ví dụ, khách hàng của chúng tôi đã tiết kiệm tổng cộng hơn 6 tỷ đô la chi phí lưu trữ bằng cách sử dụng Amazon S3 Intelligent-Tiering so với Amazon S3 Standard.

Trong hai thập kỷ qua, S3 API đã được áp dụng và sử dụng làm điểm tham chiếu trong toàn ngành lưu trữ. Nhiều nhà cung cấp hiện cung cấp các công cụ và hệ thống lưu trữ tương thích S3, triển khai cùng các mẫu và quy ước API. Điều này có nghĩa là các kỹ năng và công cụ được phát triển cho S3 thường có thể chuyển giao cho các hệ thống lưu trữ khác, giúp bối cảnh lưu trữ rộng lớn hơn dễ tiếp cận hơn.

Bất chấp tất cả sự tăng trưởng và việc áp dụng rộng rãi trong ngành, có lẽ thành tựu đáng chú ý nhất là: mã bạn viết cho S3 vào năm 2006 vẫn hoạt động cho đến ngày nay, không thay đổi. Dữ liệu của bạn đã trải qua 20 năm đổi mới và tiến bộ kỹ thuật. Chúng tôi đã di chuyển cơ sở hạ tầng qua nhiều thế hệ đĩa và hệ thống lưu trữ. Tất cả mã để xử lý một yêu cầu đã được viết lại. Nhưng dữ liệu bạn lưu trữ 20 năm trước vẫn có sẵn cho đến ngày nay, và chúng tôi đã duy trì khả năng tương thích ngược API hoàn toàn. Đó là cam kết của chúng tôi trong việc cung cấp một dịch vụ liên tục “chỉ cần hoạt động”.

Kỹ thuật đằng sau quy mô
Phần lớn những gì sau đây được rút ra từ cuộc trò chuyện giữa Mai-Lan Tomsen Bukovec, Phó Chủ tịch Dữ liệu và Phân tích tại AWS, và Gergely Orosz từ The Pragmatic Engineer. Cuộc phỏng vấn chuyên sâu đi sâu hơn vào các chi tiết kỹ thuật cho những ai muốn tìm hiểu sâu hơn. Trong các đoạn văn sau, tôi chia sẻ một số ví dụ:

Cốt lõi của độ bền S3 là một hệ thống các microservice liên tục kiểm tra từng byte trên toàn bộ hệ thống. Các dịch vụ kiểm toán này kiểm tra dữ liệu và tự động kích hoạt hệ thống sửa chữa ngay khi chúng phát hiện dấu hiệu suy giảm. S3 được thiết kế để không mất dữ liệu: mục tiêu thiết kế 11 số 9 phản ánh cách yếu tố sao chép và đội ngũ sao chép lại được định cỡ, nhưng hệ thống được xây dựng để các đối tượng không bị mất.

Các kỹ sư S3 sử dụng phương pháp hình thức và suy luận tự động trong môi trường sản xuất để chứng minh tính đúng đắn bằng toán học. Khi các kỹ sư kiểm tra mã vào hệ thống con chỉ mục, các bằng chứng tự động xác minh rằng tính nhất quán không bị suy giảm. Cách tiếp cận tương tự này chứng minh tính đúng đắn trong sao chép liên Region hoặc đối với chính sách truy cập.

Trong 8 năm qua, AWS đã dần dần viết lại mã quan trọng về hiệu suất trong đường dẫn yêu cầu S3 bằng Rust. Việc di chuyển blob và lưu trữ đĩa đã được viết lại, và công việc đang tích cực diễn ra trên các thành phần khác. Ngoài hiệu suất thô, hệ thống kiểu và đảm bảo an toàn bộ nhớ của Rust loại bỏ toàn bộ các lớp lỗi tại thời điểm biên dịch. Đây là một thuộc tính thiết yếu khi vận hành ở quy mô S3 và các yêu cầu về tính đúng đắn.

S3 được xây dựng dựa trên triết lý thiết kế: “Quy mô là lợi thế của bạn.” Các kỹ sư thiết kế hệ thống sao cho quy mô tăng lên sẽ cải thiện các thuộc tính cho tất cả người dùng. S3 càng lớn, các workload càng trở nên ít tương quan hơn, điều này cải thiện độ tin cậy cho mọi người.

Hướng tới tương lai
Tầm nhìn cho S3 mở rộng vượt ra ngoài việc chỉ là một dịch vụ lưu trữ để trở thành nền tảng phổ quát cho tất cả các workload dữ liệu và AI. Tầm nhìn của chúng tôi rất đơn giản: bạn lưu trữ bất kỳ loại dữ liệu nào một lần trong S3, và bạn làm việc trực tiếp với nó, mà không cần di chuyển dữ liệu giữa các hệ thống chuyên biệt. Cách tiếp cận này giúp giảm chi phí, loại bỏ sự phức tạp và loại bỏ nhu cầu về nhiều bản sao của cùng một dữ liệu.

Dưới đây là một vài lần ra mắt nổi bật trong những năm gần đây:

  • S3 Tables – Các bảng Apache Iceberg được quản lý hoàn toàn với bảo trì tự động giúp tối ưu hóa hiệu quả truy vấn và giảm chi phí lưu trữ theo thời gian.
  • S3 Vectors – Lưu trữ vector gốc cho tìm kiếm ngữ nghĩa và RAG, hỗ trợ tới 2 tỷ vector mỗi chỉ mục với độ trễ truy vấn dưới 100ms. Chỉ trong 5 tháng (tháng 7–tháng 12 năm 2025), bạn đã tạo hơn 250.000 chỉ mục, nhập hơn 40 tỷ vector và thực hiện hơn 1 tỷ truy vấn.
  • S3 Metadata – Metadata tập trung để khám phá dữ liệu tức thì, loại bỏ nhu cầu liệt kê đệ quy các bucket lớn để lập danh mục và giảm đáng kể thời gian thu thập thông tin chi tiết cho các data lake lớn.

Mỗi khả năng này hoạt động với cấu trúc chi phí của S3. Bạn có thể xử lý nhiều loại dữ liệu mà theo truyền thống yêu cầu các cơ sở dữ liệu đắt tiền hoặc hệ thống chuyên biệt, nhưng giờ đây đã khả thi về mặt kinh tế ở quy mô lớn.

Từ 1 petabyte đến hàng trăm exabyte. Từ 15 cent xuống còn 2 cent mỗi gigabyte. Từ lưu trữ đối tượng đơn giản đến nền tảng cho AI và phân tích. Xuyên suốt quá trình đó, năm nguyên tắc cơ bản của chúng tôi – bảo mật, độ bền, tính sẵn sàng, hiệu suất và tính đàn hồi – vẫn không thay đổi, và mã của bạn từ năm 2006 vẫn hoạt động cho đến ngày nay.

Chào mừng 20 năm đổi mới tiếp theo trên Amazon S3.

— seb

Về tác giả


Sébastien Stormacq
Seb đã viết mã từ khi anh ấy lần đầu tiên chạm vào chiếc Commodore 64 vào giữa những năm tám mươi. Anh ấy truyền cảm hứng cho các nhà phát triển để khai thác giá trị của AWS cloud, sử dụng sự kết hợp bí mật giữa niềm đam mê, sự nhiệt tình, sự ủng hộ khách hàng, sự tò mò và sáng tạo của mình. Sở thích của anh ấy là kiến trúc phần mềm, công cụ dành cho nhà phát triển và điện toán di động. Nếu bạn muốn bán cho anh ấy thứ gì đó, hãy đảm bảo nó có API. Theo dõi @sebsto trên Bluesky, X, Mastodon và các nền tảng khác.