Cách các chính phủ có thể cung cấp dữ liệu quốc gia an toàn hơn và ở quy mô lớn

Tác giả: Alex Coley và Dave Reynolds
Ngày phát hành: 08 JAN 2026
Chuyên mục: Government, Partner solutions, Public Sector

Nền thương hiệu AWS với văn bản "Cách các chính phủ có thể cung cấp dữ liệu quốc gia an toàn hơn và ở quy mô lớn"

Đây là bài đăng của khách mời từ Epimorphics, một Đối tác của AWS.


Việc hiện đại hóa các tập dữ liệu công cộng khổng lồ để đáp ứng các mục đích sử dụng mới và đang phát triển là một thách thức. Epimorphics hỗ trợ các cơ quan chính phủ triển khai các dự án dữ liệu lớn một cách hiệu quả. Dữ liệu chính phủ là nền tảng cho nhiều quyết định chính sách công quan trọng và các khoản đầu tư của khu vực tư nhân. Ví dụ, chỉ số giá nhà ở ảnh hưởng đến việc cho vay thế chấp, và các phép đo lưu lượng sông hướng dẫn việc lập kế hoạch chống lũ lụt. Dữ liệu cho công việc quan trọng này phải có tính xác thực, dễ tiếp cận và có sẵn ở dạng kỹ thuật số.

Tuy nhiên, những tập dữ liệu khổng lồ này thường có các yếu tố có từ hơn 100 năm trước, và rất khó để hiện đại hóa chúng mà không làm gián đoạn các hoạt động công cộng và thương mại phụ thuộc vào chúng. Đây là một thách thức mà chúng tôi giải quyết hàng ngày tại Epimorphics, một công ty có trụ sở tại Vương quốc Anh (UK) chuyên thiết kế, xây dựng và vận hành các dịch vụ dữ liệu trên Amazon Web Services (AWS).

Hai trong số các dự án chúng tôi hỗ trợ là Hydrology Data Explorer của Environment AgencyChỉ số Giá nhà ở Vương quốc Anh (UK House Price Index – HPI). Cả hai đều minh họa cách kiến trúc dựa trên đám mây và các tiêu chuẩn mở có thể giúp các cơ quan công cộng nâng cấp cơ sở hạ tầng dữ liệu quan trọng trong khi vẫn duy trì tính minh bạch, hiệu suất và kiểm soát chi phí.

Thách thức về quy mô và quản lý

Ít tập dữ liệu nào minh họa rõ ràng các yêu cầu đối với cơ sở hạ tầng công cộng hiện đại như thủy văn. Dịch vụ của Environment Agency cung cấp quyền truy cập vào hơn 5 tỷ số liệu từ hàng nghìn điểm giám sát trên khắp nước Anh. Các số liệu cũ nhất có từ thế kỷ XIX, và các phép đo mới đến vài lần mỗi giờ từ mỗi điểm giám sát.

Quy mô chỉ là một phần của thách thức. Kho lưu trữ bao gồm nhiều hệ thống và thời đại, vì vậy các bản ghi khác nhau về cấu trúc, độ hoàn chỉnh và tần suất lấy mẫu. Một thực tế trong khu vực công là dữ liệu được tạo ra cho một mục đích cụ thể thường được sử dụng cho một mục đích hoàn toàn khác hàng thập kỷ sau đó. Tuy nhiên, những người thiết lập dự án đã không còn, và kiến thức của họ không phải lúc nào cũng được lưu giữ trong tổ chức.

Người dùng ngày nay—từ các công ty cấp nước đến các trường đại học và dịch vụ khẩn cấp—mong đợi quyền truy cập nhanh chóng, ổn định thông qua các công cụ tự động và giao diện dựa trên trình duyệt. Chúng tôi đã học được rằng các tập dữ liệu phải được thiết kế để phát triển mà không cần xây dựng lại hoàn toàn sau mỗi yêu cầu mới. Metadata tốt, các tiêu chuẩn mở và quản trị rõ ràng giúp tránh các silo cũ và giữ cho các tập dữ liệu hữu ích sau khi nhóm dự án ban đầu đã không còn.

Một cách tiếp cận lai đối với kiến trúc dữ liệu

Các tập dữ liệu quốc gia yêu cầu một kiến trúc có thể xử lý khối lượng, sự đa dạng và các nhu cầu đang phát triển. Đối với Hydrology Data Explorer, chúng tôi sử dụng thiết kế lai tách biệt các phép đo và metadata giúp chúng dễ hiểu. Các số liệu hoạt động của sông nằm trong một kho lưu trữ quan hệ truyền thống, trong khi một lớp dữ liệu liên kết mô tả ngữ cảnh—các địa điểm, biến số, cờ chất lượng và khoảng thời gian lấy mẫu—giúp dữ liệu có thể truy vết và tái sử dụng khi nhu cầu phát triển. Ví dụ, một truy vấn về lưu lượng trung bình hàng ngày của một con sông sẽ truy xuất các giá trị của nó từ lớp quan hệ trong khi lấy chi tiết mô tả từ mô hình metadata.

Các thành phần này được kết hợp thông qua một giao diện lập trình ứng dụng (API) duy nhất, phục vụ cả người dùng trình duyệt và các công cụ tự động. Các yêu cầu được truyền trực tiếp. Điều này có nghĩa là các nhà nghiên cứu có thể kéo toàn bộ chuỗi lịch sử, đôi khi kéo dài hàng thập kỷ, mà không làm quá tải hệ thống. Mô hình tương tự cũng là nền tảng cho cách tiếp cận của chúng tôi đối với UK HPI, nơi tính nhất quán của quyền truy cập quan trọng không kém gì quy mô.

Việc triển khai dựa trên đám mây trên AWS cung cấp tính linh hoạt và khả năng phục hồi mà các dịch vụ này yêu cầu. Chúng tôi sử dụng Amazon Elastic Kubernetes Service (Amazon EKS) để điều phối khối lượng công việc vì nó phân tán quá trình xử lý trên nhiều Availability Zone. Dữ liệu đo lường được lưu trữ trong Amazon Aurora, cung cấp một lớp quan hệ bền vững, tương thích với PostgreSQL, trong khi các tác vụ nhập liệu theo lịch trình và xử lý nền chạy trên AWS Lambda. Amazon Simple Queue Service (Amazon SQS) điều phối dữ liệu đến, điều này đặc biệt quan trọng vì dữ liệu đo từ xa mới và các hiệu chỉnh lịch sử thường đến cùng lúc.

Với việc nhu cầu ngày càng tăng do các chương trình tự động duyệt internet một cách có hệ thống, được gọi là crawlers, và các dịch vụ AI, chúng tôi quản lý lưu lượng truy cập thông qua sự kết hợp giữa dung lượng phù hợp và các quy tắc chất lượng dịch vụ. Điều này giúp ưu tiên người dùng hợp pháp trong thời gian tải cao điểm. Elastic Load Balancing (ELB) phân phối các yêu cầu trên các dịch vụ được nhân rộng, giúp duy trì tính sẵn sàng cao mà các cơ quan công cộng và người dùng trong ngành cần.

Độ chính xác và khả năng phục hồi cho thống kê quốc gia

UK HPI được HM Land Registry xuất bản với sự hỗ trợ của chúng tôi. Đây là một thống kê quốc gia được công nhận và dự án này làm nổi bật tầm quan trọng của thời gian. Các bản phát hành phải được cập nhật chính xác trong một khoảng thời gian xuất bản hẹp và, quan trọng nhất, không được hiển thị công khai trước thời điểm đó.

Để đáp ứng các yêu cầu này, chúng tôi đã xây dựng một pipeline xuất bản tự động. Dữ liệu đến các khu vực riêng tư để xem xét và xác thực, sau đó mỗi bản phát hành được chuẩn bị trên một tập hợp các cơ sở dữ liệu được nhân rộng. Tại thời điểm xuất bản, ELB chuyển đổi lưu lượng truy cập từ tập dữ liệu cũ sang tập dữ liệu mới trong vòng vài phút mà không cần khởi động lại máy chủ hoặc làm gián đoạn các truy vấn đang diễn ra.

Dịch vụ hiện đại hóa này biến những gì từng là một tập hợp các bảng tính thành một dịch vụ dữ liệu liên kết, có thể lập trình, song ngữ. Theo thời gian, người dùng đã xây dựng các quy trình và sản phẩm của riêng họ xung quanh tính nhất quán này: Các nhà phát triển sử dụng API để cung cấp năng lượng cho các bảng điều khiển và công cụ phân tích, các nhà báo và nhà phân tích có thể liên kết trực tiếp đến giá trị có thẩm quyền cho một Region và tháng nhất định, và các tổ chức như công ty bảo hiểm và nhà cung cấp thế chấp dựa vào chu kỳ xuất bản có thể dự đoán được cho mô hình của họ. Độ tin cậy lâu dài quan trọng không kém gì sự tinh vi về kỹ thuật.

Bài học về chuyển đổi số

Theo kinh nghiệm của chúng tôi, một số bài học áp dụng cho các dịch vụ dữ liệu của chính phủ:

  • Bắt đầu với mục đích, không phải sản phẩm – Các cơ quan cần xác định các quyết định phụ thuộc vào dữ liệu trước khi chọn một giải pháp công nghệ. Các giải pháp tiên tiến nhất sẽ không hữu ích nếu chúng không phù hợp với nhu cầu cơ bản.
  • Ưu tiên các tiêu chuẩn mở và khả năng tương tác – Các nguyên tắc dữ liệu liên kết và xây dựng các thực hành dữ liệu nơi thông tin có thể tìm thấy, truy cập được, tương tác được và tái sử dụng được (FAIR) hỗ trợ sự phát triển của tập dữ liệu mà không khóa các nhóm trong tương lai vào các sơ đồ cứng nhắc.
  • Đầu tư vào quản lý – Cơ sở hạ tầng dữ liệu phụ thuộc vào những người hiểu và duy trì nó. Việc tài trợ cho các khối xây dựng—dữ liệu tham chiếu, mô hình metadata, API—có thể giảm chi phí dài hạn và làm cho các dự án trong tương lai nhanh hơn và dễ dự đoán hơn.

Cơ sở hạ tầng sẵn sàng cho tương lai

Cả dịch vụ thủy văn và UK HPI đều cung cấp thông tin cho công việc trong tương lai, từ các tập dữ liệu nước ngầm và lượng mưa đến các dịch vụ chất lượng không khí tiềm năng. Các kỹ thuật AI mới nổi cũng tạo ra những cơ hội mới.

Metadata đồ thị được cấu trúc tốt có thể hỗ trợ Retrieval Augmented Generation (RAG) cho các hệ thống AI, giúp chúng định vị và diễn giải dữ liệu nguồn liên quan. Mô hình API thống nhất của chúng tôi còn hỗ trợ thử nghiệm để các nhà phát triển có thể xây dựng các agent điều hướng các tập dữ liệu mà không làm quá tải dịch vụ.

Với kỳ vọng về tính minh bạch và tự động hóa ngày càng tăng, các dự án này gợi ý một kế hoạch rộng lớn hơn: các dịch vụ dữ liệu dựa trên đám mây dài hạn vẫn có thể truy cập, đáng tin cậy và thích ứng. Chúng cho thấy cách các cơ quan công quyền có thể hiện đại hóa các tập dữ liệu quan trọng trong khi vẫn duy trì niềm tin, và cách cơ sở hạ tầng được thiết kế tốt có thể hỗ trợ làn sóng đổi mới tiếp theo.

Để tìm hiểu thêm về cách các chính phủ đang sử dụng AWS để giải quyết các thách thức của họ, hãy truy cập International Central Government trên AWS.

Về tác giả


Alex Coley
Alex là giám đốc điều hành tại Epimorphics. Với kinh nghiệm lãnh đạo dữ liệu mở trong chính phủ Vương quốc Anh, bao gồm tại Nhóm làm việc về Dữ liệu liên kết của Chính phủ Vương quốc Anh và Bộ Môi trường, Thực phẩm và Nông thôn, ông mang đến chuyên môn sâu sắc trong việc kết nối chính sách, công nghệ và các tiêu chuẩn dữ liệu.


Dave Reynolds
Dave là giám đốc công nghệ tại Epimorphics. Ông định hình chiến lược kỹ thuật của công ty và thúc đẩy đổi mới trên toàn bộ phần mềm của mình. Là một người đóng góp quan trọng cho các tiêu chuẩn dữ liệu quốc tế và Vương quốc Anh, ông là một chuyên gia về dữ liệu liên kết và công nghệ ngữ nghĩa với nền tảng rộng lớn về AI, nhận dạng mẫu, chuyển đổi chương trình và kiến trúc phần mềm.