Gần đây, chúng tôi đã công bố một cải tiến mới cho OpenSearch Serverless để quản lý việc lưu giữ dữ liệu của các bộ sưu tập và Chỉ mục chuỗi thời gian. OpenSearch Serverless dành cho Amazon OpenSearch Service giúp việc chạy khối lượng công việc tìm kiếm và phân tích trở nên đơn giản mà không cần phải suy nghĩ về việc quản lý cơ sở hạ tầng. Với tính năng xóa dữ liệu dựa trên thời gian tự động mới, bạn có thể chỉ định thời gian họ muốn lưu giữ dữ liệu và OpenSearch Serverless tự động quản lý vòng đời của dữ liệu dựa trên cấu hình này.
Để phân tích dữ liệu chuỗi thời gian như nhật ký ứng dụng và sự kiện trong OpenSearch, bạn phải tạo và nhập dữ liệu vào chỉ mục. Thông thường, những nhật ký này được tạo liên tục và được nhập thường xuyên, chẳng hạn như vài phút một lần, vào OpenSearch. Khối lượng nhật ký lớn có thể tiêu tốn nhiều tài nguyên sẵn có như lưu trữ trong cụm và do đó cần được quản lý hiệu quả để tối đa hóa hiệu suất tối ưu. Bạn có thể quản lý vòng đời của dữ liệu được lập chỉ mục bằng cách sử dụng công cụ tự động để tạo chỉ mục hàng ngày. Sau đó, bạn có thể sử dụng tập lệnh để xoay dữ liệu được lập chỉ mục từ bộ lưu trữ chính theo cụm sang bộ lưu trữ từ xa thứ cấp để duy trì hiệu suất và kiểm soát chi phí, sau đó xóa dữ liệu cũ sau một khoảng thời gian lưu giữ nhất định.
Tính năng xóa dữ liệu dựa trên thời gian tự động mới trong OpenSearch Serverless giảm thiểu nhu cầu tạo và quản lý chỉ mục hàng ngày hoặc viết tập lệnh vòng đời dữ liệu theo cách thủ công. Bây giờ bạn có thể tạo một chỉ mục duy nhất và OpenSearch Serverless sẽ tự động xử lý việc tạo một bộ sưu tập các chỉ mục được đánh dấu thời gian theo một nhóm logic. Bạn chỉ cần định cấu hình các chính sách lưu giữ dữ liệu mong muốn cho bộ sưu tập dữ liệu chuỗi thời gian của mình. Sau đó, OpenSearch Serverless sẽ chuyển các chỉ mục từ bộ lưu trữ chính sang Amazon Simple Storage Service (Amazon S3) một cách hiệu quả khi chúng cũ đi và tự động xóa dữ liệu cũ theo chính sách lưu giữ đã định cấu hình, giảm chi phí hoạt động và tiết kiệm chi phí.
Trong bài đăng này, chúng tôi thảo luận về các chính sách vòng đời dữ liệu mới và cách bắt đầu với các chính sách này trong OpenSearch Serverless
Tổng quan về giải pháp
Hãy xem xét trường hợp sử dụng trong đó công ty hư cấu Octank Broker thu thập nhật ký từ các dịch vụ web của mình và nhập chúng vào OpenSearch Serverless để phân tích tính khả dụng của dịch vụ. Công ty quan tâm đến việc theo dõi quyền truy cập web và nguyên nhân gốc rễ khi phát hiện lỗi với loại lỗi 4xx và 5xx. Nói chung, các vấn đề về máy chủ sẽ được quan tâm trong khoảng thời gian trước mắt, chẳng hạn như sau vài ngày. Sau 30 ngày, những nhật ký này không còn được quan tâm nữa.
Octank muốn giữ lại dữ liệu nhật ký của họ trong 7 ngày. Nếu bộ sưu tập hoặc chỉ mục được định cấu hình để lưu giữ dữ liệu trong 7 ngày thì sau 7 ngày, OpenSearch Serverless sẽ xóa dữ liệu. Các chỉ mục không còn có sẵn để tìm kiếm. Lưu ý: Số lượng tài liệu trong kết quả tìm kiếm có thể phản ánh dữ liệu được đánh dấu để xóa trong một thời gian ngắn.
Bạn có thể định cấu hình lưu giữ dữ liệu bằng cách tạo chính sách vòng đời dữ liệu. Thời gian lưu giữ có thể không giới hạn hoặc bạn có thể cung cấp khoảng thời gian cụ thể theo Ngày và Giờ với thời gian lưu giữ tối thiểu là 24 giờ và tối đa là 10 năm. Nếu thời gian lưu giữ là không giới hạn, như tên cho thấy thì sẽ không có dữ liệu nào bị xóa.
Để bắt đầu sử dụng chính sách vòng đời dữ liệu trong OpenSearch Serverless, bạn có thể làm theo các bước được nêu trong bài đăng này.
Điều kiện tiên quyết
Bài đăng này giả định rằng bạn đã thiết lập bộ sưu tập OpenSearch Serverless. Nếu không, hãy tham khảo Phân tích nhật ký một cách dễ dàng với Amazon OpenSearch Serverless để biết hướng dẫn.
Tạo chính sách vòng đời dữ liệu
Bạn có thể tạo chính sách vòng đời dữ liệu từ Bảng điều khiển quản lý AWS , Giao diện dòng lệnh AWS (AWS CLI), AWS CloudFormation , Bộ công cụ phát triển đám mây AWS (AWS CDK) và Terraform . Để tạo chính sách vòng đời dữ liệu thông qua bảng điều khiển, hãy hoàn thành các bước sau:
- Trên bảng điều khiển Dịch vụ OpenSearch, chọn Chính sách vòng đời dữ liệu trong Serverless trong ngăn điều hướng.
- Chọn Tạo chính sách vòng đời dữ liệu .
- Đối với Tên chính sách vòng đời dữ liệu , hãy nhập tên (ví dụ: chính sách nhật ký web).
- Chọn Thêm trong Vòng đời dữ liệu .
- Trong Bộ sưu tập nguồn, chọn bộ sưu tập mà bạn muốn áp dụng chính sách (ví dụ: web-logs-collection).
- Trong Chỉ mục , nhập chỉ mục hoặc mẫu chỉ mục để áp dụng thời lượng lưu giữ (ví dụ: nhật ký web).
- Trong phần Lưu giữ dữ liệu , hãy tắt Không giới hạn (để thiết lập mức lưu giữ cụ thể cho mẫu chỉ mục mà bạn đã xác định).
- Nhập giờ hoặc ngày sau đó bạn muốn xóa dữ liệu khỏi Amazon S3.
- Chọn Tạo.
Hình ảnh sau đây minh hoạ nhanh cách tạo các chính sách vòng đời Dữ liệu không có máy chủ OpenSearch thông qua các bước trước đó.
Xem chính sách vòng đời dữ liệu
Sau khi tạo chính sách vòng đời dữ liệu, bạn có thể xem chính sách này bằng cách hoàn thành các bước sau:
- Trên bảng điều khiển Dịch vụ OpenSearch, chọn Chính sách vòng đời dữ liệu trong Serverless trong ngăn điều hướng.
- Chọn chính sách bạn muốn xem (ví dụ: chính sách nhật ký web).
- Chọn siêu liên kết dưới Tên chính sách .
Trang này sẽ hiển thị cho bạn các chi tiết như mẫu chỉ mục và khoảng thời gian lưu giữ của nó cho một chỉ mục và bộ sưu tập cụ thể. Hình ảnh sau đây minh hoạ nhanh cách xem các chính sách vòng đời dữ liệu của OpenSearch Serverless thông qua các bước trước đó.
Cập nhật chính sách vòng đời dữ liệu
Sau khi tạo chính sách vòng đời dữ liệu, bạn có thể sửa đổi và cập nhật chính sách đó để thêm nhiều quy tắc hơn. Ví dụ: bạn có thể thêm một mẫu chỉ mục khác hoặc thêm bộ sưu tập mới với mẫu chỉ mục mới để thiết lập việc lưu giữ. Ví dụ sau đây cho thấy các bước để thêm một quy tắc khác vào chính sách dành cho chỉ mục nhật ký hệ thống trong bộ sưu tập nhật ký hệ thống.
- Trên bảng điều khiển Dịch vụ OpenSearch, chọn Chính sách vòng đời dữ liệu trong Serverless trong ngăn điều hướng.
- Chọn chính sách bạn muốn chỉnh sửa (ví dụ: web-logs-policy), sau đó chọn Chỉnh sửa .
- Chọn Thêm trong Vòng đời dữ liệu .
- Trong Bộ sưu tập nguồn , chọn bộ sưu tập bạn sẽ sử dụng để thiết lập chính sách vòng đời dữ liệu (ví dụ: syslogs-collection).
- Trong Chỉ mục , nhập chỉ mục hoặc mẫu chỉ mục mà bạn sẽ đặt mức lưu giữ cho (ví dụ: nhật ký hệ thống).
- Trong Lưu giữ dữ liệu , tắt Không giới hạn (để thiết lập lưu giữ cụ thể cho mẫu chỉ mục bạn đã xác định).
- Nhập giờ hoặc ngày sau đó bạn muốn xóa dữ liệu khỏi Amazon S3.
- Chọn Lưu .
Hình ảnh sau đây minh họa nhanh cách cập nhật các chính sách vòng đời dữ liệu hiện có thông qua các bước trước đó.
Xóa chính sách vòng đời dữ liệu
Xóa chính sách vòng đời dữ liệu hiện có bằng các bước sau:
- Trên bảng điều khiển Dịch vụ OpenSearch, chọn Chính sách vòng đời dữ liệu trong Serverless trong ngăn điều hướng.
- Chọn chính sách bạn muốn chỉnh sửa (ví dụ: chính sách nhật ký web).
- Chọn Xóa .
Quy tắc chính sách vòng đời dữ liệu
Trong chính sách vòng đời dữ liệu, bạn chỉ định một loạt quy tắc. Chính sách vòng đời dữ liệu cho phép bạn quản lý khoảng thời gian lưu giữ dữ liệu được liên kết với các chỉ mục hoặc bộ sưu tập phù hợp với các quy tắc này. Các quy tắc này xác định khoảng thời gian lưu giữ dữ liệu trong một chỉ mục hoặc một nhóm chỉ mục. Mỗi quy tắc bao gồm một loại tài nguyên (chỉ mục), khoảng thời gian lưu giữ và danh sách các tài nguyên (chỉ mục) mà khoảng thời gian lưu giữ áp dụng.
Bạn xác định khoảng thời gian lưu giữ bằng một trong các định dạng sau:
- “MinIndexRetention”: “24h” – OpenSearch Serverless lưu giữ dữ liệu chỉ mục trong một khoảng thời gian xác định tính bằng giờ hoặc ngày. Bạn có thể đặt khoảng thời gian này từ 24 giờ (24h) đến 3.650 ngày (3650d).
- “NoMinIndexRetention”: true – OpenSearch Serverless lưu giữ dữ liệu chỉ mục vô thời hạn.
Khi các quy tắc chính sách vòng đời dữ liệu trùng lặp, trong hoặc giữa các chính sách, quy tắc có tên hoặc mẫu tài nguyên cụ thể hơn cho một chỉ mục sẽ ghi đè quy tắc có tên hoặc mẫu tài nguyên tổng quát hơn cho bất kỳ chỉ mục nào chung cho cả hai quy tắc. Ví dụ: trong chính sách sau đây, hai quy tắc áp dụng cho chỉ mục/doanh số/logstash. Trong trường hợp này, quy tắc thứ hai được ưu tiên vì chỉ mục/bán hàng/log* là kết quả phù hợp nhất với chỉ mục/bán hàng/logstash. Do đó, OpenSearch Serverless không đặt khoảng thời gian lưu giữ cho chỉ mục.
Bản tóm tắt
Chính sách vòng đời dữ liệu cung cấp một cách nhất quán và đơn giản để quản lý các chỉ mục trong OpenSearch Serverless. Với chính sách vòng đời dữ liệu, bạn có thể tự động hóa việc quản lý dữ liệu và tránh các lỗi của con người. Việc xóa dữ liệu không liên quan mà không cần can thiệp thủ công sẽ giúp giảm tải hoạt động của bạn, tiết kiệm chi phí lưu trữ và giúp hệ thống luôn hoạt động hiệu quả để tìm kiếm.
Giới thiệu về tác giả
Prashant Agrawal là Kiến trúc sư giải pháp chuyên gia tìm kiếm cấp cao của Dịch vụ tìm kiếm mở Amazon. Anh hợp tác chặt chẽ với khách hàng để giúp họ di chuyển khối lượng công việc lên đám mây và giúp khách hàng hiện tại tinh chỉnh cụm của họ để đạt được hiệu suất tốt hơn và tiết kiệm chi phí. Trước khi gia nhập AWS, anh đã giúp nhiều khách hàng khác nhau sử dụng OpenSearch và Elaticsearch cho các trường hợp sử dụng phân tích nhật ký và tìm kiếm của họ. Khi không làm việc, bạn có thể thấy anh ấy đi du lịch và khám phá những địa điểm mới. Nói tóm lại, anh ấy thích làm Ăn → Du lịch → Lặp lại.
Satish Nandi là Giám đốc sản phẩm cấp cao của Dịch vụ tìm kiếm mở của Amazon. Anh ấy tập trung vào OpenSearch Serverless và có nhiều năm kinh nghiệm về mạng, bảo mật và ML/AI. Ông có bằng Cử nhân Khoa học Máy tính và bằng MBA về Khởi nghiệp. Khi rảnh rỗi, anh thích lái máy bay, lái tàu lượn và lái mô tô.