Kết hợp tìm kiếm theo từ khóa và tìm kiếm ngữ nghĩa cho văn bản và hình ảnh bằng Amazon Bedrock và Amazon OpenSearch Service

Tác giả: [Renan Bertolazzi], [Birender Pal], và [Sarath Krishnan]
Ngày phát hành: 24 APR 2025
Chuyên mục: Amazon Bedrock, Amazon OpenSearch Service, Amazon Titan, Intermediate (200)

Ngày nay, khách hàng mong muốn tìm kiếm sản phẩm một cách nhanh chóng và hiệu quả thông qua chức năng tìm kiếm trực quan. Một hành trình tìm kiếm liền mạch không chỉ nâng cao trải nghiệm người dùng tổng thể mà còn tác động trực tiếp đến các chỉ số kinh doanh quan trọng như tỷ lệ chuyển đổi, giá trị đơn hàng trung bình và lòng trung thành của khách hàng. Theo một nghiên cứu của McKinsey, 78% người tiêu dùng có nhiều khả năng mua hàng lặp lại từ các công ty cung cấp trải nghiệm cá nhân hóa. Do đó, việc cung cấp chức năng tìm kiếm vượt trội đã trở thành một yếu tố khác biệt chiến lược cho các dịch vụ thương mại điện tử hiện đại. Với danh mục sản phẩm ngày càng mở rộng và sự đa dạng của các thương hiệu ngày càng tăng, việc khai thác các công nghệ tìm kiếm tiên tiến là điều cần thiết để thành công.

Tìm kiếm ngữ nghĩa (semantic search) cho phép các nhà cung cấp thương mại kỹ thuật số mang lại kết quả tìm kiếm phù hợp hơn bằng cách vượt ra ngoài việc khớp từ khóa đơn thuần. Nó sử dụng một mô hình embedding để tạo ra các vector embedding nhằm nắm bắt ý nghĩa của truy vấn đầu vào. Điều này giúp việc tìm kiếm linh hoạt hơn trước các biến thể về cách diễn đạt và chấp nhận các đầu vào đa phương thức như văn bản, hình ảnh, âm thanh và video. Ví dụ, một người dùng nhập một truy vấn chứa văn bản và hình ảnh của một sản phẩm họ thích, và công cụ tìm kiếm sẽ dịch cả hai thành các vector embedding bằng cách sử dụng một mô hình embedding đa phương thức và truy xuất các mặt hàng liên quan từ danh mục bằng cách sử dụng sự tương đồng của các embedding. Để tìm hiểu thêm về tìm kiếm ngữ nghĩa và cách Amazon Prime Video sử dụng nó để giúp khách hàng tìm thấy nội dung yêu thích của họ, hãy xem Amazon Prime Video advances search for sports using Amazon OpenSearch Service.

Trong khi tìm kiếm ngữ nghĩa cung cấp sự hiểu biết theo ngữ cảnh và tính linh hoạt, tìm kiếm theo từ khóa (keyword search) vẫn là một thành phần quan trọng cho một giải pháp tìm kiếm thương mại điện tử toàn diện. Về cốt lõi, tìm kiếm theo từ khóa cung cấp chức năng cơ bản thiết yếu là khớp chính xác các truy vấn của người dùng với dữ liệu và metadata của sản phẩm, đảm bảo rằng tên sản phẩm, thương hiệu hoặc thuộc tính cụ thể có thể được truy xuất một cách đáng tin cậy. Khả năng khớp này rất quan trọng, vì người dùng thường có những mặt hàng cụ thể trong đầu khi bắt đầu tìm kiếm, và việc đáp ứng những nhu cầu rõ ràng này một cách chính xác là quan trọng để mang lại trải nghiệm hài lòng.

Tìm kiếm kết hợp (hybrid search) kết hợp thế mạnh của tìm kiếm theo từ khóa và tìm kiếm ngữ nghĩa, cho phép các nhà bán lẻ cung cấp kết quả chính xác và phù hợp hơn cho khách hàng của họ. Dựa trên bài đăng blog của OpenSearch, tìm kiếm kết hợp cải thiện chất lượng kết quả từ 8–12% so với tìm kiếm theo từ khóa và 15% so với tìm kiếm ngôn ngữ tự nhiên. Tuy nhiên, việc kết hợp tìm kiếm theo từ khóa và tìm kiếm ngữ nghĩa đặt ra sự phức tạp đáng kể vì các loại truy vấn khác nhau cung cấp điểm số trên các thang đo khác nhau. Sử dụng tìm kiếm kết hợp của Amazon OpenSearch Service, khách hàng có thể tích hợp liền mạch các phương pháp này bằng cách kết hợp điểm số liên quan từ nhiều loại tìm kiếm thành một điểm số thống nhất.

OpenSearch Service là cơ sở dữ liệu vector được AWS khuyến nghị cho Amazon Bedrock. Đây là một dịch vụ được quản lý hoàn toàn mà bạn có thể sử dụng để triển khai, vận hành và mở rộng quy mô OpenSearch trên AWS. OpenSearch là một công cụ tìm kiếm và phân tích mã nguồn mở phân tán bao gồm một công cụ tìm kiếm và cơ sở dữ liệu vector. OpenSearch Service có thể giúp bạn triển khai và vận hành cơ sở hạ tầng tìm kiếm của mình với các khả năng cơ sở dữ liệu vector gốc, mang lại độ trễ thấp chỉ vài mili giây cho các tìm kiếm trên hàng tỷ vector, làm cho nó trở nên lý tưởng cho các ứng dụng AI thời gian thực. Để tìm hiểu thêm, hãy xem Improve search results for AI using Amazon OpenSearch Service as a vector database with Amazon Bedrock.

Các mô hình embedding đa phương thức như Amazon Titan Multimodal Embeddings G1, có sẵn thông qua Amazon Bedrock, đóng một vai trò quan trọng trong việc kích hoạt chức năng tìm kiếm kết hợp. Các mô hình này tạo ra các embedding cho cả văn bản và hình ảnh bằng cách biểu diễn chúng trong một không gian ngữ nghĩa chung. Điều này cho phép các hệ thống truy xuất kết quả phù hợp trên các phương thức khác nhau như tìm kiếm hình ảnh bằng truy vấn văn bản hoặc kết hợp văn bản với đầu vào hình ảnh.

Trong bài đăng này, chúng tôi sẽ hướng dẫn bạn cách xây dựng một giải pháp tìm kiếm kết hợp sử dụng OpenSearch Service được cung cấp bởi các embedding đa phương thức từ mô hình Amazon Titan Multimodal Embeddings G1 thông qua Amazon Bedrock. Giải pháp này minh họa cách bạn có thể cho phép người dùng gửi cả văn bản và hình ảnh làm truy vấn để truy xuất kết quả phù hợp từ một bộ dữ liệu hình ảnh bán lẻ mẫu.

Tổng quan về giải pháp

Trong bài đăng này, bạn sẽ xây dựng một giải pháp mà bạn có thể sử dụng để tìm kiếm thông qua một bộ dữ liệu hình ảnh mẫu trong lĩnh vực bán lẻ, sử dụng một hệ thống tìm kiếm kết hợp đa phương thức được cung cấp bởi OpenSearch Service. Giải pháp này có hai luồng công việc chính: luồng nhập dữ liệu và luồng truy vấn.

Luồng nhập dữ liệu

Luồng nhập dữ liệu tạo ra các vector embedding cho văn bản, hình ảnh và metadata bằng cách sử dụng Amazon Bedrock và mô hình Amazon Titan Multimodal Embeddings G1. Sau đó, nó lưu trữ các vector embedding, văn bản và metadata trong một domain của OpenSearch Service.

Trong luồng công việc này, được hiển thị trong hình sau, chúng tôi sử dụng một notebook SageMaker JupyterLab để thực hiện các hành động sau:

Đọc văn bản, hình ảnh và metadata từ một bucket Amazon Simple Storage Service (Amazon S3), và mã hóa hình ảnh ở định dạng Base64.
Gửi văn bản, hình ảnh và metadata đến Amazon Bedrock bằng API của nó để tạo ra các embedding bằng mô hình Amazon Titan Multimodal Embeddings G1.
API của Amazon Bedrock trả về các embedding cho notebook Jupyter.
Lưu trữ cả các embedding và metadata trong một domain của OpenSearch Service.

Luồng truy vấn

Trong luồng truy vấn, một pipeline tìm kiếm OpenSearch được sử dụng để chuyển đổi đầu vào truy vấn thành các embedding bằng cách sử dụng mô hình embedding đã được đăng ký với OpenSearch. Sau đó, trong bộ xử lý kết quả của pipeline tìm kiếm OpenSearch, kết quả của tìm kiếm ngữ nghĩa và tìm kiếm theo từ khóa được kết hợp bằng cách sử dụng bộ xử lý chuẩn hóa (normalization processor) để cung cấp kết quả tìm kiếm phù hợp cho người dùng. Các pipeline tìm kiếm giúp giảm bớt gánh nặng của việc xây dựng chuẩn hóa và kết hợp điểm số kết quả bên ngoài domain OpenSearch Service của bạn.

Luồng công việc bao gồm các bước sau được hiển thị trong hình sau:

Client gửi một đầu vào truy vấn chứa văn bản, một hình ảnh được mã hóa Base64, hoặc cả hai đến OpenSearch Service. Văn bản được gửi được sử dụng cho cả tìm kiếm ngữ nghĩa và tìm kiếm theo từ khóa, và hình ảnh được sử dụng cho tìm kiếm ngữ nghĩa.
Pipeline tìm kiếm OpenSearch thực hiện tìm kiếm theo từ khóa bằng cách sử dụng đầu vào văn bản và một tìm kiếm neural bằng cách sử dụng các vector embedding được tạo ra bởi Amazon Bedrock bằng mô hình Titan Multimodal Embeddings G1.
Bộ xử lý chuẩn hóa trong pipeline sẽ điều chỉnh tỷ lệ kết quả tìm kiếm bằng các kỹ thuật như min_max và kết hợp điểm số từ khóa và ngữ nghĩa bằng arithmetic_mean.
Kết quả tìm kiếm đã được xếp hạng được trả về cho client.

Tổng quan các bước thực hiện

Để triển khai giải pháp, hãy hoàn thành các bước cấp cao sau:

Tạo một connector cho Amazon Bedrock trong OpenSearch Service.
Tạo một pipeline tìm kiếm OpenSearch và kích hoạt tìm kiếm kết hợp.
Tạo một index trong OpenSearch Service để lưu trữ các embedding đa phương thức và metadata.
Nhập dữ liệu mẫu vào index của OpenSearch Service.
Tạo các hàm truy vấn OpenSearch Service để kiểm tra chức năng tìm kiếm.

Điều kiện tiên quyết

Để thực hiện hướng dẫn này, bạn cần có các điều kiện tiên quyết sau:

Một tài khoản AWS.
Amazon Bedrock với Amazon Titan Multimodal Embeddings G1 đã được kích hoạt. Để biết thêm thông tin, hãy xem Access Amazon Bedrock foundation models.
Một domain OpenSearch Service. Để được hướng dẫn, hãy xem Getting started with Amazon OpenSearch Service.
Một notebook Amazon SageMaker. Để được hướng dẫn, hãy xem Quick setup for Amazon SageMaker.
Quen thuộc với AWS Identity and Access Management (IAM), Amazon Elastic Compute Cloud (Amazon EC2), OpenSearch Service, và SageMaker.
Quen thuộc với ngôn ngữ lập trình Python.

Mã nguồn mở và được lưu trữ trên GitHub.

Tạo connector cho Amazon Bedrock trong OpenSearch Service

Để sử dụng các connector máy học (ML) của OpenSearch Service với các dịch vụ AWS khác, bạn cần thiết lập một vai trò IAM cho phép truy cập vào dịch vụ đó. Trong phần này, chúng tôi trình bày các bước để tạo một vai trò IAM và sau đó tạo connector.

Tạo vai trò IAM

Hoàn thành các bước sau để thiết lập một vai trò IAM để ủy quyền cho OpenSearch Service truy cập Amazon Bedrock:

Thêm chính sách sau vào vai trò mới để cho phép OpenSearch Service gọi mô hình Amazon Titan Multimodal Embeddings G1:
json { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": "arn:aws:bedrock:region:account-id:foundation-model/amazon.titan-embed-image-v1" } ] }
Sửa đổi chính sách tin cậy của vai trò như sau. Bạn có thể làm theo hướng dẫn trong quản lý vai trò IAM để chỉnh sửa mối quan hệ tin cậy của vai trò.
json { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "opensearchservice.amazonaws.com" }, "Action": "sts:AssumeRole" } ] }

Kết nối mô hình Amazon Bedrock với OpenSearch

Sau khi bạn tạo vai trò, bạn có thể sử dụng Amazon Resource Name (ARN) của vai trò để định nghĩa hằng số trong notebook SageMaker cùng với điểm cuối của domain OpenSearch. Hoàn thành các bước sau:

Đăng ký một nhóm mô hình. Ghi lại ID nhóm mô hình được trả về trong phản hồi để đăng ký một mô hình ở bước sau.
Tạo một connector, giúp tạo điều kiện đăng ký và triển khai các mô hình bên ngoài trong OpenSearch. Phản hồi sẽ chứa ID của connector.
Đăng ký mô hình bên ngoài vào nhóm mô hình và triển khai mô hình. Trong bước này, bạn đăng ký và triển khai mô hình cùng một lúc—bằng cách thiết lập deploy=true, mô hình đã đăng ký cũng sẽ được triển khai.

Tạo pipeline tìm kiếm OpenSearch và kích hoạt hybrid search

Một pipeline tìm kiếm chạy bên trong domain OpenSearch Service và có thể có ba loại bộ xử lý: bộ xử lý yêu cầu tìm kiếm, bộ xử lý phản hồi tìm kiếm, và bộ xử lý kết quả pha tìm kiếm. Đối với pipeline tìm kiếm của chúng tôi, chúng tôi sử dụng bộ xử lý kết quả pha tìm kiếm, chạy giữa các pha tìm kiếm ở cấp độ nút điều phối. Bộ xử lý sử dụng bộ xử lý chuẩn hóa và chuẩn hóa điểm số từ tìm kiếm theo từ khóa và tìm kiếm ngữ nghĩa. Đối với tìm kiếm kết hợp, các kỹ thuật chuẩn hóa min-max và kết hợp arithmetic_mean được ưu tiên, nhưng bạn cũng có thể thử các kỹ thuật chuẩn hóa L2 và kết hợp geometric_mean hoặc harmonic_mean tùy thuộc vào dữ liệu và trường hợp sử dụng của bạn.

payload={
    "phase_results_processors": [
        {
            "normalization-processor": {
                "normalization": {
                    "technique": "min_max"
                },
                "combination": {
                    "technique": "arithmetic_mean",
                    "parameters": {
                        "weights": [
                            OPENSEARCH_KEYWORD_WEIGHT,
                            1 - OPENSEARCH_KEYWORD_WEIGHT
                        ]
                    }
                }
            }
        }
    ]
}
response = requests.put(
url=f"{OPENSEARCH_ENDPOINT}/_search/pipeline/"+OPENSEARCH_SEARCH_PIPELINE_NAME,
        json=payload,
        headers={"Content-Type": "application/json"},
        auth=open_search_auth
)

Tạo index trong OpenSearch Service để lưu trữ vector embedding đa phương thức và metadata

Đối với bài đăng này, chúng tôi sử dụng Amazon Berkley Objects Dataset, là một bộ sưu tập gồm 147.702 danh sách sản phẩm với metadata đa ngôn ngữ và 398.212 hình ảnh danh mục độc đáo. Trong ví dụ này, chúng tôi chỉ sử dụng Shoes và các danh sách bằng en_US như được hiển thị trong phần Prepare listings dataset for Amazon OpenSearch ingestion của notebook.

Sử dụng đoạn mã sau để tạo một index OpenSearch để nhập dữ liệu mẫu:

response = opensearch_client.indices.create(
    index=OPENSEARCH_INDEX_NAME,
    body={
        "settings": {
            "index.knn": True,
            "number_of_shards": 2
        },
        "mappings": {
            "properties": {
                "amazon_titan_multimodal_embeddings": {
                    "type": "knn_vector",
                    "dimension": 1024,
                    "method": {
                        "name": "hnsw",
                        "engine": "lucene",
                        "parameters": {}
                    }
                }
            }
        }
    }
)

Nhập dữ liệu mẫu vào index của OpenSearch Service

Trong bước này, bạn chọn các đặc trưng liên quan được sử dụng để tạo embedding. Các hình ảnh được chuyển đổi sang Base64. Sự kết hợp của một đặc trưng đã chọn và một hình ảnh Base64 được sử dụng để tạo ra các embedding đa phương thức, được lưu trữ trong index của OpenSearch Service cùng với metadata bằng cách sử dụng một thao tác hàng loạt (bulk operation) của OpenSearch, và nhập các danh sách theo lô.

Tạo các hàm truy vấn OpenSearch Service để kiểm tra chức năng tìm kiếm

Với dữ liệu mẫu đã được nhập, bạn có thể chạy các truy vấn trên dữ liệu này để kiểm tra chức năng tìm kiếm kết hợp. Để tạo điều kiện thuận lợi cho quá trình này, chúng tôi đã tạo các hàm trợ giúp để thực hiện các truy vấn trong phần luồng truy vấn của notebook. Trong phần này, bạn sẽ khám phá các phần cụ thể của các hàm phân biệt các phương thức tìm kiếm.

Tìm kiếm theo từ khóa

Đối với tìm kiếm theo từ khóa, hãy gửi payload sau đến điểm cuối tìm kiếm của domain OpenSearch:

payload = {
    "query": {
        "multi_match": { 
            "query": query_text,
        }
    },
}

Tìm kiếm ngữ nghĩa

Đối với tìm kiếm ngữ nghĩa, bạn có thể gửi văn bản và hình ảnh như một phần của payload. Model_id trong yêu cầu là mô hình embedding bên ngoài mà bạn đã kết nối trước đó. OpenSearch sẽ gọi mô hình và chuyển đổi văn bản và hình ảnh thành các embedding.

payload = {
    "query": {
        "neural": {
            "vector_embedding": {
                "query_text": query_text,
                "query_image": query_jpg_image,
                "model_id": model_id,
                "k": 5
            }
        }
    }
}

Tìm kiếm kết hợp (Hybrid search)

Phương pháp này sử dụng pipeline OpenSearch mà bạn đã tạo. Payload có cả tìm kiếm ngữ nghĩa và tìm kiếm neural.

payload = {
"query": {
    "hybrid": {
        "queries": [
                {
                    "multi_match": { 
                            "query": query_text,
                        }
                },
                {
                    "neural": {
                        "vector_embedding": {
                            "query_text": query_text,
                            "query_image": query_jpg_image,
                            "model_id": model_id,
                            "k": 5
                        }
                    }
                }
            ]
        }
    }
}

Kiểm tra các phương thức tìm kiếm

Để so sánh nhiều phương thức tìm kiếm, bạn có thể truy vấn index bằng query_text cung cấp thông tin cụ thể về đầu ra mong muốn, và query_jpg_image cung cấp sự trừu tượng tổng thể về kiểu dáng mong muốn của đầu ra.

query_text = "leather sandals in Petal Blush"
search_image_path = '16/16e48774.jpg'

Tìm kiếm theo từ khóa

Đầu ra sau đây liệt kê ba kết quả tìm kiếm theo từ khóa hàng đầu. Tìm kiếm theo từ khóa đã xác định thành công leather sandals (dép sandal da) màu Petal Blush, nhưng nó không xem xét đến kiểu dáng mong muốn.

--------------------------------------------------------------------------------------------------------------------------------
Score: 8.4351      Item ID: B01MYDNG7C
Item Name: Amazon Brand - The Fix Women's Cantu Ruffle Ankle Wrap Dress Sandal, Petal Blush, 9.5 B US
Fabric Type: Leather     Material: None      Color: Petal Blush  Style: Cantu Ruffle Ankle Wrap Sandal
--------------------------------------------------------------------------------------------------------------------------------
Score: 8.4351      Item ID: B06XH8M37Q
Item Name: Amazon Brand - The Fix Women's Farah Single Buckle Platform Dress Sandal, Petal Blush, 6.5 B US
Fabric Type: 100% Leather     Material: None      Color: Petal Blush  Style: Farah Single Buckle Platform Sandal
--------------------------------------------------------------------------------------------------------------------------------
Score: 8.4351      Item ID: B01MSCV2YB
Item Name: Amazon Brand - The Fix Women's Conley Lucite Heel Dress Sandal,Petal Blush,7.5 B US
Fabric Type: Leather     Material: Suede     Color: Petal Blush  Style: Conley Lucite Heel Sandal
--------------------------------------------------------------------------------------------------------------------------------

Tìm kiếm ngữ nghĩa

Tìm kiếm ngữ nghĩa đã xác định thành công leather sandal và xem xét kiểu dáng mong muốn. Tuy nhiên, sự tương đồng với các hình ảnh được cung cấp được ưu tiên hơn so với màu sắc cụ thể được cung cấp trong query_text.

--------------------------------------------------------------------------------------------------------------------------------
Score: 0.7072      Item ID: B01MZF96N7
Item Name: Amazon Brand - The Fix Women's Bonilla Block Heel Cutout Tribal Dress Sandal, Havana Tan, 7 B US
Fabric Type: Leather     Material: Suede     Color: Havana Tan   Style: Bonilla Block Heel Cutout Tribal Sandal
--------------------------------------------------------------------------------------------------------------------------------
Score: 0.7018      Item ID: B01MUG3C0Q
Item Name: Amazon Brand - The Fix Women's Farrell Triangle-Cutout Square Toe Flat Dress Sandal, Light Rose/Gold, 7.5 B US
Fabric Type: Synthetic     Material: Leather   Color: Light Rose/Gold  Style: Farrell Cutout Tribal Square Toe Flat Sandal
--------------------------------------------------------------------------------------------------------------------------------
Score: 0.6858      Item ID: B01MYDNG7C
Item Name: Amazon Brand - The Fix Women's Cantu Ruffle Ankle Wrap Dress Sandal, Petal Blush, 9.5 B US
Fabric Type: Leather     Material: None      Color: Petal Blush  Style: Cantu Ruffle Ankle Wrap Sandal
--------------------------------------------------------------------------------------------------------------------------------

Tìm kiếm kết hợp (Hybrid search)

Tìm kiếm kết hợp trả về kết quả tương tự như tìm kiếm ngữ nghĩa vì chúng sử dụng cùng một mô hình embedding. Tuy nhiên, bằng cách kết hợp đầu ra của tìm kiếm theo từ khóa và tìm kiếm ngữ nghĩa, xếp hạng của đôi sandal màu Petal Blush phù hợp nhất với query_jpg_image tăng lên, đưa nó lên đầu danh sách kết quả.

--------------------------------------------------------------------------------------------------------------------------------
Score: 0.6838      Item ID: B01MYDNG7C
Item Name: Amazon Brand - The Fix Women's Cantu Ruffle Ankle Wrap Dress Sandal, Petal Blush, 9.5 B US
Fabric Type: Leather     Material: None      Color: Petal Blush  Style: Cantu Ruffle Ankle Wrap Sandal
--------------------------------------------------------------------------------------------------------------------------------
Score: 0.6      Item ID: B01MZF96N7
Item Name: Amazon Brand - The Fix Women's Bonilla Block Heel Cutout Tribal Dress Sandal, Havana Tan, 7 B US
Fabric Type: Leather     Material: Suede     Color: Havana Tan   Style: Bonilla Block Heel Cutout Tribal Sandal
--------------------------------------------------------------------------------------------------------------------------------
Score: 0.5198      Item ID: B01MUG3C0Q
Item Name: Amazon Brand - The Fix Women's Farrell Triangle-Cutout Square Toe Flat Dress Sandal, Light Rose/Gold, 7.5 B US
Fabric Type: Synthetic     Material: Leather   Color: Light Rose/Gold  Style: Farrell Cutout Tribal Square Toe Flat Sandal
--------------------------------------------------------------------------------------------------------------------------------

Dọn dẹp tài nguyên

Sau khi bạn hoàn thành hướng dẫn này, hãy dọn dẹp tất cả các tài nguyên bạn đã tạo như một phần của bài đăng này. Đây là một bước quan trọng để đảm bảo bạn không phải chịu bất kỳ khoản phí không mong muốn nào. Nếu bạn đã sử dụng một domain OpenSearch Service hiện có, trong phần Cleanup của notebook, chúng tôi cung cấp các hành động dọn dẹp được đề xuất, bao gồm xóa index, hủy triển khai mô hình, xóa mô hình, xóa nhóm mô hình và xóa connector Amazon Bedrock. Nếu bạn đã tạo một domain OpenSearch Service dành riêng cho bài tập này, bạn có thể bỏ qua các hành động này và xóa domain.

Kết luận

Trong bài đăng này, chúng tôi đã giải thích cách triển khai tìm kiếm kết hợp đa phương thức bằng cách kết hợp khả năng tìm kiếm theo từ khóa và tìm kiếm ngữ nghĩa sử dụng Amazon Bedrock và Amazon OpenSearch Service. Chúng tôi đã giới thiệu một giải pháp sử dụng Amazon Titan Multimodal Embeddings G1 để tạo ra các embedding cho văn bản và hình ảnh, cho phép người dùng tìm kiếm bằng cả hai phương thức. Cách tiếp cận kết hợp này kết hợp thế mạnh của tìm kiếm theo từ khóa và tìm kiếm ngữ nghĩa, mang lại kết quả chính xác và phù hợp cho khách hàng.

Chúng tôi khuyến khích bạn thử nghiệm notebook trong tài khoản của riêng mình và có được trải nghiệm trực tiếp với các biến thể tìm kiếm kết hợp. Ngoài các kết quả được hiển thị trong bài đăng này, chúng tôi cung cấp một vài biến thể trong notebook. Nếu bạn quan tâm đến việc sử dụng các mô hình embedding tùy chỉnh trong Amazon SageMaker AI, hãy xem Hybrid Search with Amazon OpenSearch Service. Nếu bạn muốn một giải pháp chỉ cung cấp tìm kiếm ngữ nghĩa, hãy xem Build a contextual text and image search engine for product recommendations using Amazon Bedrock and Amazon OpenSearch Serverless và Build multimodal search with Amazon OpenSearch Service.

Về tác giả

Renan Bertolazzi là một Kiến trúc sư Giải pháp Doanh nghiệp giúp khách hàng nhận ra tiềm năng của điện toán đám mây trên AWS. Trong vai trò này, Renan là một nhà lãnh đạo kỹ thuật tư vấn cho các giám đốc điều hành và kỹ sư về các giải pháp và chiến lược đám mây được thiết kế để đổi mới, đơn giản hóa và mang lại kết quả.

Birender Pal là một Kiến trúc sư Giải pháp Cấp cao tại AWS, nơi ông làm việc với các khách hàng doanh nghiệp chiến lược để thiết kế các kiến trúc đám mây có khả năng mở rộng, an toàn và linh hoạt. Ông hỗ trợ các sáng kiến chuyển đổi số với trọng tâm là hiện đại hóa dựa trên nền tảng đám mây, máy học và AI tạo sinh. Ngoài công việc, Birender thích thử nghiệm các công thức nấu ăn từ khắp nơi trên thế giới.

Sarath Krishnan là một Kiến trúc sư Giải pháp Cấp cao tại Amazon Web Services. Ông đam mê việc hỗ trợ các khách hàng doanh nghiệp trong hành trình chuyển đổi số của họ. Sarath có nhiều kinh nghiệm trong việc kiến trúc các ứng dụng có tính sẵn sàng cao, khả năng mở rộng, hiệu quả về chi phí và linh hoạt trên đám mây. Lĩnh vực tập trung của ông bao gồm DevOps, máy học, MLOps và AI tạo sinh.

Kết hợp tìm kiếm theo từ khóa và tìm kiếm ngữ nghĩa cho văn bản và hình ảnh bằng Amazon Bedrock và Amazon OpenSearch Service

Tổng quan về giải pháp

Luồng nhập dữ liệu

Luồng truy vấn

Tổng quan các bước thực hiện

Điều kiện tiên quyết

Tạo connector cho Amazon Bedrock trong OpenSearch Service

Tạo vai trò IAM

Kết nối mô hình Amazon Bedrock với OpenSearch

Tạo pipeline tìm kiếm OpenSearch và kích hoạt hybrid search

Tạo index trong OpenSearch Service để lưu trữ vector embedding đa phương thức và metadata

Nhập dữ liệu mẫu vào index của OpenSearch Service

Tạo các hàm truy vấn OpenSearch Service để kiểm tra chức năng tìm kiếm

Tìm kiếm theo từ khóa

Tìm kiếm ngữ nghĩa

Tìm kiếm kết hợp (Hybrid search)

Kiểm tra các phương thức tìm kiếm

Tìm kiếm theo từ khóa

Tìm kiếm ngữ nghĩa

Tìm kiếm kết hợp (Hybrid search)

Dọn dẹp tài nguyên

Kết luận

Về tác giả

Share this:

Leave a comment Cancel reply