Milvus Hello 테스트 (in Python)




Milvus database에 접근하고 사용 테스트를 하기 위한 Hello Milvus에 대하여 테스트를 진행한 내용을 정리합니다.


준비 사항

Milvus Database

Milvus Database가 구성되고 구동되어야 합니다.

Docker 환경에서 Milvus 구성은 아래 글을 참고하시면 되겠습니다.

PyMilvus

Python이 설치되어 있어야 하고 pymilvus 라이브러리를 설치해야 합니다.

pip install pymilvus

Hello Milvus 예제

전체 예제 코드는 아래 링크에서 다운로드를 할 수 있습니다.

https://raw.githubusercontent.com/milvus-io/pymilvus/master/examples/hello_milvus.py


pymilvus 라이브러리 로드

from pymilvus import (
    connections,
    utility,
    FieldSchema,
    CollectionSchema,
    DataType,
    Collection,
)

Milvus Database 연결 및 db 확인

connections.connect("default", host="localhost", port="19530")
print(db.list_database())

실행 결과

['default']

Milvus Database에 연결하고 데이터베이스를 조회한 결과 default 데이터베이스가 조회 된 것을 확인할 수 있습니다.


Collection 생성

fields = [
    FieldSchema(name="pk", dtype=DataType.INT64, is_primary=True, auto_id=False),
    FieldSchema(name="random", dtype=DataType.DOUBLE),
    FieldSchema(name="embeddings", dtype=DataType.FLOAT_VECTOR, dim=8)
]
schema = CollectionSchema(fields, "hello_milvus is the simplest demo to introduce the APIs")
hello_milvus = Collection("hello_milvus", schema)

print(hello_milvus)

실행 결과

<Collection>:
-------------
<name>: hello_milvus
<description>: hello_milvus is the simplest demo to introduce the APIs
<schema>: {'auto_id': False, 'description': 'hello_milvus is the simplest demo to introduce the APIs', 'fields': [{'name': 'pk', 'description': '', 'type': <DataType.INT64: 5>, 'is_primary': True, 'auto_id': False}, {'name': 'random', 'description': '', 'type': <DataType.DOUBLE: 11>}, {'name': 'embeddings', 'description': '', 'type': <DataType.FLOAT_VECTOR: 101>, 'params': {'dim': 8}}]}

벡터 삽입

import random
entities = [
    [i for i in range(3000)],  # field pk
    [float(random.randrange(-20, -10)) for _ in range(3000)],  # field random
    [[random.random() for _ in range(8)] for _ in range(3000)],  # field embeddings
]
insert_result = hello_milvus.insert(entities)

hello_milvus.flush()

인덱스 생성

index = {
    "index_type": "IVF_FLAT",
    "metric_type": "L2",
    "params": {"nlist": 128},
}
hello_milvus.create_index("embeddings", index)

컬렉션 로드

hello_milvus.load()
vectors_to_search = entities[-1][-2:]
search_params = {
    "metric_type": "L2",
    "params": {"nprobe": 10},
}

데이터 검색

result = hello_milvus.search(vectors_to_search, "embeddings", search_params, limit=3, output_fields=["random"])

print(result)

## Performs a vector query:
result = hello_milvus.query(expr="random > -14", output_fields=["random", "embeddings"])

print(result)

## Performs a hybrid search:
result = hello_milvus.search(vectors_to_search, "embeddings", search_params, limit=3, expr="random > -12", output_fields=["random"])

print(result)

실행 결과

['["id: 2998, distance: 0.0, entity: {\'random\': -12.0}", "id: 2537, distance: 0.09093567728996277, entity: {\'random\': -14.0}", "id: 430, distance: 0.09432005882263184, entity: {\'random\': -18.0}"]', '["id: 2999, distance: 0.0, entity: {\'random\': -13.0}", "id: 146, distance: 0.08471463620662689, entity: {\'random\': -14.0}", "id: 2609, distance: 0.08961472660303116, entity: {\'random\': -11.0}"]']
[{'random': -12.0, 'embeddings': [0.6246477, 0.7251672, 0.4229169, 0.9944639, 0.804582, 0.9752935, 0.074734665, 0.82211244], 'pk': 0}, {'random': -13.0, 'embeddings': [0.7267409, 0.42814532, 0.99159247, 0.6026791, 0.5443342, 0.426863, 0.27668306, 0.12794147], 'pk': 1}, {'random': -13.0, 'embeddings': [0.78658336, 0.92757577, 0.60359055, 0.7733585, 0.16429739, 0.98733056, 
0.9273752, 0.7715088], 'pk': 2}, {'random': -12.0, 'embeddings': [0.25983393, 0.71323156, 0.26812908, 0.73786414, 0.5596036, 0.9684084, 0.36430225, 0.53974384], 'pk': 3}, {'random': -13.0, 'embeddings': [0.3771618, 0.50592077, 0.64741313, 0.31113312, 0.29503757, 0.77268535, 0.39795703, 0.42706978], 'pk': 4}, {'random': -12.0, 'embeddings': [0.7546736, 0.16820155, 0.49241695, 0.55267423, 0.49338478, 0.34965357, 0.39556804, 0.92252123], 'pk': 5},
...
['["id: 1196, distance: 0.16502761840820312, entity: {\'random\': -11.0}", "id: 1089, distance: 0.18127329647541046, entity: {\'random\': -11.0}", "id: 279, distance: 0.22949276864528656, entity: {\'random\': -11.0}"]', '["id: 2236, distance: 0.04837057739496231, entity: {\'random\': -11.0}", "id: 2235, distance: 0.12667430937290192, entity: {\'random\': -11.0}", "id: 1313, distance: 0.12770120799541473, entity: {\'random\': -11.0}"]']

키로 항목 삭제

expr = f"pk in [{entities[0]}, {entities[1]}]"
hello_milvus.delete(expr)

Collection 삭제

utility.drop_collection("hello_milvus")

전체 코드

## Imports a PyMilvus package:
from pymilvus import (
    connections,
    utility,
    FieldSchema,
    CollectionSchema,
    DataType,
    Collection,
    db,
)

## Connects to a server:
conn = connections.connect("default", host="localhost", port="19530")

print(conn)
print(db.list_database())


## Creates a collection:
fields = [
    FieldSchema(name="pk", dtype=DataType.INT64, is_primary=True, auto_id=False),
    FieldSchema(name="random", dtype=DataType.DOUBLE),
    FieldSchema(name="embeddings", dtype=DataType.FLOAT_VECTOR, dim=8)
]
schema = CollectionSchema(fields, "hello_milvus is the simplest demo to introduce the APIs")
hello_milvus = Collection("hello_milvus", schema)

print(hello_milvus)


## Inserts vectors in the collection:
import random
entities = [
    [i for i in range(3000)],  # field pk
    [float(random.randrange(-20, -10)) for _ in range(3000)],  # field random
    [[random.random() for _ in range(8)] for _ in range(3000)],  # field embeddings
]
insert_result = hello_milvus.insert(entities)

# After final entity is inserted, it is best to call flush to have no growing segments left in memory
hello_milvus.flush()

### Builds indexes on the entities:
index = {
    "index_type": "IVF_FLAT",
    "metric_type": "L2",
    "params": {"nlist": 128},
}
hello_milvus.create_index("embeddings", index)

## Loads the collection to memory and performs a vector similarity search:
hello_milvus.load()
vectors_to_search = entities[-1][-2:]
search_params = {
    "metric_type": "L2",
    "params": {"nprobe": 10},
}
result = hello_milvus.search(vectors_to_search, "embeddings", search_params, limit=3, output_fields=["random"])

## Performs a vector query:
result = hello_milvus.query(expr="random > -14", output_fields=["random", "embeddings"])

## Performs a hybrid search:
result = hello_milvus.search(vectors_to_search, "embeddings", search_params, limit=3, expr="random > -12", output_fields=["random"])

## Deletes entities by their primary keys:
expr = f"pk in [{entities[0]}, {entities[1]}]"
hello_milvus.delete(expr)

## Drops the collection:
utility.drop_collection("hello_milvus")

마치며

milvus에서 제공하는 예제 코드를 실행하고 정리해 보았습니다.

전반적으로 다 이해가 되진 않은 상태로 milvus에서 제공되는 문서를 확인하고 이해할 수 있도록 많은 테스트를 수행해 봐야 하겠습니다.


참고 자료




Leave a Comment