Cơ sở dữ liệu trước

Đường thời gian

Vespa là một trong những nhà sản xuất đầu tiên tham gia tìm kiếm lượt lượng cạnh các thuật toán tìm kiếm từ khóa BM25.

Weaviate sau đó đã cho ra mắt một sản phẩm cơ sở dữ liệu tìm kiếm nguồn mở chuyên biệt vào cuối năm 2018.

Đến năm 2019, chúng ta bắt đầu chứng kiến sự cạnh tranh nhiều hơn trong lĩnh vực này, trong đó có Milius (cũng là nguồn mở). Zilliz là công ty mẹ của Milivus.

Vào năm 2021, có thêm 3 nhà cung cấp mới tham gia cạnh tranh: Vald, Qdrant và Pencone.

Cho đến thời điểm này, các nhà sản xuất bài bản cũ như Elstics, Redis và Postgre QL mới bắt đầu cung cấp tìm kiếm theo lượng phát lượng, muộn hơn nhiều so với những gì người ta tưởng tượng, chỉ sau năm 2022 và sau đó.

Nguồn mở và thương mại

Thương mại: Pencone và Zilliz

Hình thức bổ sung

Được rồi.
Redis Stack.

Xin lỗi.

Một cơ sở dữ liệu hỗ trợ cùng lúc:

Cơ sở dữ liệu quan hệ: RDS
Cơ sở dữ liệu cung cấp:pgvector
Cơ sở dữ liệu trình tự thời gian: Cơ sở dữ liệu thời gian đóng vai trò quan trọng trong việc lọc siêu dữ liệu, nó là một cơ sở dữ liệu ghi lại các sự kiện và diễn biến thời gian, rất nhanh cho việc tìm kiếm các chuỗi thời gian. Trong ứng dụng RAG, nếu hồ sơ kiến thức ngành công nghiệp được cắt ra vài chục nghìn thì việc sử dụng lọc thời gian sẽ rất quan trọng, ví dụ như chúng ta chỉ cần lấy hồ sơ hợp đồng tháng 3 năm 2023, thì có thể dùng dữ liệu theo thời gian để lấy mục tiêu Chink từ vài chục nghìn trở lên, rồi tính toán đo lường.

Bổ sung TimeScale Vector

Tìm kiếm sự tương đồng nhanh hơn với hàng triệu lượt xem: Hỗ trợ * DiskAN* * Thuật toán * HNSW* * Thuật toán *

-* TimeScale Vector tối ưu hóa các truy vấn tìm kiếm dựa trên thời gian: * Tự động sử dụng siêu đồng hồ của TimeScale dựa trên các phân vùng và chỉ mục thời gian, tìm ra một cách hiệu quả hơn Embeddings, tìm kiếm thông qua phạm vi thời gian hoặc tài liệu tồn tại theo thời gian và dễ dàng lưu trữ và lấy lại các mô hình ngôn ngữ lớn (LLM) để đáp ứng và tìm kiếm lịch sử cuộc trò chuyện. Tìm kiếm dựa trên nghĩa thời gian cũng cho phép bạn có thể sử dụng * tra cứu sự gia tăng khả năng tìm kiếm * * (Revival Augmented Generation, * RAG*) và tra cứu ngữ cảnh dựa trên thời gian để cung cấp đáp ứng LLM hữu ích hơn cho người dùng. -** Cơ sở hạ tầng AI được đơn giản hóa:** Bằng cách sử dụng * tiên lượng * , * Dữ liệu quan hệ * và * Dữ liệu chuỗi thời gian * trong một cơ sở dữ liệu PostScript SQL, * đã loại bỏ sự phức tạp trong việc quản lý hàng loạt hệ thống cơ sở dữ liệu. - Đơn giản hóa việc xử lý siêu dữ liệu và lọc đa thuộc tính: * Các nhà phát triển có thể sử dụng tất cả các loại dữ liệu Postgre QL để lưu trữ và lọc các siêu dữ liệu và kết nối các kết quả tìm kiếm với dữ liệu quan hệ để có thêm nhiều phản hồi liên quan đến ngữ cảnh. Trong phiên bản sắp tới, TimeScale Vector sẽ được tối ưu thêm lọc đa tính năng phong phú, thực hiện tìm kiếm tương đồng nhanh hơn khi lọc siêu dữ liệu.

Cơ sở dữ liệu đo lường mà Lalama Index đã sắp xếp

链接

- Vector Store Option & Feature support* *

Vector Store	Type	Metadata Filtering	Hybrid Search	Delete	Store Documents	Async
Apache Cassandra®	self-hosted / cloud	✓		✓	✓
Astra DB	cloud	✓		✓	✓
Azure Cognitive Search	cloud		✓	✓	✓
Azure CosmosDB MongoDB	cloud			✓	✓
ChatGPT Retrieval Plugin	aggregator			✓	✓
Chroma	self-hosted	✓		✓	✓
DashVector	cloud	✓	✓	✓	✓
Deeplake	self-hosted / cloud	✓		✓	✓
DocArray	aggregator	✓		✓	✓
DynamoDB	cloud			✓
Elasticsearch	self-hosted / cloud	✓	✓	✓	✓	✓
FAISS	in-memory
txtai	in-memory
Jaguar	self-hosted / cloud	✓	✓	✓	✓
LanceDB	cloud	✓		✓	✓
Lantern	self-hosted / cloud	✓	✓	✓	✓	✓
Metal	cloud	✓		✓	✓
MongoDB Atlas	self-hosted / cloud	✓		✓	✓
MyScale	cloud	✓	✓	✓	✓
Milvus / Zilliz	self-hosted / cloud	✓		✓	✓
Neo4jVector	self-hosted / cloud			✓	✓
OpenSearch	self-hosted / cloud	✓		✓	✓
Pinecone	cloud	✓	✓	✓	✓
Postgres	self-hosted / cloud	✓	✓	✓	✓	✓
pgvecto.rs	self-hosted / cloud	✓	✓	✓	✓
Qdrant	self-hosted / cloud	✓	✓	✓	✓	✓
Redis	self-hosted / cloud	✓		✓	✓
Simple	in-memory	✓		✓
SingleStore	self-hosted / cloud	✓		✓	✓
Supabase	self-hosted / cloud	✓		✓	✓
Tair	cloud	✓		✓	✓
TencentVectorDB	cloud	✓	✓	✓	✓
Timescale		✓		✓	✓	✓
Typesense	self-hosted / cloud	✓		✓	✓
Weaviate	self-hosted / cloud	✓	✓	✓	✓

Phần lớn cơ sở dữ liệu được hỗ trợ

ector Store	Type	Metadata Filtering	Hybrid Search	Delete	Store Documents	Async
DashVector	cloud	✓	✓	✓	✓
Elasticsearch	self-hosted / cloud	✓	✓	✓	✓	✓	总觉得比较重
Jaguar	self-hosted / cloud	✓	✓	✓	✓
Lantern	self-hosted / cloud	✓	✓	✓	✓	✓
MyScale	cloud	✓	✓	✓	✓
Pinecone	cloud	✓	✓	✓	✓
Postgres	self-hosted / cloud	✓	✓	✓	✓	✓
pgvecto.rs	self-hosted / cloud	✓	✓	✓	✓
Qdrant	self-hosted / cloud	✓	✓	✓	✓	✓	创始人好像出走了
TencentVectorDB	cloud	✓	✓	✓	✓
Weaviate	self-hosted / cloud	✓	✓	✓	✓

Elasticsearch：总觉得比较重

Postgress：先从最简单的开始吧。

Qdrant：创始人好像出走了。

Sự tương phản của Lang Chain đối với cơ sở dữ liệu

原文

数据库名称	应用场景
HNSWLib, Faiss, LanceDB, CloseVector	如果你需要一个可以在你的Node.js应用程序中运行的内存数据库，无需其他服务器
MemoryVectorStore, CloseVector	如果你在寻找一个可以在类似浏览器的环境中内存中运行的东西
HNSWLib, Faiss	如果你来自Python，并且你在寻找类似于FAISS的东西
Chroma	如果你在寻找一个开源的、功能全面的向量数据库，可以在docker容器中本地运行
Zep	如果你在寻找一个开源的向量数据库，提供低延迟、本地嵌入文档支持，并且支持边缘上的应用
Weaviate	如果你在寻找一个开源的、生产就绪的向量数据库，可以在docker容器中本地运行或在云中托管
Supabase vector store	如果你已经在使用Supabase，看看Supabase向量存储，使用同一个Postgres数据库来存储你的嵌入
Pinecone	如果你在寻找一个生产就绪的向量存储，你不必担心自己托管
SingleStore vector store	如果你已经在使用SingleStore，或者你需要一个分布式、高性能的数据库，你可能会考虑SingleStore向量存储
AnalyticDB vector store	如果你在寻找一个在线MPP（大规模并行处理）数据仓库服务，你可能会考虑AnalyticDB向量存储
MyScale	如果你在寻找一个性价比高的向量数据库，允许使用SQL进行向量搜索
CloseVector	如果你在寻找一个可以从浏览器和服务器端加载的向量数据库，看看CloseVector。它是一个旨在跨平台的向量数据库
ClickHouse	如果你在寻找一个可扩展的、开源的列式数据库，对于分析查询有着出色的性能