ฐานข้อมูลวัดค่า
ไทม์ไลน์
Vespa เป็นผู้จําหน่ายรายแรกๆ ที่เข้าร่วมกับการค้นหาแบบวัดความเหมือน ถัดจากอัลกอริธึมค้นหาด้วยคีย์เวิร์ด BM25 กระแสหลัก
หลังจากนั้น Weaviate ได้เปิดตัวผลิตภัณฑ์ฐานข้อมูลการค้นหาข้อมูลแบบโอเพนซอร์สโดยเฉพาะในช่วงปลายปี 2018
ในปี 2019 เราเริ่มเห็นการแข่งขันมากขึ้นในภาคนี้ รวมถึง Milvus (และเป็นโอเพนซอร์สด้วย) Zilliz เป็นบริษัทแม่ของ Milvus
ในปี 2021 มีซัพพลายเออร์รายใหม่เข้ามาแข่งขันอีก 3 ราย คือ Vald, Qdrant และ Pinecone
จนกระทั่งเวลานี้ผู้จําหน่ายป้ายเก่าอย่าง Elastics earch, Redis และ Postgre SQL ได้เริ่มให้บริการค้นหาวัดปริมาณ ช้ากว่าที่คนทั่วไปคิด และเพิ่งจะเริ่มต้นในปี 2022 และหลังจากนั้นเท่านั้น
โอเพนซอร์สและธุรกิจ
พาณิชย์ : Pinecone และ Zilliz
รูปแบบปลั๊กอิน
- pgvector
- Redis Stack
Postgress
ฐานข้อมูลหนึ่งรองรับพร้อมกัน:
- ฐานข้อมูลความสัมพันธ์: RDS
- ฐานข้อมูลวัดค่า: pgvector
- ฐานข้อมูลลําดับเวลา : ฐานข้อมูลลําดับเวลามีบทบาทอย่างมากในการกรองข้อมูลกํากับ ซึ่งเป็นฐานข้อมูลที่บันทึกเหตุการณ์และเวลาที่เกิดขึ้น สําหรับการค้นหาลําดับเวลารวดเร็วมาก ในแอพพลิเคชั่น RAG หากไฟล์ความรู้ในอุตสาหกรรมถูกแยกออกเป็น 2-3 หมื่นราย การกรองเวลาใช้งานจะมีความสําคัญมาก เช่น เราจําเป็นต้องรับไฟล์สัญญาเดือนมี.ค. 2023 เท่านั้น ก็จะสามารถกําหนดเป้าหมาย chunk ได้จากจํานวน 2-3 หมื่นราย และคํานวณค่าทิศทางได้

ส่วนเสริม Timescale Vector
การค้นหาความเหมือนที่เร็วขึ้นของปริมาณการเคลื่อนที่นับล้าน: สนับสนุนอัลกอริธึม 'DiskANN'*** HNSW*อัลกอริธึม 'HNSW' ของอัลกอริทึม 'HNSW'
- Timescale Vector ปรับแต่งการค้นหาตามปริมาณเวลา: * * ใช้พาร์ติชันและดัชนีของนาฬิกาซูเปอร์ไทม์ของ Timescale โดยอัตโนมัติ มีประสิทธิภาพในการหา Embeddings ที่ใกล้ที่สุด ค้นหาโดยขอบเขตของเวลาหรือเอกสารที่มีปีที่ผูกพันอยู่ และจัดเก็บและรับข้อมูลแบบจําลองภาษาขนาดใหญ่ (LLM) ตอบสนองและสนทนาได้อย่างมีประสิทธิภาพ การค้นหาในความหมายตามกาลเวลายังช่วยให้คุณสามารถใช้ "การดึงข้อมูลการสร้างการสร้างเพิ่มเติม" (Retrival Augmented Generation, "RAG") และ "RAG" (RaG*) และการรับบริบทตามกาลเวลา เพื่อเพิ่มการตอบสนองให้กับผู้ใช้ด้วย LLM ที่มีประโยชน์มากขึ้น
-
- โครงสร้างพื้นฐาน AI ที่เรียบง่าย: * จัดการโดยการนํา * ไปยังปริมาณ Embeddings* * ข้อมูลประเภทความสัมพันธ์* และ * ข้อมูลลําดับเวลา* รวมกันในฐานข้อมูล Postgre SQL ของ Timescale vctor ขจัดความซับซ้อนของการดําเนินงานซึ่งเกิดจากการจัดการระบบฐานข้อมูลหลายระบบครั้งใหญ่ · ข้อมูลลําดับเวลา (Postgre SQL) ของ Timescale vector ขจัดความซับซ้อนของการดําเนินงานที่เกิดจากการจัดการระบบฐานข้อมูลหลายระบบ
-
- การประมวลผลข้อมูลกํากับภาพแบบย่อ และการกรองข้อมูลหลายคุณสมบัติ: * นักพัฒนาสามารถใช้ข้อมูล Postgre SQL ทั้งหมดเพื่อจัดเก็บและกรองข้อมูลกํากับภาพได้ และจะเชื่อมต่อกับผลการค้นหาข้อมูลเชิงปริมาณกับข้อมูลความสัมพันธ์ เพื่อตอบสนองบริบทที่เกี่ยวข้องมากขึ้น ในรุ่นในอนาคต Timescale Vector จะปรับแต่งการกรองหลายคุณสมบัติให้สมบูรณ์ยิ่งขึ้น และในการค้นหาข้อมูลกํากับภาพนั้นมีความเหมือนเร็วขึ้นเมื่อกรองข้อมูลกํากับภาพด้วยข้อมูลกํากับภาพ (Timescale Vector)
ฐานข้อมูลวัดค่าทิศทางของการจัดระเบียบ Llama Index
*** Victor Store Options & Feature Support*
Vector Store | Type | Metadata Filtering | Hybrid Search | Delete | Store Documents | Async |
---|---|---|---|---|---|---|
Apache Cassandra® | self-hosted / cloud | ✓ | ✓ | ✓ | ||
Astra DB | cloud | ✓ | ✓ | ✓ | ||
Azure Cognitive Search | cloud | ✓ | ✓ | ✓ | ||
Azure CosmosDB MongoDB | cloud | ✓ | ✓ | |||
ChatGPT Retrieval Plugin | aggregator | ✓ | ✓ | |||
Chroma | self-hosted | ✓ | ✓ | ✓ | ||
DashVector | cloud | ✓ | ✓ | ✓ | ✓ | |
Deeplake | self-hosted / cloud | ✓ | ✓ | ✓ | ||
DocArray | aggregator | ✓ | ✓ | ✓ | ||
DynamoDB | cloud | ✓ | ||||
Elasticsearch | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ |
FAISS | in-memory | |||||
txtai | in-memory | |||||
Jaguar | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | |
LanceDB | cloud | ✓ | ✓ | ✓ | ||
Lantern | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ |
Metal | cloud | ✓ | ✓ | ✓ | ||
MongoDB Atlas | self-hosted / cloud | ✓ | ✓ | ✓ | ||
MyScale | cloud | ✓ | ✓ | ✓ | ✓ | |
Milvus / Zilliz | self-hosted / cloud | ✓ | ✓ | ✓ | ||
Neo4jVector | self-hosted / cloud | ✓ | ✓ | |||
OpenSearch | self-hosted / cloud | ✓ | ✓ | ✓ | ||
Pinecone | cloud | ✓ | ✓ | ✓ | ✓ | |
Postgres | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ |
pgvecto.rs | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | |
Qdrant | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ |
Redis | self-hosted / cloud | ✓ | ✓ | ✓ | ||
Simple | in-memory | ✓ | ✓ | |||
SingleStore | self-hosted / cloud | ✓ | ✓ | ✓ | ||
Supabase | self-hosted / cloud | ✓ | ✓ | ✓ | ||
Tair | cloud | ✓ | ✓ | ✓ | ||
TencentVectorDB | cloud | ✓ | ✓ | ✓ | ✓ | |
Timescale | ✓ | ✓ | ✓ | ✓ | ||
Typesense | self-hosted / cloud | ✓ | ✓ | ✓ | ||
Weaviate | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ |
ฐานข้อมูลที่สนับสนุนส่วนใหญ่
ector Store | Type | Metadata Filtering | Hybrid Search | Delete | Store Documents | Async | |
---|---|---|---|---|---|---|---|
DashVector | cloud | ✓ | ✓ | ✓ | ✓ | ||
Elasticsearch | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ | 总觉得比较重 |
Jaguar | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ||
Lantern | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ | |
MyScale | cloud | ✓ | ✓ | ✓ | ✓ | ||
Pinecone | cloud | ✓ | ✓ | ✓ | ✓ | ||
Postgres | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ | |
pgvecto.rs | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ||
Qdrant | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ | 创始人好像出走了 |
TencentVectorDB | cloud | ✓ | ✓ | ✓ | ✓ | ||
Weaviate | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ |
Elasticsearch:总觉得比较重
Postgress:先从最简单的开始吧。
Qdrant:创始人好像出走了。
เปรียบเทียบฐานข้อมูลของ Lang Chain
数据库名称 | 应用场景 |
---|---|
HNSWLib, Faiss, LanceDB, CloseVector | 如果你需要一个可以在你的Node.js应用程序中运行的内存数据库,无需其他服务器 |
MemoryVectorStore, CloseVector | 如果你在寻找一个可以在类似浏览器的环境中内存中运行的东西 |
HNSWLib, Faiss | 如果你来自Python,并且你在寻找类似于FAISS的东西 |
Chroma | 如果你在寻找一个开源的、功能全面的向量数据库,可以在docker容器中本地运行 |
Zep | 如果你在寻找一个开源的向量数据库,提供低延迟、本地嵌入文档支持,并且支持边缘上的应用 |
Weaviate | 如果你在寻找一个开源的、生产就绪的向量数据库,可以在docker容器中本地运行或在云中托管 |
Supabase vector store | 如果你已经在使用Supabase,看看Supabase向量存储,使用同一个Postgres数据库来存储你的嵌入 |
Pinecone | 如果你在寻找一个生产就绪的向量存储,你不必担心自己托管 |
SingleStore vector store | 如果你已经在使用SingleStore,或者你需要一个分布式、高性能的数据库,你可能会考虑SingleStore向量存储 |
AnalyticDB vector store | 如果你在寻找一个在线MPP(大规模并行处理)数据仓库服务,你可能会考虑AnalyticDB向量存储 |
MyScale | 如果你在寻找一个性价比高的向量数据库,允许使用SQL进行向量搜索 |
CloseVector | 如果你在寻找一个可以从浏览器和服务器端加载的向量数据库,看看CloseVector。它是一个旨在跨平台的向量数据库 |
ClickHouse | 如果你在寻找一个可扩展的、开源的列式数据库,对于分析查询有着出色的性能 |