LlamaIndex - Artículo 2 (QA y evaluación)

Un ejemplo de nivel de producción

SEC-Insights

Qa

Caso del usuario:

Q&A: 很不错
Structured Data Extraction

¿Qué?

consulta semántica (búsqueda semántica/top K)
Resumen

Donde

Over documents
Building a multi-document agent over the LlamaIndex docs
sobre datos estructurados (por ejemplo, JSON)
Buscando mesas de Pandas
Texto a SQL

¿Cómo?

Todos los enlaces arriba apuntan a: Patrones de Qantia abajo

Understanding: Q&A patterns

Uno de los más simples QroomA

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

documents = SimpleDirectoryReader("data").load_data()
index = VectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine()
response = query_engine.query("What did the author do growing up?")
print(response)

Seleccione una fuente de datos diferente (Route Datasource)

链接

Comparar/contrastar consultas

No entiendo esto.

Multi Document Queries

Además de los flujos explícitos de síntesis/enrutamiento descritos anteriormente, LlamaIndex también puede soportar consultas multi-documentos más generales. Puede hacerlo a través de nuestra clase "SubQuestionQueryEngine". Dada una consulta, este motor de consulta generará un "plan de consulta" que contiene sub - consultas contra sub - documentos antes de sintetizar la respuesta final.

Este motor de consulta puede ejecutar cualquier número de sub - consultas contra cualquier subconjunto de herramientas de motor de consulta antes de sintetizar la respuesta final. Esto lo hace especialmente bien - adecuado para comparar/contrastar consultas entre documentos, así como consultas relativas a un documento específico.

Multi-Step Queries

LlamaIndex también puede soportar consultas multi-step iterativas. Dada una pregunta compleja, dividirla en una subpregunta inicial, y generar sub-preguntas secuencialmente sobre la base de respuestas devueltas hasta que la respuesta final sea devuelta.

Por ejemplo, dada una pregunta "quién estaba en el primer lote del programa acelerador iniciado por el autor", el módulo primero descomponerá la consulta en una pregunta inicial más simple "¿Cuál fue el programa acelerador que el autor inició?", consultará el índice, y luego hará preguntas de seguimiento.

时态查询

Eval.

概念入门

Evaluar la respuesta
Búsqueda de evaluación

详解概述和流程

Evaluar la respuesta
Usar GPT - 4 para evaluar
Dimensiones de la evaluación
Respuestas generadas y respuestas de referencia: corrección y similitud semántica
La respuesta generada es idéntica a los contextos recuperados:** Fidelidad**
La respuesta generada es la misma que la pregunta: Relevancia de la respuesta
Contextos recuperados y consulta:Relevancia contextual
Generar respuestas de referencia
Búsqueda de evaluación (recuperación)
Cómo evaluar: Clasificación de las métricas como media - rango recíproco (MRR), HIT - tasa, precisión, y mucho más.

生成dataset

Usar ejemplo

Integrar en otras herramientas

UpTrain: 1.9K：可试用，但是需要book demo，目测不便宜
Tonic Validate(Includes Web UI for visualizing results)：有商业版本，可试用，之后200美元/月
- llamaindex有详细文章
DeepEval: 1.6K
Ragas: 4.4K
Se siente bien.
Llamaindex - Ragas - LangSmith y otras herramientas
Sin embargo, si el inicio rápido falla en ejecutarse, indica "ModuleNotFoundError: ningún módulo llamado 'ragas.metrics'; 'ragas' no es un paquete".

费用评估

Optimizar

基础优化

Retrieval