Índice Llama - Artigo 2.o (QA e avaliação)
Um exemplo do nível de produção
Qa
Caso para o utilizador:
*** O quê ~
- consulta semântica (** pesquisa semântica ** / top K)
- Sim. - Resumo
*** Onde ***
- Over documents
- Building a multi-document agent over the LlamaIndex docs
- sobre dados estruturados (por exemplo, JSON)
- À procura das tabelas Pandas.
- Texto para SQL
*** Como ~ ~
Todas as ligações acima indicadas com: padrões de Qantia abaixo
Um dos mais simples QroomA
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
documents = SimpleDirectoryReader("data").load_data()
index = VectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine()
response = query_engine.query("What did the author do growing up?")
print(response)
Seleccione uma fonte de dados diferente (Route Datasource)
Comparar/ Pesquisas de Contraste
Eu não entendo isso.
Além dos fluxos explícitos de síntese/roteamento descritos acima, LlamaIndex pode suportar consultas multi-documentos mais gerais também. Pode fazê-lo através da nossa aula de Engenharia de Questão. Dada uma consulta, este motor de consulta irá gerar um "plano de consulta" contendo sub- interrogações contra sub- documentos antes de sintetizar a resposta final.
Este motor de consulta pode executar qualquer número de sub- interrogações contra qualquer subconjunto de ferramentas do motor de consulta antes de sintetizar a resposta final. Isto torna-o especialmente adequado - adequado para pesquisas de comparação/contraste entre documentos, bem como consultas relativas a um documento específico.
LlamaIndex também pode suportar pesquisas iterativas multi-step. Dada uma pesquisa complexa, quebrá-la em uma sub-perguntas iniciais, e gerar sequencialmente sub-perguntas baseadas em respostas retornadas até que a resposta final seja devolvida.
Por exemplo, dada a pergunta "quem estava no primeiro lote do programa acelerador que o autor iniciou", o módulo irá primeiramente decompor a consulta em uma pergunta inicial mais simples: "O que foi o programa de acelerador que o autor iniciou?", questiona o índice, e depois faz perguntas de acompanhamento.
Eval
- Avaliar a resposta
- Pesquisa de avaliação
- Avaliar a resposta
- utilizar TAB - 4 para avaliar
- Dimensões da avaliação
- Respostas geradas e respostas de referência: correcção e semelhança semântica
- A resposta gerada é idêntica aos contextos recuperados: ** fidelidade **
- A resposta gerada é a mesma que a consulta: Relevância da resposta
- Retrieved Contexts and Question: ** Relevância do contexto **
- Gerar respostas de referência
- Avaliação de pesquisa (recuperação)
- como avaliar: classificar métricas como a média - classificação recíproca (RRM), taxa de sucesso, precisão, e muito mais.
Usar o exemplo de
Integrar em outras ferramentas
- UpTrain: 1.9K:可试用,但是需要book demo,目测不便宜
- Tonic Validate(Includes Web UI for visualizing results):有商业版本,可试用,之后200美元/月
- DeepEval: 1.6K
- Ragas: 4.4K
- É uma sensação boa.
-
Ragas - LangSmith e outras ferramentas
- No entanto, se o arranque rápido não correr, «ModuleNotFoundError: nenhum módulo denominado «ragas.metrics»; o «ragas» não é uma embalagem.