Ana içeriğe geç

LLM Motorları

İşte Çince 'ye çevrilmiş karşılaştırma tablosu:

引擎描述主要特点支持的硬件速度缺点
Pytorch
Transformers
一个广泛使用的库,用于训练和推理变换器模型。集中于Hugging Face通用(CPU/GPU)中等到快速,取决于模型大小较慢。
vLLM一个快速的库,用于LLM推理和服务,优化了高吞吐量。连续批处理,高效的内存管理(PagedAttention),优化的CUDA内核。主要支持Linux和CUDA非常快,优化了高吞吐量限于特定硬件配置(CUDA)。
Llama.cpp一个轻量级引擎,用于在各种硬件上运行LLaMA模型,包括Apple Silicon。简单的模型转换,支持量化,在任何合适的机器上运行,活跃的社区支持。支持AMD、Intel和Apple Silicon快,特别是在量化模型上可能缺乏大型库中的一些高级功能。
SGLang为复杂的LLM程序设计的高性能推理运行时。RadixAttention加速执行,自动KV缓存重用,支持连续批处理和张量并行。通用(CPU/GPU)非常快,优化了性能复杂性可能需要更陡峭的学习曲线。
MLX专门为在Apple Silicon上运行LLM而优化的高效运行时。针对Mac用户进行优化,支持MLX格式模型,专注于高效资源使用。Apple Silicon(M1、M2等)快,专为Apple硬件量身定制限于Apple生态系统;灵活性较低。

Model Formatı

文件后缀支持的引擎
pt
bin
传统
safetensorsvLLM, Transformers, SGLang是一种新的文件格式扩展名,主要用于安全、高效地存储和加载模型权重和数据张量。它由 Hugging Face 推出,旨在替代传统的 PyTorch *.pt*.bin 格式,解决这些格式中的潜在安全问题和性能瓶颈。
ggufv2llama.cpp
gptqvLLM, Transformers, SGLang
awqvLLM, Transformers, SGLang
mlxMLX