llama.cpp

Параметры запуска сервера: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md

https://obnimorda.ru/guides/llamacpp/config/

--cache-ram N — устанавливает лимит объема ОЗУ в МиБ для временного хранения кеша (включая добавленные контрольные точки) в ожидании запроса с совпадающим контекстом. Этот кеш хранится только во время работы сервера. Значение по умолчанию — 8192, значение для отключения — 0, значение для снятия лимита — -1;

--ts 1,1 — в какой пропорции распределять веса по видеокартам. В данном примере на 2 видеокарты поровну.