InternVL2‑40B模型推理速度非常慢 #804

PengJiazhen408 · 2024-12-27T02:55:22Z

我们使用single-image data来lora微调InternVL2‑40B模型。
训练时，平均每小时处理1100条数据。
但在10个data上做测试时，用model.chat 总共5个小时还没跑完，请问有什么方式可以调优？
以下是chat的代码：

generation_config = dict(
num_beams=1,
max_new_tokens=4096,
min_new_tokens=8,
do_sample=False,
temperature=0.0,
)

Provide feedback