推理加速

我主要使用本地部署的模型和一些线上模型的api进行推理
在测试时遇到了关于推理的一些问题： 
1. 代码里好像没有进行并行加速，我试了一下单卡推理有点慢，想问下推理以及评测完整的测试集需要多少时间，我有8张显卡，如何进行推理加速？
2. 如果我只想推理和评测1000条中的前100条进行简单的实验该如何操作？
3. 我注意到生成回复时使用的是openai接口，而自动评估时使用的是vllm.llm，这两种方式有何区别？为何这两个要使用不同的接口呢？