想要微调训练大模型,从零开始搭建环境、编写训练逻辑,各种配置和组件管理,确实挺让人头疼的。
最近发现的 Verifiers 开源库正好能解决了这个痛点,提供了一套完整的模块化组件库,让我们能轻松构建强化学习环境。
支持单轮、多轮甚至工具调用的各种场景,还能无缝接入 OpenAI 接口、vLLM 等推理服务。
GitHub:http://github.com/willccbb/verifiers
主要功能:
- 模块化环境组件,支持单轮、多轮和工具调用场景
- 内置异步 GRPO 训练器,优化 2-16 GPU 训练效率
- 灵活的数据集和评估系统,支持自定义奖励函数
- 完整的 LLM 评估框架,可直接用于构建测试管道
- 支持 vLLM 推理服务和完整 SamplingParams 参数控制
- 丰富的解析器和评分标准,简化复杂任务处理
安装方式也非常简单,通过 uv 包管理器安装即可使用,适合研究 LLM 强化学习的 AI 开发者。
