-
Notifications
You must be signed in to change notification settings - Fork 183
Open
Labels
Description
确认项
问题描述
当swanlab.init中将参数resume=True时,无论实验是否为新创建的,硬件监控都无法开启。
这会导致当一些大型训练框架默认使用resume参数时,新创建的实验也会没有硬件监控,容易导致包括当RL评估模型时时间较长,会导致实验中断等问题。
预期行为:当实验为新创建时,打开硬件监控
必须的复现代码
import swanlab
import random
import time
# 创建一个SwanLab项目
swanlab.init(
# 设置项目名
project="my-awesome-project",
# 设置超参数
config={
"learning_rate": 0.02,
"architecture": "CNN",
"dataset": "CIFAR-100",
"epochs": 10
},
resume=True,
id="zpb6zx8cm4b1zr9rxq892",
)
# 模拟一次训练
epochs = 10000
offset = random.random() / 5
for epoch in range(2, epochs):
time.sleep(1)
acc = 1 - 2 ** -epoch - random.random() / epoch - offset
loss = 2 ** -epoch + random.random() / epoch + offset
# 记录训练指标
swanlab.log({"acc": acc, "loss": loss})
# [可选] 完成训练,这在notebook环境中是必要的
swanlab.finish()错误信息
