Skip to content

resume=True时,无论实验是否为新创建的,硬件监控都无法开启 #1392

@Zeyi-Lin

Description

@Zeyi-Lin

确认项

  • 我已确认我遇到的问题在文档中未有说明。
  • 我已在 GitHub 上搜索过类似或已有的问题。
  • 我已确认此问题并非由网络错误引起。

问题描述

swanlab.init中将参数resume=True时,无论实验是否为新创建的,硬件监控都无法开启。

这会导致当一些大型训练框架默认使用resume参数时,新创建的实验也会没有硬件监控,容易导致包括当RL评估模型时时间较长,会导致实验中断等问题。

预期行为:当实验为新创建时,打开硬件监控

必须的复现代码

import swanlab
import random
import time

# 创建一个SwanLab项目
swanlab.init(
    # 设置项目名
    project="my-awesome-project",
    
    # 设置超参数
    config={
        "learning_rate": 0.02,
        "architecture": "CNN",
        "dataset": "CIFAR-100",
        "epochs": 10
    },
    
    resume=True,
    id="zpb6zx8cm4b1zr9rxq892",
)

# 模拟一次训练
epochs = 10000
offset = random.random() / 5
for epoch in range(2, epochs):
  time.sleep(1)
  acc = 1 - 2 ** -epoch - random.random() / epoch - offset
  loss = 2 ** -epoch + random.random() / epoch + offset

  # 记录训练指标
  swanlab.log({"acc": acc, "loss": loss})

# [可选] 完成训练,这在notebook环境中是必要的
swanlab.finish()

错误信息

Image

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions