Skip to content

如何构建对连续多帧图片同一个目标进行 grounding 呢?swift 现在支持这样训练吗?数据集如何构建 #7804

@zzb213213

Description

@zzb213213

对于qwen3vl、 internvl这些模型如何构建对连续多帧图片中的同一个目标进行定位,自定义数据集格式是什么样的

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions