Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

mobile-agent的速度,着实有些慢 #57

Open
herist opened this issue Sep 9, 2024 · 3 comments
Open

mobile-agent的速度,着实有些慢 #57

herist opened this issue Sep 9, 2024 · 3 comments

Comments

@herist
Copy link

herist commented Sep 9, 2024

这个慢的原因是vpn连接gpt4o的问题吗?
截图、ocr、gpt做决策
这几个过程,到底是哪块慢呢?

@junyangwang0410
Copy link
Collaborator

junyangwang0410 commented Sep 9, 2024

慢的原因主要有两个:

  1. gpt-4o本身推理速度就比较慢,加上网络通讯还会产生额外的延时
  2. 调用qwen-vl会有限速,目前限速应该是每分钟15-30次,超速需要等待

解决方案可以将部分模块设计为并行,例如planning和上一阶段的reflection是可以并行的,如果反思结果正确,则可以省去一次调用,如果错误,则回退操作并重新执行planning即可,不会产生额外的延时。

同时,ocr和sam也是可以并行的,并且可以放到GPU上加速。不过,想要速度真正达到可用,还需要解决基模型推理的速度,这将是下一步我们v3工作的重点。

@iloveacm4
Copy link

好想法,我最近也在做类似的项目。要提升速度瓶颈始终在模型上,如果模型性能够用的话甚至可以省略反思记忆等流程,直接输出action,这样就能大幅提升速度。

@junyangwang0410
Copy link
Collaborator

好想法,我最近也在做类似的项目。要提升速度瓶颈始终在模型上,如果模型性能够用的话甚至可以省略反思记忆等流程,直接输出action,这样就能大幅提升速度。

是的,我们也提供了反思和记忆的开关,如果任务难度不高,可以尝试关闭。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants