Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

放出来的vitae-rsva-dota权重可能有错 #41

Open
WenLinLliu opened this issue Sep 26, 2024 · 7 comments
Open

放出来的vitae-rsva-dota权重可能有错 #41

WenLinLliu opened this issue Sep 26, 2024 · 7 comments

Comments

@WenLinLliu
Copy link

Snipaste_2024-09-26_09-29-10 Snipaste_2024-09-26_09-29-30 backbone的有些层是qkv_bias,而有些层是q_bias和k_bias,请核实
@DotWang
Copy link
Collaborator

DotWang commented Sep 26, 2024

@WenLinLliu 我建议你把这两种bias打出来,看看哪个是None

@WenLinLliu
Copy link
Author

@WenLinLliu 我建议你把这两种bias打出来,看看哪个是None

都不是None

@WenLinLliu
Copy link
Author

Snipaste_2024-09-26_14-57-26

@DotWang
Copy link
Collaborator

DotWang commented Sep 26, 2024

@WenLinLliu 你提到的是qk部分,那应该是跟ViTAE没啥关系,是注意力部分,在这个仓库的issues里,有人成功复现了ViT-B+RVSA

#19

你看看这个权重是不是也是这样的

另外,最近我们拿同样的结构,跑了一个多任务预训练,你也可以试试那里的权重,看看有没有相同的现象

https://github.com/ViTAE-Transformer/MTP

如果这俩没有问题,那就说明一件事,我当时训完模型以后,不知道什么时候把bias这块改了一下,可能为了让代码长的都一样?你看看代码有没有什么注释掉的地方,能不能恢复回去,总之这个东西的时间太久了,原来训得权重早都找不到了,留下来的权重就是github上传的这些

@WenLinLliu
Copy link
Author

@WenLinLliu 你提到的是qk部分,那应该是跟ViTAE没啥关系,是注意力部分,在这个仓库的issues里,有人成功复现了ViT-B+RVSA

#19

你看看这个权重是不是也是这样的

另外,最近我们拿同样的结构,跑了一个多任务预训练,你也可以试试那里的权重,看看有没有相同的现象

https://github.com/ViTAE-Transformer/MTP

如果这俩没有问题,那就说明一件事,我当时训完模型以后,不知道什么时候把bias这块改了一下,可能为了让代码长的都一样?你看看代码有没有什么注释掉的地方,能不能恢复回去,总之这个东西的时间太久了,原来训得权重早都找不到了,留下来的权重就是github上传的这些

感谢回复

@WenLinLliu
Copy link
Author

@DotWang 一般attention里面用的qkv_bias,这里把q_bias和v_bias分开是什么用意

@DotWang
Copy link
Collaborator

DotWang commented Sep 28, 2024

@DotWang 这么做好像是为了让k没有bias,这份代码网络骨干是ViTAE-VitDet的代码,然后注意力是基于VSA代码上改的,我把两份代码拼了起来,不过我觉得性能上没啥区别,所以用的时候就比较随意了,可能混用什么的

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants