Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

对于分布式训练模型,怎么打印出计算图? #70488

Open
chengyi192 opened this issue Dec 26, 2024 · 3 comments
Open

对于分布式训练模型,怎么打印出计算图? #70488

chengyi192 opened this issue Dec 26, 2024 · 3 comments
Assignees
Labels

Comments

@chengyi192
Copy link

chengyi192 commented Dec 26, 2024

https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/paddle_v3_features/auto_parallel_cn.html
文档中提到改成分布式训练之后,会添加算子:
接下来就会进入自动并行的第二个核心逻辑 切分转换。 框架会根据 tensor 当前的切分状态(src_placement),和切分推导规则推导出的算子计算需要的切分状态(dst_placement),添加对应的通信/张量维度变换算子。 根据上图的切分推导,在计算 Matmul 添加 split 算子,在计算 Relue 添加 Allreduce,将输入 tensor 转换成需要的切分状态进行实际计算。

那么是否可以看到计算图被修改成了什么样子呢?即能否打印出计算图吗?

@will-jl944
Copy link
Contributor

暂未支持动态图下的可视化功能。

@chengyi192
Copy link
Author

暂未支持动态图下的可视化功能。

https://www.paddlepaddle.org.cn/documentation/docs/zh/develop/guides/paddle_v3_features/cinn_cn.html
文档《CINN 神经网络编译器 》提到可以打开:

# 是否打印 Program IR 信息
export FLAGS_print_ir=false

从而打印pir形式的计算图。但提供的例子是单卡训练,那么能够提供一个多卡的例子呢?
即分布式训练转成静态图,然后利用CINN打印出来。
这个思路是否可行呢?如果可行,是否可以提供一个例子?

@chengyi192
Copy link
Author

暂未支持动态图下的可视化功能。

那静态图呢?能否提供一个分布式训练转成静态图,再打印计算图呢?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

2 participants