目录

前言

1.梯度累积

代码实现

2.冻结

代码实现

3.自动混合精度

代码实现

更多推荐

【ChatGPT】大模型原理学习:详解 Transformers 的性能优化的 8 种方法