��λ�ã�老铁SEO > 站长新闻 >

用上 Pytorch Lightning 这六招深度学习 pipeline

��Դ��未知

��ߣ�老铁外链

��18

2021-10-02 15:23:34

面对数以亿计的图片数据，到底该用什么样的方法才能快速搞实验？

这样的问题，或许在做机器学习研究的你，也会经常遇到。

而就在最近，一个国外小哥就提出了一种建议：

在 Pytorch lightning 基础上，让深度学习 pipeline 速度提升 10 倍！

用上 Pytorch Lightning 这六招，深度学习 pipeline 可提速 10 倍

用他自己的话来说就是 ——“爬楼时像给了你一个电梯”。

这般“酸爽”，到底是如何做到的呢？

用上 Pytorch Lightning 这六招，深度学习 pipeline 可提速 10 倍

优化机器学习 pipeline，很重要

无论你是身处学术界还是工业界，时间和资源等各种因素，往往会成为你在搞实验的枷锁。

尤其是随着数据集规模和机器学习模型，变得越发庞大和复杂，让实验变得既费时又耗力。

用上 Pytorch Lightning 这六招，深度学习 pipeline 可提速 10 倍

提速这件事，就变得至关重要。

例如在 2012 年的时候，训练一个 AlexNet，要花上 5 到 6 天的时间。

而现如今，只需要短短几分钟就可以在更大的数据集上训练更大的图像模型。

这位小哥认为，从某种角度上来说，这是得益于各种各样的“利器”的出现。

例如 Pytorch Lingtning，就是其中一种。

于是，他便“死磕”pipeline，总结了六种“闪电加速”实验周期的方法。

并行数据加载

数据加载和增强（augmentation）往往被认为是训练 pipeline 时的瓶颈之一。

一个典型的数据 pipeline 包含以下步骤：

从磁盘加载数据
在运行过程中创建随机增强
将每个样本分批整理

在这个过程中，倒是可以用多个 CPU 进程并行加载数据来优化。

但与此同时，还可以通过下面的操作来加速这一过程：

1、将 DataLoader 中的 num_workers 参数设置为 CPU 的数量。

2、当与 GPU 一起工作时，将 DataLoader 中的 pin_memory 参数设置为 True。这可以将数据分配到页锁定的内存中，从而加快数据传输到 GPU 的速度。

使用分布式数据并行的多 GPU 训练

用上 Pytorch Lightning 这六招，深度学习 pipeline 可提速 10 倍

与 CPU 相比，GPU 已经大大加速了训练和推理时间。

但有没有比一个 GPU 更好的方法？或许答案就是：

多个 GPU！

在 PyTorch 中，有几种范式可以用多个 GPU 训练你的模型。

两个比较常见的范式是“DataParallel”和“DistributedDataParallel”。

而小哥采用的方法是后者，因为他认为这是一种更可扩展的方法。

但在 PyTorch（以及其他平台）中修改训练 pipeline 并非易事。

必须考虑以分布式方式加载数据以及权重、梯度和指标的同步等问题。

不过，有了 PyTorch Lightning，就可以非常容易地在多个 GPU 上训练 PyTorch 模型，还是几乎不需要修改代码的那种！

用上 Pytorch Lightning 这六招，深度学习 pipeline 可提速 10 倍

混合精度

在默认情况下，输入张量以及模型权重是以单精度（float32）定义的。

然而，某些数学运算可以用半精度（float16）进行。

这样一来，就可以显著提升速度，并降低了模型的内存带宽，还不会牺牲模型的性能。

通过在 PyTorch Lightning 中设置混合精度标志（flag），它会在可能的情况下自动使用半精度，而在其他地方保留单精度。

通过最小的代码修改，模型训练的速度可以提升 1.5 至 2 倍。

用上 Pytorch Lightning 这六招，深度学习 pipeline 可提速 10 倍

早停法

当我们训练深度学习神经网络的时候，通常希望能获得最好的泛化性能。

但是所有的标准深度学习神经网络结构，比如全连接多层感知机都很容易过拟合。

当网络在训练集上表现越来越好，错误率越来越低的时候，实际上在某一刻，它在测试集的表现已经开始变差。

因此，早停法（Early Stopping）便在训练过程中加入了进来。

具体来说，就是当验证损失在预设的评估次数（在小哥的例子中是 10 次评估）后停止训练。

这样一来，不仅防止了过拟合的现象，而且还可以在几十个 epoch 内找到最佳模型。

用上 Pytorch Lightning 这六招，深度学习 pipeline 可提速 10 倍

Sharded Training

Sharded Training 是基于微软的 ZeRO 研究和 DeepSpeed 库。

它显著的效果，就是让训练大模型变得可扩展和容易。

否则，这些模型就不适合在单个 GPU 上使用了。

而在 Pytorch Lightning 的 1.2 版本中，便加入了对 Shared Training 的支持。

虽然在小哥的实验过程中，并没有看到训练时间或内存占用方面有任何改善。

但他认为，这种方法在其它实验中可能会提供帮助，尤其是在不使用单一 GPU 的大模型方面。

用上 Pytorch Lightning 这六招，深度学习 pipeline 可提速 10 倍

模型评估和推理中的优化

在模型评估和推理期间，梯度不需要用于模型的前向传递。

因此，可以将评估代码包裹在一个 torch.no_grad 上下文管理器中。

这可以防止在前向传递过程中的存储梯度，从而减少内存占用。

如此一来，就可以将更大的 batch 送入模型，让评估和推理变得更快。

效果如何？

介绍了这么多，你肯定想知道上述这些方法，具体起到了怎样的作用。

小哥为此做了一张表格，详解了方法的加速效果。

用上 Pytorch Lightning 这六招，深度学习 pipeline 可提速 10 倍

那么这些方法，是否对在做机器学习实验的你有所帮助呢？

快去试试吧~

上一篇：人工seo教程有什么方法可以吸引蜘蛛频繁爬行_

下一篇：北理工通报硕士“原文照搬”顶会论文

��

超千万人正承受60分钟以上极端通勤

��Դ��̳� 2020-12-04

OPPO推出125W充电技术兼容主流协议，支持手机平板笔记本

��Դ��̳� 2020-08-15

微信支付时，若出现 “风险提醒”你很有可能正在陷入骗局

��Դ��̳� 2020-07-05

同样做网络推广，为何你不赚钱？

��Դ��̳� 2020-05-05

网络推广如何提高客户信任交易

��Դ��̳� 2020-05-05

小红书推广营销法则

��Դ��̳� 2020-05-05

超市争相“上线”,直播带货探索新销售场景

��Դ��̳� 2020-05-05

分享简单好用的企业网站推广技巧

��Դ��̳� 2020-05-05

新媒体营销中最容易遇到的五个“陷阱”及解决方案

��Դ��̳� 2020-05-05

“五一”订单量价齐升酒店市场要翻身？

��Դ��̳� 2020-05-05

��

��Ʒ

��

伪原创工具蜘蛛池出租百度快速排名一周见效_先上首页后付费软文推广营销,新闻源发布推广,媒体发稿投放天涯论坛发帖百度手机快排百度排名关键词seo优化排名/网站优化/百度快排首页发新闻稿门户行业地方网站媒体新闻发布发稿套餐网络宣传推广百度知道|百度问答|内容编辑发布百度主动提交插件织梦dedecms百度实时推送主动推送百度搜狗百科搜搜百科 SOSO百科创建

用上 Pytorch Lightning 这六招深度学习 pipeline

��Դ��未知

��ߣ�老铁外链

��18

2021-10-02 15:23:34

优化机器学习 pipeline，很重要

效果如何？

��

超千万人正承受60分钟以上极端通勤

OPPO推出125W充电技术兼容主流协议，支持手机平板笔记本

微信支付时，若出现 “风险提醒”你很有可能正在陷入骗局

同样做网络推广，为何你不赚钱？

网络推广如何提高客户信任交易

小红书推广营销法则

超市争相“上线”,直播带货探索新销售场景

分享简单好用的企业网站推广技巧

新媒体营销中最容易遇到的五个“陷阱”及解决方案

“五一”订单量价齐升酒店市场要翻身？

��߽��

��

��Ʒ

��

��

xmbfjc

用上 Pytorch Lightning 这六招 深度学习 pipeline

������Դ��未知 ���ߣ�老铁外链 ������18 2021-10-02 15:23:34

优化机器学习 pipeline，很重要

效果如何？

�������

���߽���

��������

������Ʒ

��������

��������

xmbfjc

用上 Pytorch Lightning 这六招深度学习 pipeline

��Դ��未知

��ߣ�老铁外链

��18

2021-10-02 15:23:34

��

��߽��

��

��Ʒ

��

��