凯发k8娱乐官网地-凯发k8娱乐官网地址

国内更专业
织梦模板下载站

效果提升18%!百度EasyDL自研数据增强服务加持AI模型开发

原标题:作用提高18%!百度EasyDL自研数据增强服务加持AI模型开发

在 AI 模型开发的过程中,许多开发者被不行足够的练习数据挡住了提高模型作用的脚步,一个具有超卓作用的深度学习模型,支撑它的通常是一个巨大的标示数据集。因而,提高模型的作用的通用办法是添加数据的数量和多样性。但在实践中,搜集数目巨大的高质量数据并不简略,在某些特定范畴与运用场景乃至难以获取很多数据。那么怎么能在有限数据的情况下提高模型的作用呢?

跟着深度学习的开展,数据增强技能可以帮忙开发者处理这一问题。数据增强技能经过对数据自身进行必定程度的扰动然后发生“新”数据,模型经过不断学习很多的“新”数据来提高泛化才能。

不同数据集的数据特性决议了其所适用的数据增强战略组合,在没有对数据特性有专业理解才能的情况下,用户很难构建出能与数据集特性强相关的数据增强战略组合。比如在规范的 ImageNet 数据预处理流程中有运用 Random Crop(随机取舍)、Random Flip(随机翻转)等数据增强技能,取得了不错的作用增益,但在某些特定用户场景(如零售场景 SKU 抠图场景)数据边际存在重要信息时 Random Crop 会导致信息的丢失、在某些特定用户场景(如数字辨认)时 Random Flip 会导致特征的混杂。因而怎么根据数据特征来主动化查找数据增强战略组合成为了一个抢手的研讨方向。

追溯学术界对主动数据增强范畴的研讨,最具影响力的一篇论文是 Google 在2018年提出的 AutoAugment 技能。随后,相关的优化论文层出不穷,简略整理根据现有办法的一些建模思维,如图1。

▲ 图1 主动数据增强算法建模思路归类

  • 强化学习:AutoAugment [1] 学习了根据强化学习的架构查找算法,在离散化的查找空间内经过 PPO(Proximal Policy Optimization)算法来练习一个 policy generator, policy generator 的奖赏信号是其生成的 policy 运用于子网络练习结束后的验证集准确率。其问题在于 AutoAugment 的查找本钱十分高,还无法满意工业界的事务需求,难以运用在事务模型开发中。
  • 密度匹配:Fast AutoAugment [2] 采用了密度匹配的战略,希望验证数据经过数据增强后的数据点能与原始练习数据集的散布尽量匹配。这个思路直觉上可以扫除一些导致数据集畸变的增强战略,但没有处理“怎么寻觅最优战略”这一问题。
  • 遗传进化:PBA [3] 采用了 PBT 的遗传进化战略,在多个网络的并发练习中不断“运用”和“扰动”网络的权重,以期取得最优的数据增强调度战略。这个思路直觉上是可以经过优胜劣汰来查找到最优战略。
  • 网格查找:RandAugment [4] 经过一致的强度和概率参数来大幅减小查找空间,希望能用网格查找就处理数据增强查找的问题。但这一技能并不具有战略的可解释性,抛开完结手法不谈,这篇论文更像是对 AutoAugment 的自我否定(注: RandAugment 也是 Google 出品的论文)。
  • 对立学习:Adversarial AutoAugment [5] 在 AutoAugment 的根底上学习了 GAN 的对立思维,让 policy generator 不断发生难样本,而且使 policy generator 和分类器能并行练习,下降了查找时长。但全体查找本钱仍是十分高。
  • 可微分:DADA [6]学习了 DARTS 的算法规划思路,将离散的参数空间经过 Gumbel-Softmax 重参数化成了可微分的参数优化问题,大大下降了查找本钱。

在上述的建模思路中,遗传进化和可微分的建模思路更适合运用到模型开发中,因为这两种思路将主动数据增强查找的本钱下降到了线上事务接受的资源规模内,而且具有较好的战略可解释性。根据对建模思路的评价和判别,百度工程师决议将遗传进化和可微分思路运用到零门槛 AI 开发渠道 EasyDL 中,便于开发者进一步优化模型作用。

EasyDL 面向企业开发者供给智能标示、模型练习、服务布置等全流程功用,针对 AI 模型开发过程中冗杂的作业,供给快捷高效的渠道化处理方案,而且内置了丰厚的预练习模型与优化的多种算法网络,用户可在少数事务数据上取得高精度的模型作用。EasyDL 面向不同人群供给了经典版、专业版、职业版三种产品形状。

打开全文

现在,遗传进化 PBA 技能现已在 EasyDL 渠道中的成功完结,可微分的技能思路在 EasyDL 事务中的实践也在继续探究中。

PBA 采用了 PBT [7]的遗传进化战略,经过练习一群神经网络(种群,Trials)来找出超参数调度。Trials 之间会周期性地将高功能 Trial 的权重仿制给低功能的 Trial(exploit),而且会有必定的超参打乱战略(explore),如图2的 PBT 流程图。

▲ 图2 PBT 算法流程图

但是实践将才能落地到渠道中并不简略,工程师们在复现论文开源代码的过程中发现了一些问题:

归纳以上考虑,终究百度工程师从零开始构建了根据 PBA 的主动数据增强查找服务。

这一自研主动数据增强查找服务有以下几个特色:

  • 完结了规范的 PBT 算法,支撑种群 Trials 的同步 exploit、explore,确保公正进化。
  • 支撑散布式拓宽,可不受限的灵敏调理并发种群数,支撑。
  • 查找服务与使命解耦,已支撑飞桨深度学习渠道的图画分类、物体检测使命,而且可扩展到其他的视觉使命与文本使命。
  • 数据增强算子根据 C++ 高效完结。

自研的才能作用怎么呢?在揭露数据集上,百度工程师根据自研的主动数据增强查找服务与现有的 Benchmark 进行了对齐,其中表一的 ImageNet Benchmark 在 PaddleClas [8]结构上练习,表二的 Coco Benchmark 在 PaddleDetection [9]结构上练习。

成果显现,EasyDL主动数据增强服务能到达与 AutoAugment 相同高的精度,并有大幅的速度优势。现在,用于数据增强查找的分类、检测算子现已与 AutoAugment 对齐,后续将会继续不断扩大更多更高效的算子,进一步提高模型作用。

模型数据改变战略Top1 Acc数据增强战略查找时长(GPU hours)ResNet50规范改换0.7731\AutoAugment0.779515000[1](P100)EasyDL 主动数据增强服务0.779645(V100)MobileNetV3_

small_x1_0

规范改换0.682\EasyDL 主动数据增强服务0.6867928(V100)

▲ 表一 ImageNet Benchmark [8]

模型数据改变战略Box AP增强战略查找时长(GPU hours)Faster_RCNN_R50_

VD_FPN_3x

AutoAugment39.948*400[10](TPU)EasyDL 主动数据增强服务39.390(V100)

▲ 表二 Coco Benchmark [9]

EasyDL 现在已在经典版上线了手动数据增强服务,在专业版上线了主动数据增强查找服务。在图画分类单标签的使命上,工程师随机挑选了11个线上使命进行作用评测。如下图,运用专业版主动数据增强服务后,11个使命准确率均匀提长了5.42%,最高一项使命取得了18.13%的作用提高。

▲ 图3 图画分类单分类作用评测

在物体检测使命上,经过随机挑选的12个线上使命进行了作用评测,作用比照如下图,运用专业版主动数据增强服务后11个使命准确率均匀提高了1.4%,最高一项使命取得了4.2%的作用提高。

▲ 图4 物体检测作用评测

EasyDL 渠道经过交互式的界面,为用户供给简略易上手的操作体会。相同,运用 EasyDL 的数据增强服务操作十分简洁。

现在,因为练习环境的资源耗费不同,EasyDL 经典版与专业版供给两种数据增强战略。

  • 在经典版中,现已上线了手动装备数字增强战略。如图5,用户可以在练习模型页面挑选“手动装备”,完结数据增强算子的运用。
  • 在专业版中,因为供给练习环境的多种挑选,现在已支撑主动查找战略。如图6,在新建使命页面的“数据增强战略”中挑选“主动查找”,再设置需求查找的算子规模,即可马上完结主动数据增强。

▲ 图5 经典版手动数据增强运用流程

▲ 图6 专业版主动数据增强运用流程

为了让开发者运用 EasyDL 更快捷高效地开发作用超卓的模型,EasyDL 在结构规划中内置了多个组件与多种才能。如 EasyDL 智能查找服务的全体架构图(图7)所示,其底层根底组件是散布式智能查找,具有多机多卡查找、练习容错、支撑多种查找优化算法等特性。根据散布式智能查找供给的中心才能,产品构建了主动数据增强查找、超参查找、NAS 查找等服务,尽可能让用户可以在无需关怀技能细节的情况下,简洁运用 EasyDL 供给的多项查找服务,取得模型作用的优化。

▲ 图7 EasyDL 智能查找服务全体架构图

在各行各业加快拥抱 AI 的今日,有越来越多的企业踏上智能化转型之路,凭借 AI 才能完结降本增效。但在 AI 赋能工业的过程中,大规模的商业化落地十分复杂,需求企业投入很多的精力。因为不同职业、场景存在着差异化与碎片化,对 AI 的需求也不尽相同。因而,一个可以随场景改变定制开发 AI 模型的渠道至关重要。经过零算法门槛的渠道才能掩盖千变万化的场景需求,并供给灵敏习惯详细事务的多种布置方法,这便是 EasyDL。

EasyDL 零门槛 AI 开发渠道,现在已在工业制作、智能安防、零售快消、交通运输、互联网、教育训练等职业广泛落地。

百度查找“EasyDL”或点击“阅览原文”,开发高精度 AI 模型。

[1]:Cubuk E D, Zoph B, Mane D, et al. Autoaugment: Learning augmentation policies from data[J]. arXiv preprint arXiv:1805.09501, 2018.

[2]:Lim S, Kim I, Kim T, et al. Fast autoaugment[C]//Advances in Neural Information Processing Systems. 2019: 6665-6675.

[3]:Ho D, Liang E, Chen X, et al. Population based augmentation: Efficient learning of augmentation policy schedules[C]//International Conference on Machine Learning. 2019: 2731-2741.

[4]:Cubuk E D, Zoph B, Shlens J, et al. Randaugment: Practical automated data augmentation with a reduced search space[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020: 702-703.

[5]:Zhang X, Wang Q, Zhang J, et al. Adversarial autoaugment[J]. arXiv preprint arXiv:1912.11188, 2019.

[6]:Li Y, Hu G, Wang Y, et al. DADA: Differentiable Automatic Data Augmentation[J]. arXiv preprint arXiv:2003.03780, 2020.

[7]:Jaderberg M, Dalibard V, Osindero S, et al. Population based training of neural networks[J]. arXiv preprint arXiv:1711.09846, 2017.

[8]:https://paddleclas.readthedocs.io/zh_CN/latest/advanced_tutorials/image_augmentation/ImageAugment.html#id6

[9]:https://github.com/PaddlePaddle/PaddleDetection/tree/master/configs/autoaugment

[10]:Zoph B, Cubuk E D, Ghiasi G, et al. Learning data augmentation strategies for object detection[J]. arXiv preprint arXiv:1906.11172, 2019.回来,检查更多

责任编辑:

评论