640.png

近年来,人工智能技术的快速发展对高效率智能计算系统的需求越来越大。

在58同城平台内部,越来越多的服务使用深度学习模型和技术来驱动,这些工作负载具有一些典型的特性,例如:在线推理服务请求的“高峰低谷”现象,导致部分时段系统资源利用率偏低;离线训练集群则存在部门之间资源争抢、分配不公等问题,导致GPU集群吞吐量下降。购置和维护GPU加速器设备带来了昂贵的开销,如何改善AI计算平台的资源使用效率成为了亟需解决的问题。

11月03日,由58同城AI Lab & 天津大学智能与计算学部联合主办的技术交流会,将从高效的集群资源调度和细粒度的在线离线作业混部两个方面进行深入技术交流,探讨如何利用现有的技术手段,优化深度学习推理服务和训练作业性能,提高AI平台的资源使用效率。

6401.jpg

日程介绍

640 1.jpeg

议题分析&听众收益

深度学习平台离线训练作业资源调度优化

新技术/实用技术点:
1、离线训练任务优先级调度。
2、离线训练任务资源使用率预估及调整。
听众收益:
了解通过优先级调度、任务资源使率预估、异构GPU调度等策略优化离线训练任务资源调度,提升资源利用率。

基于任务可预测性的高吞吐分布式训练集群资源调度

新技术/实用技术点:
1、可预测任务的动态资源调度策略
2、混合任务下的统一优先级调度
听众收益:
1、了解作业可预测性定义和分类
2、了解异构资源下的动态资源调度策略
3、了解基于任务优先级的统一调度策略

深度学习平台在线推理服务和离线训练作业混部

新技术/实用技术点::
1、推理服务自动弹性伸缩策略。
2、离在线混部下资源动态调度。
听众收益:
1、了解模型推理服务自动弹性伸缩方案。
2、了解离线作业和在线服务资源混部实现。

分布式微服务场景下的灰度干扰研究和应用混部

新技术/实用技术点:
1、基于时空编码的服务性能及干扰预测。
2、基于微服务组件级可区分的细粒度应用混部。
听众收益:

了解云服务场景下的“灰度干扰”现象,同时针对局部干扰进行细粒度的资源管理和应用混部,提升系统效率。