WPAI离线训练作业和在线推理服务的混合部署实践


背景WPAI深度学习平台是集开发实验、模型训练和在线预测为一体的一站式算法研发平台,旨在为集团各业务部门赋能AI算法研发能力,支撑了58同城搜索、推荐、图像、NLP、语音、风控等AI应用。WPAI平台上包括离线模型训练作业和在线模型推理服务两大类任务,在旧有部署模式下,模型训练作业和推理服务是两套资

Pod 垂直扩缩容


亲和性和反亲和性


使用 Source IP


使用Kubefed安装集群Federation


Kubernetes 引导启动


Kubernetes 高可用 (HA)


使用 kops 在 AWS 部署 Kubernetes 集群


Docker简介