环境

代码托管:gitlab
CI:tekton
CD: ArgoCD
pipline/task: 阿里云 serverless容器(spot实例且按秒计费)
应用:k8s

GPU应用的特殊性在于单个镜像的大小在10G以上,常见的在20~30G左右,基础镜像制作、构建、上传、容器拉起都会面临一些难题
为解决镜像构建、异常上传、拉起等速度问题,我的方案如下:
构建时: 利用构建缓存,多分层,使用VM主机,利用docker缓存
上传时:如上,分层缓存
拉起:利用云平台的镜像缓存技术,在CD时自动构建镜像,灰度验证阶段进行缓存构建,可提高全量时的创建速度

工作流程

接入流程

配置webhook接收MR/push事件

部署效果

飞书部署卡片每5s会更新一次,容器的create过程会更新在卡片上,直至成功

tekton 流水线

构建异常异常

任务灰度部署提醒

任务生产环境部署提醒

任务部署成功

ArgoCD

部署完成通知

回滚

此回溯场景为 新版本 已全量上线,若是部署过程中需要回滚,可直接点击卡片上的回滚按钮

入口

选择环境

选择版本

此步后的,所有操作同部署时一致



如果想赏钱,可以用微信扫描下面的二维码,一来能刺激我写博客的欲望,二来好维护云主机的费用; 另外再次标注博客原地址 itnotebooks.com 感谢!

基于 OpenCLAW + 飞书构建企业级运维智能助手实践

一、引言 在云原生与分布式架构普及的今天,传统运维模式面临着告警分散、操作繁琐、响应滞后、风险不可控等挑战。本文介绍如何基于 OpenCLAW 大模型网关...

阅读全文

CI/CD(七)镜像全球分发

环境 代码托管:gitlab CI:tekton pipline/task: 阿里云 serverless容器(spot实例且按秒计费) 任务管理:redis 镜像分发工具:crane 效果 核心实现 就近...

阅读全文

基于Informer事件实现多阶梯放量(应用预热)

背景 流量控制是保证服务稳定性的重要手段之一。大数据应用服务因为有缓存构建的过程,需要在启动后通过小流量出发缓存构建再才接收全量流量,若未构建缓存会...

阅读全文

欢迎留言