11月27日和28日深圳,TsingtaoAI研发团队为某金融科技集团的研发团队交付AI大模型在运维领域的应用主题实训。本实训专为运维专业人士设计,旨在深入探讨大模型技术在现代IT运维管理中的应用与实践。本实训从大模型技术的基础知识出发,逐步引导学员了解其在自动化运维、智能监控、日志分析、性能优化和故障排错等方面的具体应用。
实训内容丰富,结合理论与实践案例,详细解析大模型技术如何解决运维中的高并发、海量数据处理和复杂故障诊断等挑战。通过案例分析,学员将学习到如何在实际工作中部署和利用大模型,提升运维效率,保障系统稳定性,并为企业节省成本。
实训不仅涵盖了技术层面的深入讲解,还包括团队技能培养、项目管理策略和未来趋势的前瞻性讨论。通过互动环节,学员将有机会与同行交流心得,共同探讨大模型在各自领域的应用潜力。本课程适合希望在运维领域保持竞争力的资深工程师和团队领导者,帮助他们在大模型时代中把握先机,引领变革。



实训目标
● 理解大模型技术及其在运维中的应用价值
● 掌握大模型在不同运维场景下的具体实施方法
● 学习如何通过大模型提升运维效率和系统稳定性
实训对象
企业对象:互联网企业基础设施、IT部门、运维团队,传统企业的IT部门、运维部门
学员对象:业务运维工程师、资源管理工程师、IDC运维工程师、开发工程师、研发架构师、基础架构师、技术管理者
实训大纲(2天):
第一天 上午:大模型及智能运维AIOps技术通用认知
1. AIOps的演进过程:从规则到统计算法、到大模型赋能智能化运维
2. 大模型的在运维领域的阶段应用及案例
3. RAG相关技术和知识库基础,及快速演示,及初步优化
4. 智能体技术入门、Agent/A2A/MCP协议初步讲解
5. 运维专家的隐性知识转化为可执行的推理流程
第一天 下午:构建运维知识库
基于大模型的知识库工作原理及多模态信息转化为知识信息的方法
6. 企业的运维知识库构建
A.企业运维知识分类、及采集整理成为知识库
B.CMDB元数据及配置项信息整理成为知识库的方法及案例
C.运维文档/架构图等文档转为知识库
D.预案SOP文档知识如何有效转为知识库
E.运维元数据转化为知识库
F.基于运维故障报告的根因推荐
G.工程师运维经验如何转化为运维知识并入库的方法
H.案例:基于Deepseek构建企业运维知识库及智能问答
7. 动态知识库:大模型使用动态变化的运维数据知识
A.把变更记录转化为知识库
B.组织整理监控指标成为知识库
C.运维日志转为知识,并在故障定位中应用
D.故障处理讨论记录、操作日志导入大模型知识库
E.知识迭代:知识库的应用与反馈、产生新知识入库
8. 构建运维知识库的难点与挑战问题
第二天 上午:
● 通过DeepSeek 进行故障智能诊断与根因定位
● SRE进行故障定位的方法和实践
● 大模型 如何协助 RCA 推理,多轮推理与工具调用的协同
● 基于大模型构建关联多源数据的知识图谱
● 在故障定位时如何利用运维知识库,及基于置信度的异常判断
● 案例:诊断某系统中断,定位到数据库配置错误。
● 实践:对模拟事件进行 RCA,生成分析报告。
● 运维的应用场景案例:复杂问题排查:
Java故障诊断案例,MCP结合日志分析进行故障诊断
操作系统OS:系统内核故障深度根因分析
第二天 下午:
● 大模型在运维中的应用场景和案例
● 大模型在日常问题分析应用
● 运维管理:运维日常工作报告、运维故障报告整理
● 大模型 for 运维专业岗位赋能,DBA、系统专家、网络专家
● 大模型在运维开发中的应用
● 从0到1设计和实现RAG智能体应用
● 需求分析与边界定义
● 技术栈选型
● 数据采集(覆盖运维核心场景)
● 数据预处理
● 知识库部署
● 运维如何用好大模型提示词
● 运维领域的Prompt工程及实操
● Prompt工程及调优技巧
● IT 运维任务的提示示例:日志分析、故障排查,常见错误及避免方法
● 实践 设计并优化提示,用于分析样本日志文件,验证输出准确性。
部分实训课件




实训技术专家
张老师 AI运维资深技术专家
泰健科技CTO,《SRE原理与实践:构建高可靠性互联网应用》作者。
曾任虎牙资深运维专家和架构师,拥有20年软件开发、架构、运维、SRE经验。历任项目研发负责人、SRE负责人、架构师,事故管理委员会委员、基础保障部架构师委员会委员。
为虎牙基于微服务架构的直播业务、音视频业务、海外直播业务建立了稳定性保障体系,在混合多云架构、可观测性、预案、变更管控、AIOps等SRE领域有深入研究和丰富经验。多次担任虎牙“英雄联盟全球总决赛直播”稳定性保障负责人。
同时,他也是中国信通院分布式系统稳定性实验室高级技术专家,参与编写了信通院《信息系统稳定性保障能力建设指南》。《运维前线》一书的联合作者。多次参与GOPS、MSUP/EE、GDevops、Takintalks技术大会分享。
孙老师 AI运维技术专家
资深云原生架构专家,拥有20年IT从业经验,深耕金融科技与AI运维领域。曾任职IBM和华为等知名企业,为多家大型银行和保险公司提供核心系统支持。近年来专注于云原生转型和平台工程,在AI与运维结合方面具有丰富实战经验。
通过公众号"云云众生s"分享大量AI相关技术内容,涵盖AI在运维场景的实际应用、云原生技术实践等前沿话题,在业界具有一定影响力。
核心优势:
20年IT架构与运维经验,具备深厚的技术底蕴
丰富的AI大语言模型应用开发经验
熟练掌握DevOps、云原生、自动化运维等现代技术栈
具备优秀的培训与知识传播能力
拥有完整的课程体系设计和项目实战经验
核心技能
AI与智能运维
AI大语言模型应用开发:基于Google Gemini、Groq Llama3等商用和开源模型开发多个实用工具
智能运维平台:使用Go语言开发自动化运维产品Edith,支持20+种产品的智能化管理
AI内容创作:构建基于AI的新媒体半自动发布平台,实现文章翻译、视频处理等自动化流程
云原生技术栈
容器编排:Kubernetes、Docker、Helm、ArgoCD
监控观测:Prometheus、OpenTelemetry、eBPF、ClickHouse
服务网格:Istio
CI/CD:Jenkins、GitLab、Harbor
开发技术
后端开发:Go、Java、Python
前端技术:Angular、Vue、React、Next.js
中间件:WebLogic、WebSphere、JBoss、Tuxedo
云平台:AWS、阿里云、华为云、Azure
方法论
DevOps、Scrum、Architectural Thinking、Design Thinking
工作经历
架构师
2024.06 - 至今
负责银行核心产品研发,参与支持多家银行等重要金融机构的核心系统项目。
主要成就:
作为银行核心系统架构师,设计全行级核心业务系统架构
主导分布式微服务架构规划,确保日均亿级交易稳定处理
推进DevOps平台建设,优化持续交付能力
负责核心系统的云原生改造,以及海外云环境的自动化部署
推动AI工具的引入,提高开发运维效率
全栈开发 | 自由职业
2024.04 - 2024.06
专注AI技术在内容创作领域的应用实践。
核心项目:
构建基于AI的新媒体半自动发布平台
实现英文文章AI自动下载、翻译、整理和发布
开发技术视频自动处理流程:下载→语音识别→字幕翻译→视频压制→发布
使用技术:Google Gemini、Groq API、LlamaIndex、Prefect任务调度
目前公众号"云云众生s"和对应视频号基于此平台运营
云原生解决方案部总监 | 北京中亦安图科技股份有限公司
2021.07 - 2024.03
核心职责:
组建云原生团队,构建DevOps和平台工程解决方案
带领研发部门进行云原生转型
负责重要客户的云原生服务售前工作
使用Go语言开发自动化运维产品Edith核心代码
DevOps总监 | 青岛中瑞集团
2019.07 - 2021.06
主要成就:
带领公司微服务架构转型,组织软件开发过程改进
领导DevOps平台建设:Kubernetes、Jenkins、GitLab等
实施多云管理:阿里云、AWS、华为云
解决Kubernetes关键技术问题:EKS、Prometheus、Istio等
推动公司实现微服务化、DevOps化、多云化转型
产品专家/自动化运维项目负责人 | IBM
2011.08 - 2019.06
专业领域:
中间件产品专家:WebLogic、WebSphere、JBoss、Tomcat、Tuxedo
自动化运维工程师:开发自动化工程流程,提升运维效率
架构咨询顾问:提供高可用性和运维架构咨询
Kubernetes产品支持:ICP和OpenShift产品技术支持
重点项目经验
EasyDevOps课程设计与实施
2023.11 - 2024.03
设计并实施完整的云原生开源DevOps课程体系。
课程特色:
提供完整DevOps平台参考架构
融合Kubernetes、Jenkins、ArgoCD、Harbor、GitLab等产品
结合云原生运维和开发方法论
帮助团队快速转向云原生DevOps环境
AI驱动的新媒体平台
2024.03 - 2024.06
技术创新:
集成多个大语言模型API(Gemini、Groq)
使用LlamaIndex框架构建AI应用
Prefect实现复杂任务调度
实现端到端的内容自动化处理流程
Edith自动化运维产品
2022.01 - 2023.12
产品特点:
Go语言开发,部署简单,功能强大
支持Linux、Oracle、MySQL、WebLogic等20+产品
已在200+客户中成功应用
实现一个命令行工具管理多种IT基础设施
Concerto统一可观测平台
2023.04 - 2023.11
技术架构:
融合OpenTelemetry、eBPF、ClickHouse等先进技术
统一Log、Metric、Trace三大可观测支柱
新一代可观测解决方案设计
教育背景与认证
学历:
本科 | 数学与应用数学 + 计算机科学 | 中国海洋大学 | 1998-2002
专业认证:
IBM系列认证:Container & Kubernetes Essentials、Microservices with Istio、Data Analysis with Python等
Oracle WebLogic Server认证专家- MongoDB认证开发者- IBM区块链认证- 多项IBM专业技能认证
荣誉与成就
软件企业经营技能人才 | 北京软件和信息服务业协会
杰出贡献奖 | BEA Dev2dev社区
IBM专业认证讲师 | IBM
社区贡献与影响力
公众号"云云众生s"运营- 专注分享云原生、AI、DevOps等前沿技术- 大量AI相关原创内容和实践案例- 技术视频制作与分享- 在业界具有一定影响力
开源社区贡献- Subversion中文站站长(2004-2012)- Subversion项目代码贡献者- 组织官方文档翻译工作- **BEA Dev2dev社区版主,获得杰出贡献奖
培训与讲师经验
企业培训经验- 多家大型企业Subversion培训和咨询- 云原生技术内部培训- DevOps方法论和实践培训- 中间件技术培训和支持
课程开发能力- 具备完整课程体系设计能力- 理论结合实践的教学方法- 丰富的项目案例库- 优秀的技术传播和知识分享能力
关于TsingtaoAI
TsingtaoAI企业实训业务线专注于提供LLM、具身智能、AIGC、智算和数据科学领域的企业实训服务,通过深入业务场景的案例实战和项目式实训,帮助企业应对AI转型中的技术挑战。其实训内容涵盖AI大模型开发、Prompt工程、数据分析与模型优化等最新前沿技术,并结合实际应用场景,如智能制造、医药健康、金融科技和智能驾驶等。通过案例式学习和PBL项目训练,TsingtaoAI能够精准满足企业技术团队的学习需求,提升员工的业务能力和实战水平,实现AI技术的高效落地,为企业创新和生产力提升提供强有力的支持。
同时,TsingtaoAI公司并不是一家单纯的实训机构,我们同样是一家AI产品开发公司,公司核心团队主要也都是由技术和产品人才构成,公司团队大部分成员在大模型时代之前就在从事AI产品相关的工作。公司在过去一年里,为10余家客户开发了AI相关的产品,涵盖医疗、教育、智能制造、人力资源等领域。相信我们在AI产品开发和客户服务的过程所形成的认知和方法论,能对贵司的需求有更深更细的洞察和理解,也能提供更深入业务肌理的“AI能力获得”。