从强化学习(多)智能体到大语言模型(多)智能体.docx

毛航宇-强化学习(多)智能体 和 大语言模型(多)智能体.pdf 毛航宇快手科技快意大模型知识增强研发负责人现就职于快手科技，快意大模型知识增强研发负责人，同时兼任智能交互团队负责人。主要关注Agent,RAG,Alignment,RL,LLM等技术，在ICLR及NeurIPS,ICML等CCF-A/B类会议和期刊上发表论文30余篇，申请国际、国内专利十余项，相关研究在企业场景落地并产生较大效益。曾担任上述国际会议的PC,SeniorPC,AreaChair，中国数据挖掘会议（CCDM）的论坛主席，以及CC

2025-03-16 约6.44万字 72页立即下载

毛航宇-强化学习(多)智能体 和 大语言模型(多)智能体.docx 毛航宇快手科技快意大模型知识增强研发负责人现就职于快手科技，快意大模型知识增强研发负责人，同时兼任智能交互团队负责人。主要关注Agent,RAG,Alignment,RL,LLM等技术，在ICLR及NeurIPS,ICML等CCF-A/B类会议和期刊上发表论文30余篇，申请国际、国内专利十余项，相关研究在企业场景落地并产生较大效益。曾担任上述国际会议的PC,SeniorPC,AreaChair，中国数据挖掘会议（CCDM）的论坛主席，以及CCF多智能体学组的执行委员。本人和所带领的团队曾获全球数字经济大会“

2025-03-14 约4万字 132页立即下载

毛航宇-强化学习(多)智能体 和 大语言模型(多)智能体.pdf 毛航宇快手科技快意大模型知识增强研发负责人现就职于快手科技，快意大模型知识增强研发负责人，同时兼任智能交互团队负责人。主要关注Agent,RAG,Alignment,RL,LLM等技术，在ICLR及NeurIPS,ICML等CCF-A/B类会议和期刊上发表论文30余篇，申请国际、国内专利十余项，相关研究在企业场景落地并产生较大效益。曾担任上述国际会议的PC,SeniorPC,AreaChair，中国数据挖掘会议（CCDM）的论坛主席，以及CC

2025-03-16 约6.44万字 72页立即下载

毛航宇_强化学习多智能体和大语言模型多智能体.pdf 从强化学习(多)智能体 到大语言模型(多)智能体 毛航宇，快手科技 2024年10月12日@RLChina2024 目录 1.强化学习(多)智能体到大语言模型(多)智能体十年研究脉络梳理 2.强化学习(多)智能体到大语言模型(多)智能体代表工作选讲 DeepRLAgent(DRL) Transformer-basedRLAgent(TRL) LLM-basedAIAgent 3.企业实践中的心得体会 2 Background:RLAgents Background:AIAgents https://lilianweng.github.io/posts/2023-06-23-agent/ 强化学

2025-01-07 约3.28万字 24页立即下载

强化学习(多)智能体 和 大语言模型(多)智能体-2024全球机器学习技术大会.pdf 2024全球机器学习技术大会（北京站）主题涵盖大语言模型技术演进、多模态大模型前沿、大模型工程与架构、大模型应用开发实践、AI智能代理、代码大模型等12个热门专题，力求为全球开发者、研究人员、行业技术人员提供全方位、多角度的技术交流平台。 2024全球机器学习技术大会（北京站）主题涵盖大语言模型技术演进、多模态大模型前沿、大模型工程与架构、大模型应用开发实践、AI智能代理、代码大模型等12个热门专题，力求为全球开发者、研究人员、行业技术人员提供全方位、多角度的技术交流平台。 2024全球机器学习技术大会（北京站）主题涵盖大语言模型技术演进、多模态大模型前沿、大模型工程与架构、大模型应用开发实践

2024-11-25 约7.78万字 72页立即下载

2025-02-21 约2.21万字 33页立即下载

从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例.docx 浙江大学DeepSeek系列专题线上公开课（第二季） 从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例肖俊浙江大学计算机学科与技术学院人工智能研究所浙江大学人工智能教育教学研究中心 2025.03杭州提纲 ?大模型推理能力快速提升 ?推理模型和思维链(CoT) ?智能体是什么？ ?四链融合产业大脑案例 大模型推理能力快速提升快速回望历史——大模型的产生 nChatGPT所能实现的人类意图，来自于机器学习、神经网络以及Transformer模型的多种技术模型积累进行海量数据学习训练，人类的反馈信息成为模型学习的内容对人脑学习过程进行重点关注开始模仿人脑进行大量数据的标记基于

2025-03-21 约1.38万字 61页立即下载

从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例.pdf 心中究研心学中浙江大学DeepSeek系列专题线上公开课（第二季）教究育研心教学中能教究智育研心工教 从大模型、智能体到复杂AI应用系统的构建人能学中学智教究大工育研教学江——以产业大脑为例浙人能教学智育大工教江人肖俊能浙学智大工浙江大学计算机学科与技术学院人工智能研究所江人浙江大学人工智能教育教学研究中心浙学大 2025.03杭州江浙提纲心中究研心学中 •大模型推理能力快速提升教究育研心教学中 •推理模型和思维链(CoT)

2025-03-20 约9.59万字 61页立即下载

从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例.pptx 浙江大学DeepSeek系列专题线上公开课（第二季） 从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例肖俊浙江大学计算机学科与技术学院人工智能研究所浙江大学人工智能教育教学研究中心 2025.03杭州; ?大模型推理能力快速提升 ?推理模型和思维链(CoT) ?智能体是什么？ ?四链融合产业大脑案例;; ChatGPT经过多类技术积累，最终形成针对人类反馈信息学习的大规模预训练语言模型;;; Source:https://lifearchitect.ai/timeline/ 大模型发展迅速，参数量从百亿到万亿规模; 早期大模型在推理能力上存在明显短板; 无法在复杂的思维链中保持

2025-03-19 约2.33千字 61页立即下载

从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例.pptx 浙江大学DeepSeek系列专题线上公开课（第二季） 从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例肖俊浙江大学计算机学科与技术学院人工智能研究所浙江大学人工智能教育教学研究中心 2025.03杭州 •大模型推理能力快速提升 •推理模型和思维链(CoT) •智能体是什么？ •四链融合产业大脑案例提纲 大模型推理能力快速提升开始模仿人脑进行大量数据的标记和训练神经网络 CNN RNN GAN 1990年开始； 2006年获得突破快速回望历史——大模型的产生对人脑学习过程进行重点关注 Transformer 2017年 ChatGPT 2022年 Instru

2025-03-22 约1.31万字 61页立即下载

2025-03-24 约2.62万字 10页立即下载

从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例.pptx 从大模型、智能体到复杂AI应用系统的构建;提纲;大模型推理能力快速提升;快速回望历史——大模型的产生;里程碑：ChatGPT的成功;里程碑：ChatGPT的成功;大模型能力不断增长;早期大模型在推理能力上存在明显短板;早期大模型在推理能力上存在明显短板;怀疑论;横空出世：OpenAIo1/o3、DeepSeek-R1等;横空出世：OpenAIo1/o3、DeepSeek-R1等;小结一：;推理模型和思维链(ChainofThought,CoT);推理大模型的发展;OpenAI-o系列推理模型;什么是思维链(CoT);什么是思维链(CoT);DeepSeek-R1的推理过程;如何低成本实现推理模

2025-04-06 约小于1千字 60页立即下载

2025浙江大学：从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例.pdf 心中究研心学中浙江大学DeepSeek系列专题线上公开课（第二季）教究育研心教学中能教究智育研心工教 从大模型、智能体到复杂AI应用系统的构建学中 2025年，人工智能的发展呈现出多维度的趋势。技术方面，多模态AI成为重要发展方向，能够同时处理文本、图像、音频和视频等多种数据类型，为企业提供更全面的解决方案。同时，AI与物联网、边缘计算的结合更加紧密，推动设备智能化，提升用户体验和工业效率。例如，智能家居设备通过边缘AI实现更快速的语音识别和环境感知。在应用领域，AI进一步渗透到医疗、金融、教育等传统行业，推动数字化转型。例如，医疗领域中AI辅助诊断准确率不断提升，北

2025-04-07 约13.22万字 61页立即下载

从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例.docx 浙江大学DeepSeek系列专题线上公开课（第二季） 从大模型、智能体到复杂AI应用系统的构建 ——以产业大脑为例 2025.03杭州提纲 ?大模型推理能力快速提升 ?推理模型和思维链(CoT) ?智能体是什么？ ?四链融合产业大脑案例 大模型推理能力快速提升快速回望历史——大模型的产生 nChatGPT所能实现的人类意图，来自于机器学习、神经网络以及Transformer模型的多种技术模型积累基于模板和规则的前深度学习阶段基于规则基于规则的少量数据处理 1950年开始开始模仿人脑进行大量数据的标记和训练对人脑学习过程进行重根据一定范开始模仿人脑进行大量数据的标记和训练对

2025-04-07 约1.33万字 61页立即下载

2025-05-06 约2.55万字 41页立即下载