2025清华大学:DeepSeek与AI幻觉.pdf
DeepSeek与AI幻觉
本文由清华大学新闻与传播学院新媒体研究中心和人工智能学院的团队撰写,主要探讨了DeepSeek在金融行业的应用以及AI幻觉的产生原因、评测方法、潜在风险以及应对策略。以下是文章的核心内容整理:
一、AI幻觉的定义
学术定义:AI幻觉是指模型生成的内容与事实不符、逻辑断裂或脱离上下文,本质上是基于统计概率的“合理猜测”。
通俗说法:AI一本正经地胡说八道,包括事实性幻觉(与现实不符)和忠实性幻觉(与用户指令或上下文不一致)。
二、DeepSeek在金融行业的应用案例
案例1:某头部银行利用DeepSeek构建因果归因网络,识别小微企业违约的隐性因素(如上下游账期错配),设计“供应链票据贴现+账期保险”组合产品,不良率下降4.2个百分点。
案例2:国信证券在“金太阳APP”中部署DeepSeek-R1Distill-32B端侧模型,客户本地输入风险测评数据后,模型生成个性化投资组合建议,数据泄露风险降低90%。
三、AI幻觉产生的原因
数据偏差:训练数据中的错误或片面性被模型放大。
泛化困境:模型难以处理训练集外的复杂场景。
知识固化:模型过度依赖参数化记忆,缺乏动态更新能力。
意图误解:用户提问模糊时,模型易“自由发挥”。清华大学
四、AI幻觉的潜在风险
信息污染:大量AI生成内容涌入互联网,加剧虚假信息传播。
信任危机:用户难以辨别AI内容的真实性,对专业场景的可靠性产生怀疑。
控制欠缺:DeepSeek的开源特性允许使用者随意使用,可能被用于恶意行为。
安全漏洞:错误信息用于自动化系统可能引发连锁反应。
五、AI幻觉评测
通用性测试:DeepSeekV3幻觉率为2%,DeepSeekR1为3%。
事实性测试:DeepSeekV3幻觉率为29.67%,DeepSeekR1为22.33%,Qianwen2.5-Max为27.67%,豆包为19%。
新闻与传播学院新媒体研究中心
评测方法:通过随机生成提示语或事实性问题,人工标注幻觉类型并交叉验证。
六、推理能力与幻觉的关系
推理增强:推理能力强的模型能减少因逻辑错误导致的幻觉,但过度推理也可能引入新的幻觉。
联网搜索:开启联网功能可降低幻觉率,如DeepSeekV3从2%降至0%,DeepSeekR1从3%降至0%。
双AI验证:利用多个AI模型交叉验证,减少幻觉。
七、应对AI幻觉的技术方案
联网搜索:通过联网功能获取最新信息,减少幻觉。
双AI验证:利用多个AI模型交叉验证,减少幻觉。
提示词工程:通过限定知识边界、植入反幻觉检测机制等方法,减少幻觉。
人工智能学院
RAG框架:利用检索增强生成,先搜索权威数据库再生成答案。
外部知识库:结合外部知识库,强化垂直领域知识。
双聘教授@新媒沈阳团队
博士后张家铖
2025年2月
一、什么是AI幻觉
本文由清华大学新闻与传播学院新媒体研究中心和人工智能学院的团队撰写,主要探讨了DeepSeek在金融行业的应用以及AI幻觉的产生原因、评测方法、潜在风险以及应对策略。以下是文章的核心内容整理:
一、AI幻觉的定义
学术定义:AI幻觉是指模型生成的内容与事实不符、逻辑断裂或脱离上下文,本质上是基于统计概率的“合理猜测”。
通俗说法:AI一本正经地胡说八道,包括事实性幻觉(与现实不符)和忠实性幻觉(与用户指令或上下文不一致)。