Fin-Trust Lab 的两套实现:它们如何工作、有什么差异、可信度如何
Fin-Trust Lab 用于评估金融销售话术对不同用户画像的心理影响。系统并存两种实现:
基于前景理论 (Kahneman & Tversky, 1979) 的封闭数学公式 + 关键词规则。不调用任何 LLM,完全在本地计算。
入口: web_app.py → academic_agents.py
三个 LLM Agent (用户 / 审计员 / 统计员) 协作,通过 Prompt 让大模型扮演用户产生反应。支持 OpenAI / Anthropic / Gemini。
入口: main.py → agents/
(outcomes, probabilities) 二元组。关键修正:赎回 = v(0) = 0(锁定参考点)v(x)=x^α 或 -λ(-x)^β,Prelec 概率权重 w(p)=p^γ/(p^γ+(1-p)^γ)^(1/γ)P(d) ∝ exp(θ·PV(d)),理性系数 θ = 1.5 + 8·Lit(素养越高越理性)/transparency/<session_id> 查看first_reaction、emotion_score、decision、decision_probability、reasoning (思维链)| 维度 | 实现 A:纯数学 | 实现 B:LLM |
|---|---|---|
| 用户决策机制 | 前景理论公式 + Softmax,数学严格 | LLM 角色扮演,前景理论作为 Prompt 提示 |
| 话术理解方式 | 预定义关键词列表匹配(看空/看涨/安慰/理性) | LLM 自然语言理解,语义层面 |
| 复现性 | 高(给定随机种子完全复现) | 低(同输入不同输出) |
| 响应延迟 | 毫秒级 | 30 秒 - 2 分钟 |
| 成本 | 零 | 每次完整测试 ~$0.5-2 (取决于模型) |
| 第一反应文本 | 模板拼接,4-5 种固定句式 | LLM 生成,千变万化 |
| 对未知话术 | 关键词不命中时退化到中性默认值 | 仍能给出合理推理 |
| 可审计性 | 每一步公式、参数、中间值全公开 | 只能看 Prompt 和最终 JSON,推理路径黑箱 |
| 偏见来源 | 关键词列表的选择(人工)、参数派生公式(经验) | LLM 训练数据偏见 + Prompt 引导 |
| 典型用途 | Web 实时演示、批量测试、教学 | 定性研究、case study、生成式探索 |
强项:前景理论参数有学术依据 (Tversky & Kahneman 1992; Prelec 1998),数值范围在文献区间内。
弱项:话术语义理解依赖人工关键词,极易遗漏新表达。前景构建中的"反弹概率""加仓损失放大倍数"等是经验设定,无外部数据校准。
强项:语言自然,能捕捉细微语境差异,适合发现人工没想到的话术效果。
弱项:"LLM 模拟用户"本质是模型基于训练数据想象的用户,不是真实用户。无任何证据 LLM 能正确表达 λ=2.93 这种参数化差异。模型也可能因 RLHF 偏向"政治正确"答案。