系统工作原理 - Fin-Trust Lab

1. 系统概览

Fin-Trust Lab 用于评估金融销售话术对不同用户画像的心理影响。系统并存两种实现:

实现 A:纯数学模型 Web 当前使用

基于前景理论 (Kahneman & Tversky, 1979) 的封闭数学公式 + 关键词规则。不调用任何 LLM,完全在本地计算。

入口: web_app.py → academic_agents.py

实现 B:LLM 多智能体 CLI 可选

三个 LLM Agent (用户 / 审计员 / 统计员) 协作,通过 Prompt 让大模型扮演用户产生反应。支持 OpenAI / Anthropic / Gemini。

入口: main.py → agents/

为什么两套并存?纯数学版可复现、零成本、毫秒级,适合 Web 实时演示;LLM 版输出更"像人",但有调用成本、不可完全复现,适合定性研究。

2. 实现 A:纯数学模型(Web 当前路径)

2.1 完整流程

1解析市场环境 — 关键词扫描("下跌" / "上涨" / 中性)→ 输出趋势、波动性、损失概率、预期收益

2分析话术框架 — 关键词分类:损失框架、收益框架、情感诉求、技术复杂度、看涨/看空/安慰/理性话术评分

3生成个体参数 — 基于金融素养 Lit 和风险偏好,从标准前景理论参数 (λ=2.25, γ=0.61, α=β=0.88) 派生用户专属 (λ, γ, α, β)

4构建三种决策的前景 — 买入 / 持有 / 赎回,每个是 (outcomes, probabilities) 二元组。关键修正:赎回 = v(0) = 0(锁定参考点)

5计算前景值 PV = Σ v(x) · w(p),其中价值函数 v(x)=x^α 或 -λ(-x)^β,Prelec 概率权重 w(p)=p^γ/(p^γ+(1-p)^γ)^(1/γ)

6话术偏移 (Script Bias) — 安慰话术对持有 +bias,威胁话术 ("失去"/"永久") 对赎回施加偏移

7Softmax 决策概率 — P(d) ∝ exp(θ·PV(d)),理性系数 θ = 1.5 + 8·Lit(素养越高越理性)

8蒙特卡洛采样 100 次 — 按概率分布随机抽样,统计 RBR / BCR / NIR / RPI 五项指标

9规则化生成第一反应 — 模板字符串,根据 emotion_score 和金融素养选择固定话术片段

2.2 核心公式

价值函数:    v(x) = x^α              (x ≥ 0)
              v(x) = -λ · (-x)^β      (x < 0)

概率权重:    w(p) = p^γ / [p^γ + (1-p)^γ]^(1/γ)         (Prelec, 1998)

前景值:      PV = Σ v(xᵢ) · w(pᵢ)

决策概率:    P(d) = exp(θ·PV(d)) / Σ exp(θ·PV(d'))     (Softmax)

参数派生:    γ_user = 0.61 + (Lit - 0.5) · 0.2
              λ_user = 2.25 · risk_multiplier
              θ      = 1.5 + 8·Lit

2.3 特性

完全可复现 — 同输入同输出(除蒙特卡洛 numpy 随机种子外)
零外部依赖 — 不调用网络,响应 < 100ms
每一步可审计 — 输入、参数、中间值都可在 /transparency/<session_id> 查看
关键词命中是黑箱 — 话术理解依赖人工编写的关键词列表(看空/看涨/安慰/理性各 6-8 个词)

3. 实现 B:LLM 多智能体(可选路径)

3.1 完整流程

1构造用户画像 Prompt — 把 (loss_aversion, financial_literacy, emotional_weight, initial_trust) 作为参数,加上市场环境和话术拼成 Prompt

2UserAgent 调用 LLM — GPT-4 / Claude 3.5 / Gemini 1.5 Pro,temperature=0.7,要求模型扮演该画像用户输出 JSON

3解析 JSON — 提取 first_reaction、emotion_score、decision、decision_probability、reasoning (思维链)

4循环 N 次 — 重复 1-3 步生成 N 个用户响应样本(默认 100 次,每次都是独立 LLM 调用)

5AuditorAgent 审计 — 第二个 LLM 检查每个响应是否符合行为金融学逻辑 (情绪-决策一致性、参数合理性、是否引用 Kahneman/Tversky 等),输出 PASS/FAIL

6StatisticsAgent 聚合 — 第三个 Agent 汇总所有响应,计算 RBR / BCR / NIR / 通过率,生成定性洞察和优化建议

3.2 核心 Prompt 结构(UserAgent)

你是一个真实的金融产品用户...

## 你的参数化画像
- 损失厌恶度: {loss_aversion}
- 金融素养: {financial_literacy}
- 感性权重: {emotional_weight}
- 当前信任度: {initial_trust}

## 当前市场环境
{market_context}

## 收到的话术
"{script}"

请以 JSON 格式输出:
{
  "first_reaction": "...",
  "emotion_score": -0.6,
  "decision": "买入/持有/赎回",
  "decision_probability": {...},
  "reasoning": "思维链..."
}

3.3 特性

语言更自然 — first_reaction 和 reasoning 是模型生成的连贯文本,不是模板拼接
能理解新词 — 不依赖预定义关键词,可处理任意话术
不可完全复现 — 即便 temperature=0,不同模型版本输出会变;同模型 temperature=0.7 每次都不同
有调用成本 — 100 次模拟 + 审计 ≈ 200 次 API 调用,延迟 30s-2min
前景理论是软约束 — 模型"被告知"画像参数,但是否真按照价值函数公式推理无法验证

4. 两种实现的差异化对比

维度	实现 A:纯数学	实现 B:LLM
用户决策机制	前景理论公式 + Softmax,数学严格	LLM 角色扮演,前景理论作为 Prompt 提示
话术理解方式	预定义关键词列表匹配(看空/看涨/安慰/理性)	LLM 自然语言理解,语义层面
复现性	高(给定随机种子完全复现)	低(同输入不同输出)
响应延迟	毫秒级	30 秒 - 2 分钟
成本	零	每次完整测试 ~$0.5-2 (取决于模型)
第一反应文本	模板拼接,4-5 种固定句式	LLM 生成,千变万化
对未知话术	关键词不命中时退化到中性默认值	仍能给出合理推理
可审计性	每一步公式、参数、中间值全公开	只能看 Prompt 和最终 JSON,推理路径黑箱
偏见来源	关键词列表的选择(人工)、参数派生公式(经验)	LLM 训练数据偏见 + Prompt 引导
典型用途	Web 实时演示、批量测试、教学	定性研究、case study、生成式探索

5. 可信度评估

实现 A 可信度

中等

强项:前景理论参数有学术依据 (Tversky & Kahneman 1992; Prelec 1998),数值范围在文献区间内。

弱项:话术语义理解依赖人工关键词,极易遗漏新表达。前景构建中的"反弹概率""加仓损失放大倍数"等是经验设定,无外部数据校准。

实现 B 可信度

中等(偏低)

强项:语言自然,能捕捉细微语境差异,适合发现人工没想到的话术效果。

弱项:"LLM 模拟用户"本质是模型基于训练数据想象的用户,不是真实用户。无任何证据 LLM 能正确表达 λ=2.93 这种参数化差异。模型也可能因 RLHF 偏向"政治正确"答案。

共同局限:

两套实现都未与真实用户行为数据对齐,本质是理论推演而非实证研究
所有指标 (RBR / BCR / NIR / RPI) 是相对参考,不应被解读为真实业务转化率
系统适合话术之间的对比分析 (A 比 B 更安抚?),不适合绝对预测 (这话术能挽回多少赎回?)
金融销售话术的实际效果受用户当下情绪、客户经理关系、过往经历等无法量化的因素影响

建议使用方式

课堂教学 — 演示前景理论如何影响金融决策,实现 A 完全够用
话术 A/B 对比 — 用同一画像跑多个话术看相对差异,两套都可,推荐 A(快、可复现)
定性洞察生成 — 寻找意料外的话术风险,用 B
合规自查启发 — 作为合规审查的辅助提示工具,但不能替代人工审查
不应用于:真实业务决策、KPI 设定、合规判定、个人投资建议