← 返回主页

系统工作原理

Fin-Trust Lab 的两套实现:它们如何工作、有什么差异、可信度如何

1. 系统概览

Fin-Trust Lab 用于评估金融销售话术对不同用户画像的心理影响。系统并存两种实现:

实现 A:纯数学模型 Web 当前使用

基于前景理论 (Kahneman & Tversky, 1979) 的封闭数学公式 + 关键词规则。不调用任何 LLM,完全在本地计算。

入口: web_app.pyacademic_agents.py

实现 B:LLM 多智能体 CLI 可选

三个 LLM Agent (用户 / 审计员 / 统计员) 协作,通过 Prompt 让大模型扮演用户产生反应。支持 OpenAI / Anthropic / Gemini。

入口: main.pyagents/

为什么两套并存?纯数学版可复现、零成本、毫秒级,适合 Web 实时演示;LLM 版输出更"像人",但有调用成本、不可完全复现,适合定性研究。

2. 实现 A:纯数学模型(Web 当前路径)

2.1 完整流程

1解析市场环境 — 关键词扫描("下跌" / "上涨" / 中性)→ 输出趋势、波动性、损失概率、预期收益
2分析话术框架 — 关键词分类:损失框架、收益框架、情感诉求、技术复杂度、看涨/看空/安慰/理性话术评分
3生成个体参数 — 基于金融素养 Lit 和风险偏好,从标准前景理论参数 (λ=2.25, γ=0.61, α=β=0.88) 派生用户专属 (λ, γ, α, β)
4构建三种决策的前景 — 买入 / 持有 / 赎回,每个是 (outcomes, probabilities) 二元组。关键修正:赎回 = v(0) = 0(锁定参考点)
5计算前景值 PV = Σ v(x) · w(p),其中价值函数 v(x)=x^α-λ(-x)^β,Prelec 概率权重 w(p)=p^γ/(p^γ+(1-p)^γ)^(1/γ)
6话术偏移 (Script Bias) — 安慰话术对持有 +bias,威胁话术 ("失去"/"永久") 对赎回施加偏移
7Softmax 决策概率P(d) ∝ exp(θ·PV(d)),理性系数 θ = 1.5 + 8·Lit(素养越高越理性)
8蒙特卡洛采样 100 次 — 按概率分布随机抽样,统计 RBR / BCR / NIR / RPI 五项指标
9规则化生成第一反应 — 模板字符串,根据 emotion_score 和金融素养选择固定话术片段

2.2 核心公式

价值函数: v(x) = x^α (x ≥ 0) v(x) = -λ · (-x)^β (x < 0) 概率权重: w(p) = p^γ / [p^γ + (1-p)^γ]^(1/γ) (Prelec, 1998) 前景值: PV = Σ v(xᵢ) · w(pᵢ) 决策概率: P(d) = exp(θ·PV(d)) / Σ exp(θ·PV(d')) (Softmax) 参数派生: γ_user = 0.61 + (Lit - 0.5) · 0.2 λ_user = 2.25 · risk_multiplier θ = 1.5 + 8·Lit

2.3 特性

3. 实现 B:LLM 多智能体(可选路径)

3.1 完整流程

1构造用户画像 Prompt — 把 (loss_aversion, financial_literacy, emotional_weight, initial_trust) 作为参数,加上市场环境和话术拼成 Prompt
2UserAgent 调用 LLM — GPT-4 / Claude 3.5 / Gemini 1.5 Pro,temperature=0.7,要求模型扮演该画像用户输出 JSON
3解析 JSON — 提取 first_reactionemotion_scoredecisiondecision_probabilityreasoning (思维链)
4循环 N 次 — 重复 1-3 步生成 N 个用户响应样本(默认 100 次,每次都是独立 LLM 调用)
5AuditorAgent 审计 — 第二个 LLM 检查每个响应是否符合行为金融学逻辑 (情绪-决策一致性、参数合理性、是否引用 Kahneman/Tversky 等),输出 PASS/FAIL
6StatisticsAgent 聚合 — 第三个 Agent 汇总所有响应,计算 RBR / BCR / NIR / 通过率,生成定性洞察和优化建议

3.2 核心 Prompt 结构(UserAgent)

你是一个真实的金融产品用户... ## 你的参数化画像 - 损失厌恶度: {loss_aversion} - 金融素养: {financial_literacy} - 感性权重: {emotional_weight} - 当前信任度: {initial_trust} ## 当前市场环境 {market_context} ## 收到的话术 "{script}" 请以 JSON 格式输出: { "first_reaction": "...", "emotion_score": -0.6, "decision": "买入/持有/赎回", "decision_probability": {...}, "reasoning": "思维链..." }

3.3 特性

4. 两种实现的差异化对比

维度 实现 A:纯数学 实现 B:LLM
用户决策机制 前景理论公式 + Softmax,数学严格 LLM 角色扮演,前景理论作为 Prompt 提示
话术理解方式 预定义关键词列表匹配(看空/看涨/安慰/理性) LLM 自然语言理解,语义层面
复现性 高(给定随机种子完全复现) 低(同输入不同输出)
响应延迟 毫秒级 30 秒 - 2 分钟
成本 每次完整测试 ~$0.5-2 (取决于模型)
第一反应文本 模板拼接,4-5 种固定句式 LLM 生成,千变万化
对未知话术 关键词不命中时退化到中性默认值 仍能给出合理推理
可审计性 每一步公式、参数、中间值全公开 只能看 Prompt 和最终 JSON,推理路径黑箱
偏见来源 关键词列表的选择(人工)、参数派生公式(经验) LLM 训练数据偏见 + Prompt 引导
典型用途 Web 实时演示、批量测试、教学 定性研究、case study、生成式探索

5. 可信度评估

实现 A 可信度

中等

强项:前景理论参数有学术依据 (Tversky & Kahneman 1992; Prelec 1998),数值范围在文献区间内。

弱项:话术语义理解依赖人工关键词,极易遗漏新表达。前景构建中的"反弹概率""加仓损失放大倍数"等是经验设定,无外部数据校准。

实现 B 可信度

中等(偏低)

强项:语言自然,能捕捉细微语境差异,适合发现人工没想到的话术效果。

弱项:"LLM 模拟用户"本质是模型基于训练数据想象的用户,不是真实用户。无任何证据 LLM 能正确表达 λ=2.93 这种参数化差异。模型也可能因 RLHF 偏向"政治正确"答案。

共同局限:
  • 两套实现都未与真实用户行为数据对齐,本质是理论推演而非实证研究
  • 所有指标 (RBR / BCR / NIR / RPI) 是相对参考,不应被解读为真实业务转化率
  • 系统适合话术之间的对比分析 (A 比 B 更安抚?),不适合绝对预测 (这话术能挽回多少赎回?)
  • 金融销售话术的实际效果受用户当下情绪、客户经理关系、过往经历等无法量化的因素影响

建议使用方式

← 返回主页