翻译工作台 / 数据级多语 · 两轮调试结果

模型质量暂不能定论，调用稳定性先成为主要瓶颈

本页面单独汇总 Round1 和 Round2 的翻译调试台结果。核心结论是：当前空值主要来自调用熔断/限流，而不是某个语种或某类 Case 的翻译能力问题。Azure 可作为稳定基线，但 CRM 术语和数据级实体稳定性仍需补强。

2 轮测试Round1 / Round2

2 个场景翻译工作台 / 数据级多语

12 个模型每轮候选模型池

21 个语种每个 Case 覆盖目标语种

结论状态不能直接定最终模型

主因

批量调用熔断 / 限流 / 降级失败

稳定基线

Azure GPT-4o mini

关键风险

公海池字面误译、实体名过度本地化、少量中文残留

一、总体判断

两轮都出现了高度一致的空值形态：按模型整体失败，而不是按语言或 Case 离散失败。

一句话结论：当前结果更适合证明“批量调试台调用稳定性不足”，还不适合证明“哪个模型翻译质量最高”。

空值集中在模型

每个目标语种空值数量几乎一致，说明不是乌尔都语、哈萨克语、斯瓦希里语等小语种单独失败。

调用错误明确

典型错误为 CircuitBreaker、阿里云 429、主模型和降级模型均失败。

质量观察有限

Azure 样本最完整；Qwen3-235B 有潜力但样本不全；Qwen3.5 Plus、Gemini、DeepSeek V4 Pro 仍需重跑。

二、Round1 结果

Round1 数据文件为首轮翻译工作台和数据级多语导出结果。

数据级多语

总行数	25,200
有效译文	2,373
空值占比	90.6%
模型表现	Azure 100% 跑通；Qwen3-235B 仅 13% 成功；其他模型基本无有效样本。

翻译工作台

总行数	25,200
有效译文	4,011
空值占比	84.1%
模型表现	Azure 100% 跑通；Qwen3-235B 60% 成功；DeepSeek V3 和 Qwen3.5 Plus 仅少量样本。

模型	有效样本	观察
`azure04-gpt-4o-mini`	两个场景完整或最完整	稳定性最好，但“公海池”被字面翻译；数据级多语中存在实体名过度本地化。
`qwen3-235b-a22b`	工作台 60 条源文本，数据级多语 13 条源文本	公海池相关动作更接近 CRM 语境，但存在中文残留和成功率不足。
`Alicloud@qwen3.5-plus`	工作台 13 条源文本	样本太少，不能判断；少量样本中“报价单”译为 Quote 方向较好。
`Alicloud@deepseek-v3`	工作台 18 条源文本	常规字段表现正常，但无复杂 Case 有效样本。

三、Round2 结果

Round2 加强了公海池、销售漏斗、Lead/Opportunity、实体稳定、编码/文件名和行业语境，但调用熔断更严重。

数据级多语 Round2

总行数	25,200
有效译文	2,394
空值占比	90.5%
模型表现	Azure 100% 跑通；Qwen3-235B 14% 成功；其他模型无有效样本。

翻译工作台 Round2

总行数	25,200
有效译文	273
空值占比	98.9%
模型表现	只跑通 Azure 的前 13 条源文本，其余模型无有效结果。

Round2 质量观察	说明
公海池仍被字面误译	Azure 将“公海池”翻到 pool / swimming pool 方向，越南语、意大利语中尤其明显。
编码保留有所改善	`Lead-2026-00088`、`OPP-North-2026-Q2`、`MKT-2026-Q1-Leads`、`SO-2026-00018` 基本能原样保留。
实体名稳定仍不足	Azure 倾向自然翻译或本地化公司/机构名，不完全符合数据级多语“长期展示、可检索”的目标。
技术字段保护仍需加强	`account_owner_id` 在法语中被局部翻译为 `compte_owner_id`。

四、模型观察

以下判断只基于已有非空结果，不能替代完整重跑后的最终模型选型。

模型	调用完整性	已观察优势	已观察问题	当前判断
`azure04-gpt-4o-mini`	最高	稳定输出；常规字段、编码、文件名、占位符整体较好。	CRM 本土术语弱；实体名过度本地化；个别小语种中文残留。	可作为稳定基线，不宜直接定为质量最优。
`qwen3-235b-a22b`	不完整	部分 CRM 术语更接近业务语境，公海池动作优于 Azure。	成功样本不足；有语言串行和中文残留。	有潜力，需要降低并发重跑。
`Alicloud@qwen3.5-plus`	样本不足	少量样本中 CRM 对象术语表现可看。	有效样本太少，不能评价整体。	不能基于当前结果否定或确认。
`Gemini / DeepSeek V4 Pro / Doubao`	无有效样本	暂无。	批量调用中基本未跑出结果。	需要单独分批跑。

术语强约束

公海池、释放到公海池、从公海池领取、销售漏斗、线索、商机、负责人、回款等词建议进入术语库或强提示词规则。

数据级策略

客户名称、公司名、人名、文件名、编码类文本应优先保持稳定展示，不应过度自然翻译。

调用策略

调试台应降低并发，避免熔断，否则测试结果主要反映链路稳定性而非模型质量。

五、下一步建议

下一轮目标不是继续扩大样本，而是先拿到可比较的有效样本。

动作	建议
缩小批量	每次只跑 10-20 条核心 Case，不再一次性跑 100 条 × 21 语种 × 12 模型。
缩小语种	先跑英文、繁体中文、日语、韩语、俄语、越南语。
模型分批	第一批跑 Azure、Qwen3.5 Plus、Qwen3-235B；第二批补 Gemini 2.5 Flash、DeepSeek V4 Pro、豆包 Lite。
场景分开	翻译工作台重点看 CRM 术语和文案类型；数据级多语重点看实体名称稳定和编码/文件名保留。
结果口径	空值先归因调用链路，不直接算作模型质量失败；非空结果再做语言纯净度、术语、结构保护和场景适配评分。

当前可对外表述：两轮测试均显示批量调试台的主要瓶颈仍是调用熔断，不是模型翻译能力本身。Azure GPT-4o mini 是现阶段稳定基线，但在 CRM 术语和数据级实体稳定性上仍需补强。核心候选模型需降低并发后重跑，才能做最终选型判断。