翻译模型调试结果分析
翻译工作台 / 数据级多语 · 两轮调试结果

模型质量暂不能定论,调用稳定性先成为主要瓶颈

本页面单独汇总 Round1 和 Round2 的翻译调试台结果。核心结论是:当前空值主要来自调用熔断/限流,而不是某个语种或某类 Case 的翻译能力问题。Azure 可作为稳定基线,但 CRM 术语和数据级实体稳定性仍需补强。

2 轮测试Round1 / Round2
2 个场景翻译工作台 / 数据级多语
12 个模型每轮候选模型池
21 个语种每个 Case 覆盖目标语种
结论状态不能直接定最终模型
主因
批量调用熔断 / 限流 / 降级失败
稳定基线
Azure GPT-4o mini
关键风险
公海池字面误译、实体名过度本地化、少量中文残留

一、总体判断

两轮都出现了高度一致的空值形态:按模型整体失败,而不是按语言或 Case 离散失败。

一句话结论:当前结果更适合证明“批量调试台调用稳定性不足”,还不适合证明“哪个模型翻译质量最高”。

空值集中在模型

每个目标语种空值数量几乎一致,说明不是乌尔都语、哈萨克语、斯瓦希里语等小语种单独失败。

调用错误明确

典型错误为 CircuitBreaker、阿里云 429、主模型和降级模型均失败。

质量观察有限

Azure 样本最完整;Qwen3-235B 有潜力但样本不全;Qwen3.5 Plus、Gemini、DeepSeek V4 Pro 仍需重跑。

二、Round1 结果

Round1 数据文件为首轮翻译工作台和数据级多语导出结果。

数据级多语

总行数25,200
有效译文2,373
空值占比90.6%
模型表现Azure 100% 跑通;Qwen3-235B 仅 13% 成功;其他模型基本无有效样本。

翻译工作台

总行数25,200
有效译文4,011
空值占比84.1%
模型表现Azure 100% 跑通;Qwen3-235B 60% 成功;DeepSeek V3 和 Qwen3.5 Plus 仅少量样本。
模型有效样本观察
azure04-gpt-4o-mini两个场景完整或最完整稳定性最好,但“公海池”被字面翻译;数据级多语中存在实体名过度本地化。
qwen3-235b-a22b工作台 60 条源文本,数据级多语 13 条源文本公海池相关动作更接近 CRM 语境,但存在中文残留和成功率不足。
Alicloud@qwen3.5-plus工作台 13 条源文本样本太少,不能判断;少量样本中“报价单”译为 Quote 方向较好。
Alicloud@deepseek-v3工作台 18 条源文本常规字段表现正常,但无复杂 Case 有效样本。

三、Round2 结果

Round2 加强了公海池、销售漏斗、Lead/Opportunity、实体稳定、编码/文件名和行业语境,但调用熔断更严重。

数据级多语 Round2

总行数25,200
有效译文2,394
空值占比90.5%
模型表现Azure 100% 跑通;Qwen3-235B 14% 成功;其他模型无有效样本。

翻译工作台 Round2

总行数25,200
有效译文273
空值占比98.9%
模型表现只跑通 Azure 的前 13 条源文本,其余模型无有效结果。
Round2 质量观察说明
公海池仍被字面误译Azure 将“公海池”翻到 pool / swimming pool 方向,越南语、意大利语中尤其明显。
编码保留有所改善Lead-2026-00088OPP-North-2026-Q2MKT-2026-Q1-LeadsSO-2026-00018 基本能原样保留。
实体名稳定仍不足Azure 倾向自然翻译或本地化公司/机构名,不完全符合数据级多语“长期展示、可检索”的目标。
技术字段保护仍需加强account_owner_id 在法语中被局部翻译为 compte_owner_id

四、模型观察

以下判断只基于已有非空结果,不能替代完整重跑后的最终模型选型。

模型调用完整性已观察优势已观察问题当前判断
azure04-gpt-4o-mini最高稳定输出;常规字段、编码、文件名、占位符整体较好。CRM 本土术语弱;实体名过度本地化;个别小语种中文残留。可作为稳定基线,不宜直接定为质量最优。
qwen3-235b-a22b不完整部分 CRM 术语更接近业务语境,公海池动作优于 Azure。成功样本不足;有语言串行和中文残留。有潜力,需要降低并发重跑。
Alicloud@qwen3.5-plus样本不足少量样本中 CRM 对象术语表现可看。有效样本太少,不能评价整体。不能基于当前结果否定或确认。
Gemini / DeepSeek V4 Pro / Doubao无有效样本暂无。批量调用中基本未跑出结果。需要单独分批跑。

术语强约束

公海池、释放到公海池、从公海池领取、销售漏斗、线索、商机、负责人、回款等词建议进入术语库或强提示词规则。

数据级策略

客户名称、公司名、人名、文件名、编码类文本应优先保持稳定展示,不应过度自然翻译。

调用策略

调试台应降低并发,避免熔断,否则测试结果主要反映链路稳定性而非模型质量。

五、下一步建议

下一轮目标不是继续扩大样本,而是先拿到可比较的有效样本。

动作建议
缩小批量每次只跑 10-20 条核心 Case,不再一次性跑 100 条 × 21 语种 × 12 模型。
缩小语种先跑英文、繁体中文、日语、韩语、俄语、越南语。
模型分批第一批跑 Azure、Qwen3.5 Plus、Qwen3-235B;第二批补 Gemini 2.5 Flash、DeepSeek V4 Pro、豆包 Lite。
场景分开翻译工作台重点看 CRM 术语和文案类型;数据级多语重点看实体名称稳定和编码/文件名保留。
结果口径空值先归因调用链路,不直接算作模型质量失败;非空结果再做语言纯净度、术语、结构保护和场景适配评分。
当前可对外表述:两轮测试均显示批量调试台的主要瓶颈仍是调用熔断,不是模型翻译能力本身。Azure GPT-4o mini 是现阶段稳定基线,但在 CRM 术语和数据级实体稳定性上仍需补强。核心候选模型需降低并发后重跑,才能做最终选型判断。