一句话结论:当前结果更适合证明“批量调试台调用稳定性不足”,还不适合证明“哪个模型翻译质量最高”。
翻译工作台 / 数据级多语 · 两轮调试结果
模型质量暂不能定论,调用稳定性先成为主要瓶颈
本页面单独汇总 Round1 和 Round2 的翻译调试台结果。核心结论是:当前空值主要来自调用熔断/限流,而不是某个语种或某类 Case 的翻译能力问题。Azure 可作为稳定基线,但 CRM 术语和数据级实体稳定性仍需补强。
2 轮测试Round1 / Round2
2 个场景翻译工作台 / 数据级多语
12 个模型每轮候选模型池
21 个语种每个 Case 覆盖目标语种
一、总体判断
两轮都出现了高度一致的空值形态:按模型整体失败,而不是按语言或 Case 离散失败。
空值集中在模型
每个目标语种空值数量几乎一致,说明不是乌尔都语、哈萨克语、斯瓦希里语等小语种单独失败。
调用错误明确
典型错误为 CircuitBreaker、阿里云 429、主模型和降级模型均失败。
质量观察有限
Azure 样本最完整;Qwen3-235B 有潜力但样本不全;Qwen3.5 Plus、Gemini、DeepSeek V4 Pro 仍需重跑。
二、Round1 结果
Round1 数据文件为首轮翻译工作台和数据级多语导出结果。
数据级多语
| 总行数 | 25,200 |
|---|---|
| 有效译文 | 2,373 |
| 空值占比 | 90.6% |
| 模型表现 | Azure 100% 跑通;Qwen3-235B 仅 13% 成功;其他模型基本无有效样本。 |
翻译工作台
| 总行数 | 25,200 |
|---|---|
| 有效译文 | 4,011 |
| 空值占比 | 84.1% |
| 模型表现 | Azure 100% 跑通;Qwen3-235B 60% 成功;DeepSeek V3 和 Qwen3.5 Plus 仅少量样本。 |
| 模型 | 有效样本 | 观察 |
|---|---|---|
azure04-gpt-4o-mini | 两个场景完整或最完整 | 稳定性最好,但“公海池”被字面翻译;数据级多语中存在实体名过度本地化。 |
qwen3-235b-a22b | 工作台 60 条源文本,数据级多语 13 条源文本 | 公海池相关动作更接近 CRM 语境,但存在中文残留和成功率不足。 |
Alicloud@qwen3.5-plus | 工作台 13 条源文本 | 样本太少,不能判断;少量样本中“报价单”译为 Quote 方向较好。 |
Alicloud@deepseek-v3 | 工作台 18 条源文本 | 常规字段表现正常,但无复杂 Case 有效样本。 |
三、Round2 结果
Round2 加强了公海池、销售漏斗、Lead/Opportunity、实体稳定、编码/文件名和行业语境,但调用熔断更严重。
数据级多语 Round2
| 总行数 | 25,200 |
|---|---|
| 有效译文 | 2,394 |
| 空值占比 | 90.5% |
| 模型表现 | Azure 100% 跑通;Qwen3-235B 14% 成功;其他模型无有效样本。 |
翻译工作台 Round2
| 总行数 | 25,200 |
|---|---|
| 有效译文 | 273 |
| 空值占比 | 98.9% |
| 模型表现 | 只跑通 Azure 的前 13 条源文本,其余模型无有效结果。 |
| Round2 质量观察 | 说明 |
|---|---|
| 公海池仍被字面误译 | Azure 将“公海池”翻到 pool / swimming pool 方向,越南语、意大利语中尤其明显。 |
| 编码保留有所改善 | Lead-2026-00088、OPP-North-2026-Q2、MKT-2026-Q1-Leads、SO-2026-00018 基本能原样保留。 |
| 实体名稳定仍不足 | Azure 倾向自然翻译或本地化公司/机构名,不完全符合数据级多语“长期展示、可检索”的目标。 |
| 技术字段保护仍需加强 | account_owner_id 在法语中被局部翻译为 compte_owner_id。 |
四、模型观察
以下判断只基于已有非空结果,不能替代完整重跑后的最终模型选型。
| 模型 | 调用完整性 | 已观察优势 | 已观察问题 | 当前判断 |
|---|---|---|---|---|
azure04-gpt-4o-mini | 最高 | 稳定输出;常规字段、编码、文件名、占位符整体较好。 | CRM 本土术语弱;实体名过度本地化;个别小语种中文残留。 | 可作为稳定基线,不宜直接定为质量最优。 |
qwen3-235b-a22b | 不完整 | 部分 CRM 术语更接近业务语境,公海池动作优于 Azure。 | 成功样本不足;有语言串行和中文残留。 | 有潜力,需要降低并发重跑。 |
Alicloud@qwen3.5-plus | 样本不足 | 少量样本中 CRM 对象术语表现可看。 | 有效样本太少,不能评价整体。 | 不能基于当前结果否定或确认。 |
Gemini / DeepSeek V4 Pro / Doubao | 无有效样本 | 暂无。 | 批量调用中基本未跑出结果。 | 需要单独分批跑。 |
术语强约束
公海池、释放到公海池、从公海池领取、销售漏斗、线索、商机、负责人、回款等词建议进入术语库或强提示词规则。
数据级策略
客户名称、公司名、人名、文件名、编码类文本应优先保持稳定展示,不应过度自然翻译。
调用策略
调试台应降低并发,避免熔断,否则测试结果主要反映链路稳定性而非模型质量。
五、下一步建议
下一轮目标不是继续扩大样本,而是先拿到可比较的有效样本。
| 动作 | 建议 |
|---|---|
| 缩小批量 | 每次只跑 10-20 条核心 Case,不再一次性跑 100 条 × 21 语种 × 12 模型。 |
| 缩小语种 | 先跑英文、繁体中文、日语、韩语、俄语、越南语。 |
| 模型分批 | 第一批跑 Azure、Qwen3.5 Plus、Qwen3-235B;第二批补 Gemini 2.5 Flash、DeepSeek V4 Pro、豆包 Lite。 |
| 场景分开 | 翻译工作台重点看 CRM 术语和文案类型;数据级多语重点看实体名称稳定和编码/文件名保留。 |
| 结果口径 | 空值先归因调用链路,不直接算作模型质量失败;非空结果再做语言纯净度、术语、结构保护和场景适配评分。 |
当前可对外表述:两轮测试均显示批量调试台的主要瓶颈仍是调用熔断,不是模型翻译能力本身。Azure GPT-4o mini 是现阶段稳定基线,但在 CRM 术语和数据级实体稳定性上仍需补强。核心候选模型需降低并发后重跑,才能做最终选型判断。