HelloWorld接收的Excel表格最好是结构化、编码明确且字段齐全的电子表单,这意味着推荐使用.xlsx为主格式(兼容.csv但需注意编码与分隔符),表头应包含固定列名如:id、source_language、target_language、source_text、context、notes、translation、status等;单元格使用纯文本、不含公式或合并单元格,变量占位符(如{0}或{name})要统一格式并另设“placeholders”列说明;文本长度、字符编码建议UTF‑8,避免日期/数字自动格式化;多语言代码采用ISO标准,长文本建议换行保留;大文件切分、保持表格一致列顺序并附带字数统计与校验列,上传前做去重与脱敏处理。接下来我会一步步把这些要求讲清楚,告诉你为什么这样做、常见错误和实操模板,甚至给出校验清单和处理技巧,方便你照着做。

先从最简单的结论说起(为什么要这样)
把翻译工作想象成传菜:厨房(翻译引擎/译者)需要清晰的订单(表格)才能准确上菜(翻译结果)。订单要有菜名、份数、备注、口味偏好(上下文、变量、格式)。如果菜名写在收据的不同地方、或者用了公式、又或表格被合并,厨房就会出错或不得不停下来问你,浪费时间。HelloWorld要求的Excel格式,本质上是为了减少这些“中间问答”,提高自动化处理的成功率和翻译质量。
文件格式与编码
推荐的文件类型
- .xlsx:首选,支持复杂字符、长文本、多个工作表且兼容性最好。
- .csv:可用,但要小心分隔符(逗号/分号)与编码。若使用CSV,强烈建议使用UTF‑8(带BOM可解决部分Windows Excel读取问题)。
字符编码与常见问题
总之,保证字符不丢失就行:统一使用UTF‑8。Windows Excel默认编码问题会导致中文乱码或特殊符号丢失,CSV文件在保存或导入时务必指定UTF‑8(带BOM更稳妥)。另外,注意换行符(Windows用CRLF,UNIX用LF)和特殊不可见字符(如零宽空格)可能影响对比和统计,需要清理。
表头与字段(这是最关键的一部分)
表头相当于菜单上的固定栏位名,一致的名称能让系统自动识别字段。下面是推荐字段列表与说明:
| 字段名 | 是否必需 | 说明 |
| id | 必需 | 唯一标识,一般数字或短字符串,便于追踪与回溯。 |
| source_language | 必需 | 源语言代码(ISO 639‑1,如en, zh)。 |
| target_language | 必需 | 目标语言代码(ISO 639‑1)。 |
| source_text | 必需 | 需要翻译的原文,纯文本,不要包含公式。 |
| context | 建议 | 上下文说明(界面位置、截图名、用途等),帮助译者理解语境。 |
| placeholders | 建议 | 列出文本中的占位符格式与含义(如 {0}:userName)。 |
| notes | 建议 | 术语、风格要求或禁止翻译的词汇等补充说明。 |
| translation | 必需/输出 | 译文位置(可为空,供译者填写或自动返回)。 |
| status | 建议 | 翻译状态(new, in_progress, translated, reviewed, approved)。 |
| char_count / word_count | 建议 | 长度统计,便于计费与拆分。 |
单元格内容规则与常见陷阱
避免公式与合并单元格
不要把文本放在含公式的单元格里导出,因为导出可能只采集计算结果或导致格式丢失。合并单元格会让解析器识别错误。
保留换行与空格
长文本中常有自然换行或分段,建议在Excel中使用Alt+Enter插入换行并确保导出时保留换行符。不要把段落合并为单行并用特殊符号分隔,这样会破坏译文自然断句。
数字、日期与前导零
Excel常会自动把某些文本识别为数字或日期(如“2021-01-02”或“00123”),这会丢失原始格式。解决方法:在导出之前把这些单元格设置为文本格式,或在源表加单引号 ‘ 前缀。
占位符与变量处理
占位符必须一致且要在单独一列说明解释。例如:source_text 中出现 “Hello, {userName}!”,placeholders 列应写明 “{userName}: 用户名,不翻译或按规则翻译”。若使用 ICU MessageFormat,请注明并提供例子。
多语言与编码细节
使用标准语言代码(ISO 639‑1 两字母为优先)。当有地区差异时可以使用语言-地区格式(zh-CN, en-GB)。如果一个文件包含多对语言翻译,推荐每一对语言单独工作表或单独文件,避免一行多译目标带来混乱。
长文本、HTML、富文本与标记语言
如果源文包含HTML或Markdown标签,需要在表格中用is_html字段标注为true,并提供一列raw_html或markup说明哪些标签可保留,哪些需转义。对于含有内联样式或复杂结构的文档,建议先转换为XLIFF或某种结构化格式再导入HelloWorld,以保证标签与文本的同步。
媒体与附件字段
图片、音频、截图等不直接放在Excel内,建议放在云存储并在表格中提供可访问的URL或相对路径,列名例如: media_url 或 screenshot_path。并在context列标注需要参考的具体位置。
工作流字段(用于项目管理)
- assigned_to:译者或团队。
- priority:紧急程度。
- due_date:截止日期(注意日期格式统一,如YYYY-MM-DD)。
- tm_id:翻译单元对应的翻译记忆库条目ID。
示例模板(可复制使用)
| id | source_language | target_language | source_text | placeholders | context | notes | translation | status |
| 1001 | en | zh | Hello, {userName}! Welcome to our app. | {userName}:用户名 | 登录页顶部欢迎信息 | Brand tone: friendly | new | |
| 1002 | en | zh | Your order #12345 has shipped. | {orderNumber}:订单编号 | 邮件通知 | 保留#号格式 | new |
导入/导出前的校验清单(Checklist)
- 表头是否完整且命名一致?(参照推荐字段)
- 是否全部保存为 UTF‑8?(CSV 特别检查)
- 有没有合并单元格或公式?
- 占位符在placeholders列是否逐一说明?
- 是否有日期/数字被误转格式?
- 是否对敏感数据做了脱敏?
- 长文本是否保留换行?
- 文件体积是否超出上传限制(若有)?是否需要切分?
处理大文件与性能注意
当条目数达到数万时,推荐:
- 按语言对拆分文件(每个文件只包含一对源/目标语言)。
- 分批上传(如每批5000条),并记录每批的id范围。
- 提前做字数统计并把统计结果放入表格,便于计费和进度估计。
常见错误与排查方法
- 乱码:通常是编码问题,检查是否为UTF‑8,或CSV是否被Excel以本地编码打开导致错误。
- 占位符丢失或被转义:检查是否用了不一致的占位符格式或被Excel转成公式。
- 日期/数字被修改:把相关列设置为文本再保存。
- 导入失败:查看错误日志,通常是表头不匹配或必需字段为空。
工具与Excel技巧(实用小技巧)
- 批量替换:用Excel的替换功能统一占位符格式(如{{user}} → {user})。
- TEXT函数:格式化数字和日期,防止导出时丢失格式。
- CONCAT/CONCATENATE:合并分段文本生成测试用源文本。
- 数据验证(Data Validation):限制某些列只能选择预设的状态值,减少人为错误。
- 条件格式:高亮过长文本或包含特殊字符的单元格,便于检查。
关于术语、风格与质量保证
在表格中提供术语表或把术语引用ID添加到每条,可显著提高一致性。使用status列配合人工校对(reviewer列)能让机器翻译和人工审校协同工作。HelloWorld或任何翻译平台在接收数据前都更喜欢“有注释、有上下文、有占位符说明”的表格——这相当于给译者发了张带注释的菜谱。
隐私与安全注意事项
如果表格包含个人信息(姓名、邮箱等),尽量脱敏或在上传前征询相关方同意。使用公司内部云或加密传输,并限定访问权限。同时在notes列注明是否允许将内容用于训练模型。
最后给你一个实操流程(像做菜一样分步骤)
- 准备原始文本,按功能或模块分组。
- 建立模板表格(使用上面的字段名),把所有原文填到 source_text。
- 统一占位符格式并填写 placeholders 列。
- 设置列格式(文本、日期等),保存为 .xlsx(或UTF‑8 CSV)。
- 运行本地校验脚本或手动按照Checklist检查表格。
- 按文件大小需求拆分,上传至HelloWorld并指定语言对。
- 接收译文后做人工校对,并通过status字段回传结果。
好了,这些就是我一边整理一边想到的、能直接用的Excel格式要求和实操建议。实战中你可能遇到一些小毛病(比如某个老版本Excel会有奇怪行为),那就先把问题复盘、修一个小脚本或用Google Sheets做一遍预处理再导出。反正,关键是:表头标准化、编码统一、占位符清晰、上下文充分——这四条做对了,大部分问题就解决了。