HelloWorld 术语库可通过三种主要方式导出:应用内一键导出(常见格式 CSV、TBX、XLSX 等)、开放 API 批量导出(支持按语言、领域、状态过滤并分页下载)以及与主流 CAT 工具或翻译平台互通导出。导出前要确认编码、字段映射与权限设置;导出后建议进行格式校验、去重并安全备份。

先弄清“为什么”和“有什么选项”
想象术语库像一本分门别类的字典,你可能只需要某一章——术语导出,就是把你想要的那一章按需取出来。HelloWorld 提供三条常用路径:
- 应用内导出(GUI):适合非技术用户、一次性导出或按小范围筛选后导出。
- 开放 API 导出:适合自动化、批量导出、按规则定时同步到本地或第三方系统。
- 与 CAT 工具/平台互通:适合翻译团队,直接导入到 Trados、MemoQ 等工具中,或通过标准格式交换(如 TBX)。
应用内导出:一步步操作(图形界面用户)
这部分适合在 HelloWorld 客户端或网页版上操作,步骤很像在“文件管理器”里导出表格。
常见步骤
- 登录 HelloWorld,进入 术语管理 或 术语库 页面。
- 在列表或筛选面板中选择需要导出的语言对、领域、状态(如审核通过/草稿)和时间范围。
- 点击 导出 按钮,选择格式:CSV、XLSX、TBX(TermBase eXchange)或 JSON(若平台支持)。
- 设置导出字段(通常包括:源词、目标词、词性、领域、上下文示例、备注、创建者、最后编辑时间、审核状态等)。
- 确认编码(推荐 UTF-8)、分隔符(CSV 常见为逗号或分号),然后开始导出并下载文件。
界面导出的注意点
- 若数据量较大,采用“异步导出”模式:系统会生成导出任务,完成后提供下载链接或发送邮件通知。
- CSV 导出注意 Excel 打开时的 BOM/编码问题,建议用 UTF-8 带 BOM 或直接用 Excel 打开后另存为 xlsx。
- 若出现字段缺失,先检查“导出字段配置”是否全部勾选。
通过 API 批量导出:面向自动化的做法
API 导出适合需要定期同步术语库或把术语库整合到 CI/CD、内容管理系统或翻译平台的场景。思路:调用导出接口,按需过滤与分页,接收文件或下载地址。
基本流程(通用模版)
- 认证:使用 API Key / OAuth2 token 登录。
- 创建导出任务:POST /api/v1/terminology/exports,Body 中传入语言对、格式、过滤条件(领域、状态)、字段列表、回调或通知地址。
- 轮询任务状态:GET /api/v1/terminology/exports/{taskId},等待状态变为 completed。
- 下载导出文件:返回一个临时下载链接或直接返回文件流。
示例(伪代码 / curl)
curl -X POST "https://api.helloworld.example/v1/terminology/exports" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"languages": ["en-zh"],
"format": "tbx",
"filters": {"domain": "ecommerce", "status": "approved"},
"fields": ["source","target","pos","context","note","created_at"]
}'
响应会返回 taskId 和预计完成时间,完成后调用下载接口或使用返回的 URL。
API 导出的关键要点
- *分页与速率限制*:若术语条目很多,API 一般会限制单次返回大小,需按页取并合并。
- *安全*:导出接口应走 HTTPS,下载链接通常带有短期有效的签名 URL。
- *字段映射*:API 支持自定义导出字段,建议预先定义映射 JSON 模板,避免导出后再映射。
导出格式选择:哪个适合我?
不同格式适配不同场景。选择前先问自己两件事:后续谁来用这些数据?用什么工具?
- CSV / XLSX:最通用,适合人工查看、Excel 编辑、简单系统导入。注意编码和表头一致性。
- TBX(TermBase eXchange):标准术语交换格式,适合专业翻译工具与术语管理系统间交换。
- JSON:适合程序间传输、二次处理、与 Web 服务集成。
- TMX:严格来说是翻译记忆的交换格式,更多用于句对级别;若需术语与记忆并用,可并行导出。
导出字段示例(建议字段与含义)
| 字段 | 含义 / 示例值 |
| source | 源词/短语(”login”) |
| target | 目标语翻译(”登录”) |
| pos | 词性(”n.”, “v.”) |
| domain | 领域(”金融”、”电商”) |
| context | 使用示例或上下文句子 |
| note | 备注或翻译说明 |
| status | 审核状态(”approved”、”draft”) |
| created_at / updated_at | 时间戳 |
导出后常见问题与排查方法
这里列出一些常见小坑,遇到别慌,按步骤排查即可。
- 乱码或错码:优先检查文件编码,推荐 UTF-8;CSV 在 Excel 打开可能需要用“数据导入”指定编码或另存为 xlsx。
- 缺少字段:回到导出设置,确认所有必需字段已勾选并保存为默认模板。
- 导出数据不完整:检查是否存在分页/异步任务未全部完成,或 API 带有 time window 限制。
- 重复或冲突条目:导出前做去重策略(按 source+target+domain 去重),导出后也可用脚本检查重复。
- 权限问题:确认当前账号有导出权限,API 使用的 token 是否具备相应 scope。
安全与治理:负责任地导出术语库
术语库常包含公司专有名词、商标或涉敏信息,导出时必须有治理策略。
- 只给最小权限:仅授权必要的账号或服务导出权限。
- 使用临时下载链接:避免生成长期公开 URL,设置短期过期并记录访问日志。
- 传输与存储加密:导出文件在传输时使用 HTTPS,在存储时建议加密或放在受控的 SFTP/对象存储里。
- 合规检查:若包含个人数据或受限术语,导出前请遵守隐私与行业合规要求。
- 版本控制与审计:导出文件应按日期和任务 ID 命名并保留审计记录,方便回溯。
实践小贴士:让导出更顺手
- 建立导出模板:把常用的字段、格式和过滤条件保存为模板,减少重复操作。
- 定期自动导出:用 API 做定时任务,把最新术语同步到离线库或翻译工具。
- 导出前做快照:在大改动前导出一份快照,便于回滚或比对变更。
- 为 Excel 准备好样式:如果接收者常用 Excel,导出后再格式化表头并添加说明列,会更友好。
嗯,写到这儿顺带回想了几次自己用术语库导出的经验:最常被坑的是编码和字段不一致,尤其是团队里有人直接用 Excel 修改然后再上传,会丢失字段或改乱格式。若你负责一个由多个人共享的术语库,建议先把导出—审核—导入这套流程固化下来,哪怕只是一个简单的操作手册。需要的话,我可以把上面提到的 API 请求体与返回示例整理成可直接使用的模板,或者根据你们的使用场景定制字段映射表,咱们可以一步步来。