官方表示,ACL 2021 由国际计算语言学协会举办,是自然语言处理(NLP)与计算语言学领域最高级别的学术会议。本次共有 3350 篇论文参与评选。除了字节跳动,华为、腾讯、谷歌、微软、亚马逊等科技公司也投递了论文。
自然语言处理被看作是“人工智能皇冠上的明珠”,在机器翻译、搜索引擎、信息流、输入法等领域有着广泛的应用。词表是自然语言处理的基础组件,与词典索引类似,词表预训练模型往往需要耗费大量的时间和能源。
在这次 ACL 2021 获奖论文中,字节跳动技术团队提出了“面向机器翻译的最佳运输词表学习方案”(Vocabulary Learning via Optimal Transport for Machine Translation,简称 VOLT)。研究人员用经济学领域的“边际收益”定义了词表质量的评价指标,然后以数学领域的“最优运输方法”解决最优词表的生成问题。
研究结果显示,VOLT 在多种翻译任务上取得了出色的效果。同时,这种方法可以显著减少词表的学习和搜索时间,节约算力资源。
业内普遍会通过大量自然语言处理下游任务的训练以寻找最优大小,使用 BPE 词表的方式。而字节跳动使用的 VOLT 方法,能够节省 92% 的算力,这同时意味着所需电能的大量减少。巧合的是,这一技术的缩写“VOLT”同时为电学单位伏特,未来能够在工业应用上有巨大潜力,有助于节能减排。
字节跳动表示,目前,VOLT 研究项目已经向全球开发者开源,并将在字节跳动火山翻译业务中逐步落地,为飞书、今日头条等产品和火山引擎的企业级客户提供机器翻译支持。