脸书开源自然语言处理框架,生产规模上应用,每天上10亿次
Facebook一直在发展自己的自然语言处理(NLP)框架,以克服快速实验和大规模部署挑战。PyText是一个开源深度学习框架PyTorch的库。
为了帮助开发人员构建和部署NLP系统,Facebook决定开源PyText框架以及共享其预训练模型和教程。
Facebook称,通过PyText能够实现更快的实验,大规模文本处理和词汇管理,并利用PyTorch生态系统构建预建模型和工具。
Facebook在官方博客指出,“在Facebook,我们使用这个框架在几天内(而不是几周或几个月)将NLP模型从构思到完全实现,并部署依赖于多任务学习的复杂模型。今天在Facebook上,PyText用于每日超过10亿次的预测,证明它可以在生产规模上运行,并且仍能满足严格的延迟要求。”
Facebook解释道,传统上研究人员和工程师必须在为实验而构建的框架和为生产而构建的框架之间进行权衡。对于NLP系统尤其如此,这可能需要创建,培训和测试数十种模型,并使用固有的动态结构。面向研究的框架可以提供简单,eager-execution界面,加快编写高级和动态模型的过程,但它们也会受到生产中延迟和内存使用增加的影响。”
凭借PyTorch 1.0的强大功能,PyTxt可以通过单一的统一框架解决研究和生产障碍,PyText能够将PyTorch的1.0功能引入自然语言处理。功能包括在AI社区内不同组织之间共享模型的能力,常见NLP任务的预建模型,如文本分类和语言建模,以及上下文模型,以提高对话理解。
Facebook计划在自己的解决方案中使用该框架,以提供强大的功能,如执行翻译和改进产品。
展望未来,该公司计划为设备上的模型解决端到端工作流程,并提供多语言建模以及其他建模功能,以提供调试和改进分布式培训的能力。