Rust 用于机器学习的一个小的尝试: bleuscore

huangyezhufeng · 2024-08-14T04:57:48Z

TLDR WHAT: Rust 实现 BLEU Score 计算 GitHub: https://github.com/shenxiangzhuang/bleuscore PyPI: https://pypi.org/project/bleuscore/ crates: https://crates.io/crates/bleuscore Docs: https://docs.rs/bleuscore/latest/bleuscore/ Why Huggingface 的 Evaluate 库真的不好用，且慢，见 issue Talk is cheap: 看了太多和 Rust 相关的争论，还是决定动手写一下再做判断 BLEU 的计算是难度相对较低，比较适合作练习的项目 Overview Rust 实现 BLEU Score 计算(采用和 Huggingface evaluate 完全一致的算法)，通过 Binding 构建 Python 库做了大量的结果对比测试来保证此 Rust 实现的结果和 Huggingface 结果是一致的基于 Hypothesis ，一个仿 Haskell QuickCheck 的 property test 库做了较为充分的 Benchmark 来测试当前 Rust 实现的性能初步结论开发体验: 总体的过程(编译，测试，文档，依赖管理等)还是很丝滑的(个人之前并没有太多 Rust 基础)，主要得益于 Rust 完整的生态机器学习: 当算法正已经在 Python 实现，想追求更好的性能时，用 Rust 来实现算法可以有效提升算法运行效率(同时可以用 Python 实现来验证当前 Rust 实现的正确性)。另外就是 Rust 实现后通过 Binding 构建 Python 库是非常简单的(PyO3/Maturin)，线上的业务一样可以依赖 Python 开发，这点对于机器学习系统来说还是非常友好的。性能: 当前 bleuscore 的性能提升在大规模数据集上更为显著，性能提升主要来自目前的实现用了多核并行(基于 rayon)。在数据集本身比较小或没有使用多核时，其实性能提升并不大（详情见 Benchmark ）最后欢迎理性讨论，欢迎 PR ！

爱意满满的作品展示区。

This topic created in 709 days ago, the information mentioned may be changed or developed.

TLDR

WHAT: Rust 实现BLEU Score计算
GitHub: https://github.com/shenxiangzhuang/bleuscore
PyPI: https://pypi.org/project/bleuscore/
crates: https://crates.io/crates/bleuscore
Docs: https://docs.rs/bleuscore/latest/bleuscore/

Why

Huggingface 的 Evaluate 库真的不好用，且慢，见issue
Talk is cheap: 看了太多和 Rust 相关的争论，还是决定动手写一下再做判断
BLEU 的计算是难度相对较低，比较适合作练习的项目

Overview

Rust 实现 BLEU Score 计算(采用和 Huggingface evaluate完全一致的算法)，通过 Binding 构建 Python 库
做了大量的结果对比测试来保证此 Rust 实现的结果和 Huggingface 结果是一致的
- 基于 Hypothesis ，一个仿 Haskell QuickCheck 的 property test 库
做了较为充分的 Benchmark 来测试当前 Rust 实现的性能

初步结论

开发体验: 总体的过程(编译，测试，文档，依赖管理等)还是很丝滑的(个人之前并没有太多 Rust 基础)，主要得益于 Rust 完整的生态
机器学习: 当算法正已经在 Python 实现，想追求更好的性能时，用 Rust 来实现算法可以有效提升算法运行效率(同时可以用 Python 实现来验证当前 Rust 实现的正确性)。另外就是Rust 实现后通过 Binding 构建 Python 库是非常简单的(PyO3/Maturin)，线上的业务一样可以依赖 Python 开发，这点对于机器学习系统来说还是非常友好的。
性能: 当前 bleuscore 的性能提升在大规模数据集上更为显著，性能提升主要来自目前的实现用了多核并行(基于 rayon)。在数据集本身比较小或没有使用多核时，其实性能提升并不大（详情见 Benchmark ）

最后

欢迎理性讨论，欢迎 PR ！

Rust

bleu

性能

3 replies • 2024-08-14 13:46:39 +08:00

huangyezhufeng

Aug 14, 2024

如果想进一步探索 Rust 用于机器学习的最佳实践，可以通过这个 issue(及其背后的项目)来进一步了解: https://github.com/dustalov/evalica/issues/5

这是一位能力很强的老哥，代码质量也很高。

Contextualist

Aug 14, 2024

感谢分享！支持一下 Rust for ML 和 PyO3
上次看相关方面还是 https://www.arewelearningyet.com ，不知道现在的生态怎么样了
能想到的 Rust for ML 的代表项目应该是 huggingface/safetensors 了

huangyezhufeng

Aug 14, 2024

@Contextualist 感觉现在相关的生态都在快速的完善起来吧。Huggingface 在挺多的项目上都在拥抱 Rust: https://github.com/huggingface?q=&type=all&language=rust&sort=, 其中 candle ，tokenizer ，text-embeddings-inference 是比较知名的。

其他我了解到的比如 Grafana 也在用 Rust 做 ML 相关的工作，比如 https://github.com/grafana/augurs, 用在 Grafana 时序数据的预测和异常检测等。