【项目发起】构思了一个比较简单的百亿级别小文件存储方案，挺适合练手，未来也很有前景 #25

dashjay · 2023-07-01T15:23:06Z

dashjay
Jul 1, 2023

项目地址：https://github.com/dashjay/bytestack

缘起：

过去的几周和大模型训练师沟通过程中发现他们使用 python 写爬虫爬取开源的信息作为数据源，因为数据的规模相对比较大，他们把数据打包成这样的格式：一个 Blob + 一个 numpy 内存导出的大 index。

其实简单来说，大概就是非常多的 1G 的 LLM 训练数据加一个几十 M 的索引，然后训练的时候需要高速读取这些数据，听起来很正常，但是每个训练者收集的数据都是按照不同格式打包的，有些还有图片，就导致奇怪的事情发现，光 data_parser 和 data_provider 加起来就有一大堆代码，很难受。

写这个项目未来要做几件事：

提供一个非常鲁棒的格式去存储大量小文件（暂时不支持做打包好的部分文件的增加和删除，以适应对象存储这种以文件为单位的介质，未来可能会在 FS等支持 append 的系统上提供相关功能）
暂时先用 opendal 做一个中间层，去和底层的系统交互（s3，hdfs，fs）等，未来可能将这些方式作为 backoff 的行为，看下一条。
提供一个缓存模型（参考 fluid），计划提供两个服务 index + cache，来提供 locate + fetch 的服务，希望能达到 us 级别的 latency
提供 python, lua, golang 等语言的 binding，丰富生态
提供 kubernetes/helm 一整套完整的私有化交付方案。
未来：希望能使用各种新的技术：SPDK，iouring，RDMA 等

参与：

大概需要了解以下的基础知识（rust 除外，因为我也刚刚学）：

S3 对象存储和相关 SDK 的使用（例如 MultipartUpload 的过程）

想到什么再补吧……

项目和 Web3 没啥关系?

确实是这样的，我到目前为止都暂时还没接触过 web3 相关的开发工作……有大佬带带我也愿意学的～～

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Creators

【项目发起】构思了一个比较简单的百亿级别小文件存储方案，挺适合练手，未来也很有前景 #25

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 0 comments

Select a reply

Creators

【项目发起】构思了一个比较简单的百亿级别小文件存储方案，挺适合练手，未来也很有前景 #25

dashjay Jul 1, 2023

缘起：

写这个项目未来要做几件事：

参与：

项目和 Web3 没啥关系?

Replies: 0 comments

dashjay
Jul 1, 2023