You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
reacted with thumbs up emoji reacted with thumbs down emoji reacted with laugh emoji reacted with hooray emoji reacted with confused emoji reacted with heart emoji reacted with rocket emoji reacted with eyes emoji
-
项目地址:https://github.com/dashjay/bytestack
缘起:
过去的几周和大模型训练师沟通过程中发现他们使用 python 写爬虫爬取开源的信息作为数据源,因为数据的规模相对比较大,他们把数据打包成这样的格式:一个 Blob + 一个 numpy 内存导出的大 index。
其实简单来说,大概就是非常多的 1G 的 LLM 训练数据加一个几十 M 的索引,然后训练的时候需要高速读取这些数据,听起来很正常,但是每个训练者收集的数据都是按照不同格式打包的,有些还有图片,就导致奇怪的事情发现,光 data_parser 和 data_provider 加起来就有一大堆代码,很难受。
写这个项目未来要做几件事:
参与:
大概需要了解以下的基础知识(rust 除外,因为我也刚刚学):
想到什么再补吧……
项目和 Web3 没啥关系?
确实是这样的,我到目前为止都暂时还没接触过 web3 相关的开发工作……有大佬带带我也愿意学的~~
Beta Was this translation helpful? Give feedback.
All reactions