西西河

主题:中国市场不足以支持高科技取得【超预期】回报,中国最缺的是市场 -- 亮子

共:💬30 🌺120 🌵8 新:
全看分页树展 · 主题 跟帖
家园 chatGPT用的数据其实不是很多

也就45TB,按现在硬盘容量,也就3个硬盘

光互联网上能下载的公开数据,就远超这个数量。数据不是问题,语言也不是问题,中文的资料肯定也远超45TB。

真正的问题是,这么多数据怎么筛选、怎么清洗、怎么标注、怎么训练

通宝推:心有戚戚,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河