西西河

主题:中国市场不足以支持高科技取得【超预期】回报,中国最缺的是市场 -- 亮子

共:💬30 🌺120 🌵8 新:
全看分页树展 · 主题 跟帖
家园 说两句

第一, GPT不需要标注数据,因为就是个自生成语言模型,自带标注。

第二,这些个transformer模型内部就是在不停的算attention, 和序列长度平方成正比。你把45T的数据tokenize以后,每2048个token为一个序列算若干个attention。你扫一遍那还是相当费时费力的。

不过模型本身确实没有太复杂的,数据清洗过程大概是真正的trade secret.

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河