全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

IP归属甄别会员请立即修改密码
查看: 1435|回复: 17
打印 上一主题 下一主题

deepseek的训练成本到底有没有假?

[复制链接]
跳转到指定楼层
1#
发表于 2025-1-29 11:14:51 来自手机 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
他光说自己便宜,有任何客观证据吗?
推荐
发表于 2025-1-29 11:23:34 | 只看该作者
本帖最后由 梦想成真 于 2025-1-29 11:26 编辑

论坛这帮孙子前几天都说是套壳吗,你认为论坛那些垃圾废物能回答出啥
推荐
发表于 2025-1-29 16:56:22 | 只看该作者
任何你不熟悉的东西,你都可以等几个月再过来看。
时间会让一切事物露出它的原型。只要你不着急下结论,谁都无法骗到你。
推荐
发表于 2025-1-29 11:24:31 | 只看该作者
不需要你自己验证,市场资本已经表现出来了
推荐
发表于 2025-1-29 11:44:00 | 只看该作者
咱们论坛有很多杠精,你提出一个观念,他们非要和你杠,这种人往往现实生活中没啥本事,看人家脸色行事,只能在网上跟你人家杠
18#
发表于 2025-1-29 20:02:15 | 只看该作者
梦想成真 发表于 2025-1-29 11:23
论坛这帮孙子前几天都说是套壳吗,你认为论坛那些垃圾废物能回答出啥 ...

已经各种角度说DS不行,还是洋人出的东西好了
17#
发表于 2025-1-29 19:34:10 | 只看该作者
我的理解是这样,openai 这些公司从网上采集原始的低质量数据训练自己的模型,但DS直接用这些模型产生的高质量数据训练自己的模型。这样一来肯定性价比无敌。这个做法应该不止DS一家公司想到,没准那几大公司都在干也说不定,但为何只有DS干成了,说明DS还是有点东西的。

问题是关键我觉得有2点:

1,高质量原始数据
2,自己“蒸馏”数据的技术

目前看来,DS蒸馏数据的技术应该是很强的,否则不会只有它干成了。但高质量的原始数据这一点,恐怕以后会被卡脖子,不过我认为数据这种东西想卡脖子的难度还是比较大的。


16#
发表于 2025-1-29 19:33:27 | 只看该作者
好像这玩意开源的啊。据说测试是这样的
15#
发表于 2025-1-29 18:28:51 | 只看该作者
有硬件的公司 应该早就拿开源模型测试了,要不然这几天肯定有反对声音了。
14#
发表于 2025-1-29 17:09:13 | 只看该作者
只算人工费,估计都不止了
10#
发表于 2025-1-29 13:50:53 | 只看该作者
本帖最后由 sliver 于 2025-1-29 14:14 编辑

推上的说法是计算方法不同

当我们说大模型成本的时候,包含比如 H100 的硬件、获取数据、人员工资等在内,deepseek 的单次训练成本并没有包含这些。今天的一个说法是 deepseek 利用了新加坡的机房绕开美国管制,它并没有获得足够的奶牛(芯片),但获得了足够的牛奶(算力),这也使得它在谈论 “成本” 时更简单和低廉

即使这样, deepseek 依然令人惊艳

推上还有一个比喻,openai 等头部是花费大量心力培养了了一个高级教授,deepseek 是向教授学习的学徒,只需要 4年学期,并且他在向多位不同的教授学习。后者在某些分支的深度上可能不如前者,但成本低廉,并且在整体广度和深度上,甚至可能表现比前者好
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-9-17 08:56 , Processed in 0.072630 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表