Page 1 of 1

在研究生期间你可能会接触

Posted: Tue Apr 22, 2025 7:00 am
by ritu800
到的那些算法和 相比相形见绌。 是一个拥有 万个参数的深度神经网络它在两张 显卡上训练了六天 是当时最强大的消费级显卡发布于 年。


我昨晚查了一些数据想把这些放在一个更大的背 塞浦路斯 whatsapp 数据 景中看待。英伟达最新的显卡是 你们猜一下 和 之间的计算能力差距有多大? 数量在几千左右所以我昨晚算了一下数据。


像是那两周的训练那六天是在两块 上 运行的如果扩展一下大概可以在一块上运行不到五分钟。


这样想的话真的有个很好的论点—— 年 在 挑战赛上的论文真的是一个非常经典的模型那就是卷积神经网络模型。 而实际上这个概念早在 年代就已经出现了我还记得作为研究生学习的第一篇论文内容也差不多有六七层的网络结构。


和卷积神经网络模型的唯一区别几乎就是 ——使用了两个 和海量的数据。 所以我本来要说的是大多数人现在都熟悉所谓的“痛苦的教训”( )这个教训说的是如果你开发一个算法只要确保你能利用现有的计算资源因为这些资源会逐渐变得可用。





于是你只需要一个能够不断进步的系统。 另一方面似乎还有另一个同样有说服力的观点那就是新的数据源实际上解锁了深度学习。 就是一个很好的例子。虽然很多人认为自注意力机制对 模型很重要但他们也会说这是利用人工标注数据的一种方式。