另一方面似乎还有另一个同样有说服力的观点那就是新的数据源实际上解锁了深度学习。 就是一个很好的例子。虽然很多人认为自注意力机制对 模型很重要但他们也会说这是利用人工标注数据的一种方式。
因为人类为句子结构提供了标注如果你看看 模型它实际上是通过互联网让 新加坡 whatsapp 筛查 人类使用标签来标记图片。因此这实际上是一个关于数据的故事而不是关于计算的故事。那么答案是两者兼有还是更偏向某一方呢?我认为是两者兼有但你也提到了另一个非常关键的点。
我觉得在算法领域中实际上有两个明显不同的时代。 时代是监督学习的时代。
在这个时代我们有很多数据但我们不知道如何仅凭数据本身来训练。 和其他同时期的数据集的预期是我们会有大量的图像但我们需要人类对每张图像进行标注。
而我们训练的所有数据都是由人类标注员逐一查看并标注的。 而算法的重大突破在于我们现在知道如何在不依赖人类标注的数据上进行训练。对于一个没有 背景的普通人来说似乎如果你在训练人类数据人类实际上已经进行了标注只是这种标注并不是显式的。
是的哲学上来说这是一个非常重要的问题但这个问题在语言领域比在图像领域更为真实。是的但我确实认为这是一个重要的区别。 确实是由人类标注的。我认为自注意力机制是人类已经理解了事物之间的关系然后你通过这些关系进行学习。