田渊栋:学习物理需要主动学习或者策略强化学习
针对 Jim Fan 的观点,一些研究者提出了更激进的反驳,认为 Sora 并不是学到了物理,只是看起来像是学到了罢了,就像几年前的烟雾模拟一样。也有人觉得,Sora 不过是对 2D 像素的操纵。
当然,Jim Fan 对「Sora 没有在学习物理,而只是操纵 2D 像素」这一说法进行了一系列反驳。他认为,这种观点忽略了模型在处理复杂数据时所展现出的深层次能力。就像批评 GPT-4 不是学习编码,只是随机挑选字符串一样,这种批评没有认识到 Transformer 模型在处理整数序列(代表文本的 token ID)时所表现出的复杂理解和生成能力。
对此,谷歌研究科学家 Kevin P Murphy 表示,他不确定最大化像素的可能性是否足以促使模型可靠地学到精确的物理,而不是看似合理的动态视觉纹理呢?是否需要 MDL(Minimum description length,最小描述长度)呢?