🔥深度学习笔记
2024-5-30
| 2024-11-8
0  |  阅读时长 0 分钟
type
status
date
slug
summary
tags
category
icon

关于深度学习

2007 年——杰夫·辛顿创造了术语“深度学习”,一种描述神经网络的方式。
60 岁生日那天,辛顿在温哥华举行的年度NIPS大会上发表演讲,“深度学习”这个词第一次出现在标题中。这是一次巧妙的品牌重塑。提到多层神经网络,讲深度学习并不是什么新鲜事。但“深度学习”是一个令人回味的术语,旨在激励研究人员在一个再次失宠的领域进行研究。当他在演讲中说其他人都在做“浅薄学习”时,听众们发出了笑声,他知道这是一个好名字。从长远来看,这将被证明是一个高明的选择,它立刻提高了在学术界边缘工作的这一小部分研究人员的声誉。
 
 
So, in this post, we’re sharing a curated list of resources we’ve relied on to get smarter about modern AI. We call it the “AI Canon” because these papers, blog posts, courses, and guides have had an outsized impact on the field over the past several years.
 
💡
网站交互非常牛逼!
 
 
 

Tutorials

搞懂 Transformer 系列:
 
 

博客

 

很酷的工具

 

评论

 

采访

杨植麟

杨植麟:我认为每项技术基本都会历经原理探索期、技术创新期以及纯产品应用阶段三个阶段。
第一阶段意味着公众对于技术的第一性原理还不清晰,一切刚刚开始萌芽;第二阶段则指的是第一性原理已经清晰,但是仍然存在技术创新的空间,领先的公司会有显著的技术优势;最后一个阶段,当技术已经足够成熟了,可获得性很高了,就是纯产品的机会,网络效应建立。
 
当时,我觉得就是大模型的第一性原理还没有清晰,或者说第一性原理还没有真正成为共识。因为现在的第一性原理就是,只要你有更好的压缩比,你就会有更好的智能,这个其实对应的就是大语言模型的目标函数。所以当时(提出Transformer-XL),我们其实是在原模型的基础上取得了一个比较大的提升,让它的智能程度提升了很多。但当时,对于这件事情是有用的,显然还没有出现一个共识。
那其实,本质上,我们可以看到一般共识是要落后于非共识的思维的。正因为这样,非共识可以产生很大的价值。比如我们现在正在做的事情,虽然是非共识,但是我一点都不care。我直接做工业化,把这个东西做出来效果之后,那么很多人就会来跟进和关注。
OpenAI通过工业化的方式,而不是一个纯研究的方式去证明了第一性原则是对的。我觉得这见证了时代的变迁,一共有三个阶段。第一阶段是2018年之前,所有人不知道大语言模型有什么用,到第二个阶段是18到19年,BERT时代,大语言模型可以提升各种任务,到第三个阶段,20年往后,只剩下一个任务就是语言模型。
 
腾讯新闻《潜望》:你怎么看杨立昆说,他不看好现有技术路线,认为自监督的语言模型没办法习得真正世界的知识,随着模型规模的扩大出现谬误,也就是机器幻觉的几率会越来越高。他提出了“世界模型”的观点。
杨植麟:没有本质瓶颈。当token space足够大,变成一个新型计算机解决通用性问题就OK了,它就是一个通用世界模型。
(他这么说)很重要一点在于,大家都能看到现在的局限性。但解决方式并不一定需要全新框架。AI唯一work就是next token prediction + scaling law,只要token足够完整,都是可以做的。当然今天他指出的问题存在,但这些问题就是你把token space变得很通用,就可以了。
 
腾讯新闻《潜望》:朱啸虎(金沙江创投主管合伙人)就只投大模型的应用。他有一个观点:核心最难的是AIGC的PMF——你十个人找不到PMF,你投一百个人也找不到,和人数、和成本没关系,不要砸钱。他说“用LLaMA训练两三个月,至少能做到人类top 30的水平,立马可以取代人”。你怎么看他的观点?
杨植麟:AI不是我在接下来一两年找到什么PMF,而是接下来十到二十年如何改变世界——这是两种不同思维。
我们是坚定的长期主义者。当你实现AGI或更强智能,今天的一切会被改写。PMF固然重要,但如果着急找PMF,你很可能又被降维打击。降维打击发生过太多次。以前很多人做客服、对话系统,做slot filling(槽填充),有些规模不错的公司。但是,全是降维打击了,很难受。
  • notes
  • 学生的军训感言请回答 2023
    Loading...