
「文科生也可以作念 AI」 「逆袭!」在汉文互联网上,文科和 AI 的拉郎配,几乎成了定番。
每隔一段时刻,这个标签就会被贴在某个东谈主身上,制造出一轮倏地的流量。要么是逆袭故事,要么是嘲讽素材,取决于挑剔区的心思。
BG真人(BigGaming)官方网站一个标签,三种作念法
最新的案例是杨天润, AI 创业者,金融建立,正在开发一个多智能体协调平台。他自称「一溜代码都不会写的文科生」,搭建了一组 AI Agent,向 GitHub 上最热点的开源神情之一 OpenClaw 批量提吩咐码孝敬。

想考证一个假定:一个全都不懂时期的东谈主,能不成仅靠教养 AI,就参与到顶级开源神情中去。
抑遏是:134 个 PR,21 个被合并,113 个被隔断。前几个 PR 质料还算可以,被防卫者认同并合并。但当他给 Agent 下了一条加快指示后,事情赶快失控——Agent 启动像活水线一样批量分娩低质代码,在挑剔区放肆@防卫者催促审核。OpenClaw 照应员介入算帐,GitHub 随后修改了 PR 提交上限治安。

黑红亦然红,红过之后再黑愈加是。杨天润被包装成「文科生逆袭」的代表,而他本东谈主似乎也乐于汲取这个脚色。在汲取品玩的采访时,他说了一句这么的话:
不懂代码反而是上风。AI 是梵高,你是个小画家,你有什么履历告诉梵高中间该用什么笔触?

细想极恐。他把「不懂底层结构」领略为一种目田:不需要知谈系统在作念什么,只需要告诉它你想要什么。抑遏便是当 Agent 启动批量刷垃圾代码时,他连发生了什么都会诊不出来,因为他根底不知谈我方在操作什么。
他以为我方在教养梵高,执行上他在盲开一辆没装刹车的车,况兼根底不知谈刹车在哪。
围绕这件事的接洽,也随之落入两个顶点:要么「文科生也能作念 AI」,要么「文科生别碰 AI」;前者是高出鸿沟的豪举,要么是掉进鸿沟的见笑
要是咱们对「文科生作念 AI」的假想力只好这些,那不免太短少了。
Claude 为什么需要一个形而上学家
咱们之前写过,Anthropic 的办公室里,有一位正经八百的文科生,深度参与了 Claude 的开采。不是测试它能不成写代码,不是查抄它的数学智商,而是和它进行漫长的、对于价值不雅、对于措辞分寸、对于「靠近不细目性应该如何抒发」的对话。
Amanda Askell,苏格兰东谈主,本年 37 岁。她的职业旅途自己便是一个不太寻常的故事:在大学,她领先学的是好意思术和形而上学,自后转向纯形而上学,在牛津拿到了 BPhil,又在纽约大学拿到了形而上学博士。她博士议论的是无穷伦理学中的帕累托原则:当波及无穷数目的谈德主体或无穷时刻跨度时,伦理排序应当受命什么治安。

这听起来像是距离硅谷最远的学术目的,但她先后加入了 OpenAI 的战略团队和 Anthropic 的对皆团队。2021 年起,她成为 Anthropic「脾气对皆」团队的细密东谈主,使命要点是塑造 Claude 如何与东谈主类对话、如安在不细目时抒发态度、如安在价值不雅突破中作念出判断。2024 年,她入选了 TIME100 AI 榜单。《华尔街日报》面容她的平淡使命是「学习 Claude 的推理模式,用长度突出 100 页的辅导词来修正它的当作偏差」。外传她是这个星球上和 Claude 对话次数最多的东谈主类。
为什么一个 AI 公司需要一个形而上学家来作念这件事?谜底藏在一些颠倒具体的时期遴荐里。
本年 1 月,Anthropic 发布了一份长达 80 页的文献,被称为 Claude 的「宪法」。媒体脸色的是文献末尾对于 AI 闭塞的忖度——虽然,雇主 Dario Amodei 也话里话外「线路」这小数。

但更值得注视的是它的底层逻辑:教 AI 领略为什么要这么作念,比告诉它应该怎么作念更有用。这是一个时期判断,以为内化价值比投诚治安能产出更可靠的当作,而这种判断的常识根基,来自一个学好意思术、学形而上学的东谈主。
Amanda 的案例报恩了一个问题:被视为「毋庸」的学科常识,能否成为时期系统的中枢智商?谜底不仅是能,况兼,莫得她的形而上学磨真金不怕火,Claude 的对皆问题用现存的工程方法科罚不了。
被从头定名的学科
要是 Amanda 的故事解析了,某些被归为「文科」的学科磨真金不怕火可以是 AI 的中枢智商,那么林俊旸的故事要说的是一件更蹙迫的事:有一统统这个词学科,一直在大模子时期栈底层运行。
林俊旸离洞开义千问后,汉文互联网的报谈反复使用团结个说法:他有诓骗讲话学配景。略略传几次,这个话就变形了,酿成了他是「文科生」。

这个标签和杨天润身上贴的是团结个,但其实被严重诬陷。
林俊旸学的是讲话学,这是一个伞状学科,它的分支覆盖讲话素养、讲话战略、翻译议论,也包括谋略讲话学。可以说,谋略讲话学,便是当然讲话处理(NLP)之子。

乔姆斯基在 1950 年代暴戾了形状语法,BG真人(BigGaming)官方网站这个表面器用平直催生了早期 NLP 的句法分析时期;Daniel Jurafsky 和 Christopher Manning,这两位 NLP 范畴被援用最多的两本教科书的作家,都是讲话学建立。

乔姆斯基
换句话说,「学讲话学的东谈主去作念 NLP」就像「学物理的东谈主去作念芯片遐想」一样,是一条正宗旅途,不是跨界。
阿谁「不测感」全都是中国语境制造的。高考文理分科的轨制惯性,把「讲话学」塞进了「文科」的心智模子里。但讲话学的中枢方法论——形状化、统计建模、语料标注——执行上是工程想维。林俊旸在北大的配合者孙栩、苏祺,都是 NLP 目的的议论者;他 2019 年加入达摩院时参加的是 NLP 团队。这不是一个文科生误入时期范畴的故事,从一启动就不是。
比「林俊旸不算文科」更值得伸开的,是讲话学在大模子时期栈里执行饰演的脚色。它比大无数东谈主以为的要深得多,也掩盖得多。
比如分词。统统讲话模子处理文本的第一步,是把输入切成模子能处理的基本单位。对英语来说,空格提供了自然的词范围,看起来简便。但汉文里,莫得空格,且每一个标点秀气的用法,都可以驾驭句子的抒发趣味趣味。
「我在北京大学念书」是切成「我/在/北京/大学/念书」如故「我/在/北京大学/念书」?这不是一个有模范谜底的工程问题,它取决于你对汉文词汇结构和语义单位的领略。
2024 年底有议论者稀奇发表论文,接洽如何优化 Qwen 模子的阿拉伯文分词效果,因为通用有计划在处理这类讲话时效果显贵着落。Qwen 系列在多讲话上的推崇,不是把统统讲话当英语的变体来处理,而是基于对讲话间结构性相反的领略,作念出的遐想遴荐。

又比如反应对皆。RLHF 过程中,标注员需要判断模子的两个报恩哪个「更好」。这个判断听起来主不雅,但它背后有一套讲话学仍是议论了几十年的框架:语用学。
标注员在评估「好的报恩」时,执行上是在判断配合原则——报恩是否提供了弥散但不外量的信息?会话含义——报恩是否捕捉到了用户真实想问的、而不单是是字面上问的东西?语境适切性——相同的内容,用这种面容说在这个场景下是否多礼?
「Helpful, Harmless, Honest」这套被平庸使用的对皆模范,执行上便是语用学基本原则的工程化翻译。

从林俊旸的学术轨迹中,也能看到一种颠倒讲话学的议论作风。他主导的 OFA(One For All),2022 年发表于机器学习范畴的顶级会议 ICML,于今被援用近 1500 次。这个使命的中枢想路不是为每个任务搭专用有计划,而是用一个弥散通用的序列到序列框架,把图像生成、视觉定位、图像面容、文天职类等跨模态任务和洽起来。

从 OFA 到 Qwen-VL(被引突出 2200 次),再到 Qwen2.5,以及最新的 3.5,一条明晰的痕迹贯串长久:与其为每个问题发明一套稀奇的解法,不如找到一个弥散好的通用框架,让统统问题在团结个框架里被科罚。
用最少的治安,覆盖最多的风景——这正是讲话学几十年来的中枢追求。生谚语法的一齐学术贪念,便是找到一套有限的治安系统,省略生成无穷的讲话抒发。OFA 的架构形而上学与此同构,为每种讲话风景写一套稀奇治安并不现实,应该寻找一个底层框架来和洽它们。
林俊旸作念大模子作念得好,不是因为讲话学配景「也能」作念 AI,而是讲话学磨真金不怕火塑造了一种特定的学术试吃,对和洽性和形状化的偏好。这种试吃在大模子时间,恰巧是中枢竞争力。
看不见的地基,看得见的需求
三个东谈主,团结个标签,三种全都不同的结构。
杨天润不懂底层结构,把「不懂」当上风,抑遏失控。这是「文科生作念 AI」的空壳版:标签制造了流量,但莫得任何学科磨真金不怕火在起作用。他的故事体现的恰正是——当「文科生」只是一个营销标签时,会发生什么。
Amanda Askell 的形而上学磨真金不怕火组成了对皆问题的中枢方法论。莫得她,Claude 不是 Claude。她的故事报恩的问题是,被视为「毋庸」的学科常识,能否成为时期系统的中枢智商。谜底是不仅能,况兼不可替代。
林俊旸的讲话学磨真金不怕火组成了大模子时期栈的隐性基础门径。他的「文科配景」从来不是跨界,是正宗旅途。他的故事报恩的问题是,文科对于先进时期的孝敬,到底「隐性」到了什么进度,它是不是正在变得显性。
而终极问题并不是「文科生能不成作念 AI」,而是咱们能否领略到小数:靠名义上的「有莫得用」来评判常识和学科,仍是逾期了。
跟着大模子从追求能用好用,走向追求可靠和可控,这些被归入「文科」的学科磨真金不怕火,价值不是在松开,而是在扩大。模子越庞杂,越需要精准的评估体系来会诊它在那里、为什么出错,也越需要领略讲话和趣味趣味的复杂性来遐想更好的磨真金不怕火数据,越需要在对皆问题上作念出有学科明锐度的判断。
「文科生逆袭」这个叙事——岂论是赞好意思如故讪笑——躲闪了真真实发生的转向:看不见的地基bg真人app官网下载,正在酿成看得见的需求。


备案号: