日日摸人人看97人人澡,一级毛片不收费,亚洲欧美日韩一区高清中文字幕

當前位置：首頁 > 綜合 >

對話楊植麟：Moonshot AI即將完成超10億元融資，公司最終目標并非超越OpenAI

2023-08-14 15:34:21 來源：騰訊網

機器之心原創

作者：姜菁玲

今年年初，楊植麟手機里來自投資人的微信好友驗證請求開始爆發。急迫尋找人工智能標的的眾多投資人聽聞了一個消息——楊植麟，開始大模型創業了。

【資料圖】

在GPT創業群星中，擁有清華系背景以及廣泛學術影響力的楊植麟無疑是耀眼的一顆，擁有漂亮且合適的履歷：2015年從清華計算機系畢業后，楊植麟前往美國卡內基梅隆大學攻讀博士，師從蘋果AI研究負責人Ruslan Salakhutdinov 和谷歌首席科學家 William Cohen，常規六年的博士之路被縮短至四年完成。

博士期間，先后以一作身份，發表 Transformer-XL 和 XLNet兩項工作，谷歌學術被引次數近兩萬。Transformer-XL成為首個全面超越 RNN 的注意力語言模型，論文成為NeurIPS 2019與ACL 2019的最高引論文之一；XLNet則在20項任務上超越谷歌BERT模型，一鳴驚人。

楊植麟從2020年開始確定“大模型是未來”這個觀點。當時，OpenAI推出GPT3。這個擁有超過1750億個參數的模型，在當時成為人類歷史上最大的神經網絡模型。斯坦福大學的研究認為它已經擁有大約7歲兒童的心智水平。

而這更重要的意義在于，GPT3的出現，讓AI的第一性原理逐漸清晰——“足夠多的證據證明，只要下一個token預測越來越準確，就會有更多的智能產生。”

“第一性原理”源自古希臘哲學家亞里士多德的觀點，指的是用來回歸事物基本條件，將其拆分成各要素解構分析，最終得出實現目標的最優路徑。

在這一年之前，楊植麟的論文Transformer-XL曾一度被ICLR 2019拒絕，理由是評審不認為大語言模型的提升在實際場景會有更多的價值。

共識的形成需要花費大量的時間。

回到中國，2020年之后，堅信自己已經看到AI的第一性原理的楊植麟，開始希望在做嘗試。但此地距離風投機構向大模型頻繁開槍，高端人才向大模型公司聚集的場景，還有三年時間。

楊植麟選擇了一個折中的方案——尋找合作，自己團隊提供技術，對方提供算力資源。但這條路可能要比想象地難走。在一個非共識的環境下，他發現需要重投入的大模型事業運行效率很低，十分坎坷。這一點對大廠、對研究院、對創業公司都是一個很大的挑戰。

轉機直到去年年底ChatGPT的爆發才開始出現，太平洋的兩岸在很短的時間里相繼被點燃。在內心回答“此地此時究竟有沒有機會”這個問題前，楊植麟去海外考察了兩個月，彼岸的“瘋狂”讓他堅信：很快，在亞洲做一個大模型公司，有機會了。

楊植麟終于開始單獨創業了，一切進展地很快。機器之心得到的最新消息顯示，楊植麟成立的大模型公司Moonshot AI已經組建了超過40人的團隊，即將完成第二輪融資，累計融資金額有望超過2億美元。在機器之心的專訪中，楊植麟首次向外界披露了Moonshot AI的工作目標和未來愿景。

時隔多年，道路上的冰山開始瓦解，布道多年的“天才AI科學家”終于迎來了他的magic moment。

時機到來

機器之心：公司名為什么是“Moonshot”？

楊植麟：我們今年3月1日正式成立，正好是Pink Floyd專輯Dark Side of the Moon發行50周年。月之暗面意味著神秘，令人好奇和向往，但登月又是一件難度很大很有挑戰的事情，這是我們名字的來源。

同時我認為搖滾精神也是我們公司一個很重要的底色。我一直覺得搞研究是歌劇，陽春白雪，很高大上，很純粹，但不太好規模化，而技術創業是搖滾，從零到一，從最小的狀態開始做起，不斷革新自我，不給自己設置邊界，最終做出很好的音樂改變世界，給一代人帶來能量。

機器之心：目前公司最新情況是怎樣的？

楊植麟：我從去年年底開始基本明確要單獨做一個大模型公司。

目前Moonshot AI已經完成首輪融資，公司技術團隊已有數十人規模，擁有2位聯合創始人，公司在中國和海外各設立了一個辦公點。我們預期，Moonshot AI的團隊將持續補充技術、產品、運營等方面的人才。

我們的當前的工作重點是研發下一代跨模態大模型。我們即將完成的第二輪融資將用于以保證有足夠的資金進行GPT-4以及下一代模型的研發。

機器之心：能否詳細介紹一下你們目前的團隊？

楊植麟：目前我們整個團隊人數超過了四十人，絕大部分是擁有世界級影響力工作的大模型專家。

兩位聯合創始人，周昕宇和吳育昕，也都是清華背景，五位數的Google Scholar引用，在大模型方面有非常豐富的工程和算法經驗。

我們半數以上的成員擁有海外經歷，從海外吸收了先進的人才和認知，團隊核心成員也參與了Google Gemini、Bard、盤古、悟道等多個大模型的開發。

整體團隊包括了NLP, CV, RL, Infra方面新生代人才，有很多有世界影響力的工作都是我們團隊成員主導的：

在大模型方向，我們的團隊成員發明了RoPE相對位置編碼，是Meta LLaMa和Google?PALM等大多數主流模型的重要組成部分；我們發明了group normalization，是Stable Diffusion等AI模型成功的關鍵組件；同時，我的工作Transformer-XL，是歷史上第一個在詞級別和字級別都全面超越RNN的注意力語言模型，解決了語言建模上下文長度的關鍵問題，定義了語言建模的新標準；我們曾與DeepMind和CMU合作研究，首次實現小樣本性能逼近全監督學習的高效對齊方法。

在視覺領域，我們團隊成員包括發明了MoCo，引爆了基于對比學習的視覺預訓練范式，也是過去三年CVPR引用量最高的工作；發明了ShuffleNet，最高效的視覺網絡結構之一；主導開發了detectron2，一個被廣泛使用的視覺開源項目并被集成到Meta全線VR/AR產品中。

在基礎設施方面，團隊核心成員曾帶領數十人從零開發世界領先的深度學習框架，也具備數千卡集群全自動化硬件運維告警、數百億特征檢索、大規模（數十PB數據、百萬臺機器）分布式系統數量級性能優化的經驗。

在強化學習方面，團隊成員作為一作提出了基于關系學習的少樣本方法，得到斯坦福大學、Google、MIT、Amazon等團隊的使用和擴展，并獲得過OpenAI RL聯創及負責人John Schulman親自邀請加盟。

機器之心：下定決心創業的時機是什么？

楊植麟：本質上我認為，今年以前，亞洲可能并不存在做大模型公司的機會。

如果更早之前開始做的話，在資本和人才方面很難說有足夠的資源去支持。

不過，去年年底，我的判斷開始發生很大變化。當時，GPT已經在美國市場引起了很大的關注，一般來說美國以外的市場會有一點時間差，但是肯定會跟上。果不其然，到了第二年春節，美國以外的市場也開始爆發，幾乎所有VC開始關注（這個賽道）。所以我們發現，果然是有機會的。

機器之心：我們知道那個時候你去海外考察了兩個月，你給自己的任務是什么？

楊植麟：對，我是在去年12月份去的海外。當時我給自己的任務是，一是盡可能多的提升認知，二是為后續的招聘儲備一部分人才。

當時在國外，我覺得情況可能比我想的還要瘋狂。除了在推特在討論，無論是不是技術人員，餐廳、咖啡館你處處都能聽到人們在討論GPT。當時可能是美國最狂熱的時候，有點類似處于Gartner Hype Cycle（技術成熟度曲線）的上升階段，公眾對這項技術的預期非常高，似乎一夜之間大家覺得通用人工智能已經可以實現了的感覺。這是遠遠超出我預期的部分。

整體上這趟行程是比較順利的，這一趟應該說堅定了我們認為現在是個合適時機的信念。

所以我們加速了融資和招人的節奏。我們在一個月之內敲定了首輪融資，拿到了來自紅杉等頭部機構6000萬美元的啟動資金。并且在三個月內組建起了大約四十人的極高人才密度的技術研發團隊，雖然在海外招聘的難度比較大，也成功招募到了一些核心研發人才，在海外設立了一個辦公點。目前我們也即將完成第二輪融資。

機器之心：在這之前的幾年，你怎么做大模型的工作？

楊植麟：我們選擇了一種折中的方式去做這件事，找一些合作方，我們提供技術，他們提供算力。我認為這種形式可能是當時的最佳選擇。因為在那個時期，單獨成立一家公司來做這個事情并不能獲得足夠的資金支持。

2020年下半年，我們開始與華為合作，為其中一個版本的盤古大模型做了核心的技術研發。2021年，我帶領團隊一起參與了智源研究院的悟道大模型研發。

這兩段經歷，讓我了解了大模型研發過程中各種可能的問題，并且積累了經驗。但是這種合作方式也讓我意識到，你可能只有自己創建一家公司才能真正意義上去實現這個目標。

機器之心：為什么說自己單獨做一家公司才能真正去實現這個目標？

楊植麟：在大組織當中，如果公司對這個項目的投入不夠，那么你項目的優先級會被放低，而且組織中的多方合作如果在KPI上沒有足夠對齊，就無法取得合力，效率很低。

我們意識到，在大模型的研發中，只有正確的組織才能完成這項工作。也就是說，這所有人都高度集中，人才密度很高，工作效率非常高，并且目標完全一致。

在之前的合作中，實現這些非常困難，所以在很大程度上阻礙了我們的創新。因此，我認為創新需要找到正確的人并找到正確的組織方式，這是可能成功的唯一方法。這也是為什么我認為必須創立一家公司的原因。

大模型公司最重要的是人才與組織

機器之心：今年年初開始很多VC找你，你都沒有見。為什么？

楊植麟：實質上我們認為，直到6月前，我們最核心的任務是招人，組建團隊。

今年以來，我們看到市場上大模型相關的人才非常稀缺，真正有相關經驗、有計劃有認知、愿意創業且在合適的年齡的人其實并沒有那么多。

至少在這個階段，我認為人才的稀缺性比資本稀缺性更高。因為一個這個團隊到底能不能達到GPT 4這個里程碑以及做出來下一代模型，可能關鍵的指標就是你的團隊是不是一個對的團隊。

我們了解到，其他一些公司，其實過去幾個月并沒有怎么進人，公司的人才結構并沒有變化，我認為這本身是有問題的，因為人才市場已經產生了很大的流動性，我認為我們是應該抓住這個機會的。

這里需要規避兩種情況，一是低效的團隊結構，比如說設置了十個合伙人又缺少能夠真正拍板的人，因此合作的效率會很低。另一種情況，是你完全不補人，可能你仍然完全按照傳統AI公司的組織結構，沒有抓住人才市場這一波流動性，那么你可能后面的發展也會有很多問題。

所以我們是想盡量避免這兩種，在一個合理的組織結構下，然后去把人才密度去做到很高，去抓住這一波的紅利。

機器之心：人才流動性指的是什么？

楊植麟：人才從從細分的AI技術領域NLP、CV、RL等開始向大模型公司集中。

機器之心：你說大模型人才目前很稀缺，算法以及工程兩個方面的人才稀缺程度是否有所不同？

楊植麟：整體上來講，行業人才確實非常稀缺。全世界范圍內，有大模型訓練經驗的人才很少。這意味著，在工程實現方面，比如能夠在開源框架上去做優化和提升的人并不多，能應對超大規模集群的人才也很稀缺。

而在算法創新方面的人才稀缺程度則比之更甚。比如在強化學習方面，能夠做強化學習的人非常少，但是對于一個大模型公司來說，強化學習能夠讓AI自主去探索，沒有強化學習就無法實現更高水平的技術躍升。我們除了有在短期內要去超過GPT4這個目標，還需要去思考更前沿的技術方向，比如GPT5可能是怎樣的，我們的機會在哪里，這些都需要算法創新。

這兩方面的人對我們都非常重要，我們都有所儲備。我們認為，工程實現能力決定了你技術能力的下限，而算法創新能力決定了技術上限。

機器之心：在招聘過程里，你用什么來吸引前面提到的這些人才？

楊植麟：核心包括三點，極大的上升空間、長遠的愿景以及人才密度。

我們希望早期團隊中的人認可我們長期的Vision，不論是具體的技術路線，還是AI帶來的社會價值。另外，頂尖的技術人才會帶來“滾雪球”效應。很多人是知道了我們團隊中的一些很強的人，他會覺得“哎？這幾個人竟然都在那！我確實也蠻想跟他們一起工作的”，這是一種很大的激勵。在早期加入創業公司，他們的主動性和實際上升空間都很大。

機器之心：創造一個大模型公司，組織上你認為最重要的是什么？

楊植麟：我認為最重要的是人才密度和文化。你需要有優秀的人才，然后給他們一個好的文化環境，讓他們在一個既定的目標和方向下能夠自由創新。

大模型有點類似登月計劃，本身需要自頂向下的規劃和統籌，但同時，我們需要鼓勵自下而上的創新，保持一定程度的開放性和組織的扁平化，這樣創新就更容易發生。

所以我覺得，本質上就是要招最好的人，然后給他們提供一個好的系統，讓他們在這個系統里面能夠去創新，并且他們的很多創新能夠成為系統的一部分，這樣你的系統就能繼續前進，我覺得這可能是我們現在想做的事情。

機器之心：所以你們的Vision是什么？

楊植麟：我認為每項技術基本都會歷經原理探索期、技術創新期以及純產品應用階段三個階段。

第一階段意味著公眾對于技術的第一性原理還不清晰，一切剛剛開始萌芽；第二階段則指的是第一性原理已經清晰，但是仍然存在技術創新的空間，領先的公司會有顯著的技術優勢；最后一個階段，當技術已經足夠成熟了，可獲得性很高了，就是純產品的機會，網絡效應建立。

兩三年前，NLP、CV這些技術都處于第一階段。如今，我們已經來到第二階段，AI的第一性原理已經被大量證據所證明——從GPT1到GPT4，我們會發現，人類文明的總和，數字化之后都可以變成硬盤上的數據，無論是文字、語音還是視頻，只要我們有合適的辦法，去對這些數據做最大限度的規模化無損壓縮，就能實現非常高程度的“智能”。

我最喜歡的例子是等差數列。假設說目前我有1萬個數字要去壓縮，在我一無所知的情況下，我所能做的僅僅只是把這1萬個數字存下來。但是，如果我能夠知道這些數的底層運行規律，我知道等差數列，那我就只需要存兩個數字，其他9998個數字就能被還原出來。

這就是AI的第一性原理。在第二階段，第一性原理已經清晰的情況下，理論上我們只需要一條道走到黑，去想更好的辦法盡可能地去對整個人類文明進行壓縮，然后就能在技術上實現較高程度的智能化。

而“更好的辦法”也是第二階段與第三階段的分野。在這個方向上，我們看到大約5年的窗口期之中，我們需要去解決目前看到的問題，不斷技術創新，讓技術變得更加通用和低門檻，最終推動大規模的產品化。

在這個階段，更好的模型質量通常會直接帶來更好的用戶體驗，通過技術驅動的公司會擁有更大的產品優勢。如果我們去看美國市場，目前領先的公司例如OpenAI, Anthropic, Inflection, Character AI, Midjourney，無一不是通過Model as an application的方式，通過技術優勢來形成產品上的體驗優勢。

我們本身是一個技術很強的團隊，也擁有很強的創新文化。對于我們來講，我們看清楚了當下AI所處的技術階段。在這個階段當中，我們可以用一個技術驅動方式，實現產品上的優勢，最終實現網絡效應。所以這對于我們來說，就是一個合適的時機。

機器之心：想要去解決的“目前看到的問題”指的是什么？

楊植麟：我們看到，即使對于OpenAI本身來說，現在GPT需要解決的問題仍有很多。比如怎么訓練出一個好的視頻模型，能夠讓文本和視頻實現真正意義上的跨模態交互。當下的跨模態模型更像是一個單任務模型，它只知道怎么去生成這個圖像，但是大腦部分非常薄弱。

基于Diffusion Model的技術路徑，一個重大問題是你沒有辦法去做真正的跨模態建模，只能基于很簡單的文本向量去做decoding。本質上，它并沒有對不同模態的聯合概率去做一個可規模化的建模，這制約著這些模型去發揮更大的價值。從可規模化這個點上，我個人認為，長期來看，可能Autoregressive model（自回歸模型）能夠更通用得對不同模態去建模，長期會有更大的上升空間。

除了跨模態問題，另一個很關鍵的問題是，未來的大模型肯定不會停留在壓縮現有的數據，而是會自主進行探索、在探索過程中生成和篩選數據、并進行壓縮。一個很典型的例子是圍棋，如果AI通過壓縮已有的棋譜，很難在圍棋水平上超越最頂尖的人類棋手。

相同地，如果是我們想訓練一個能達到IOI金牌水平的編程AI，那么僅僅通過壓縮現有的題解也是很難做到的。我們需要讓編程AI自己去搜索不同的解法，在搜索的過程中評判解法的可行性，從而對解空間進行更全面的探索。

在科學領域也是一樣，如果AI可以自主探索解空間，那么就可以發現人類還未發現的新知識。長期來說，通用地解決這個問題會產生超級智能（super intelligence）。

機器之心：如果說是AI技術的發展要經歷上述三個階段。我們看到ChatGPT的成功應該是技術和產品并行的一次嘗試。

楊植麟：對于ChatGPT而言，確實是在技術的創新和產生網絡效應兩個階段是一個并行的過程。在技術創新階段，它占據了優勢并形成了壁壘，然后在盡可能早的時候，將技術轉變為具有網絡效應的產品。

所以我剛剛雖然提到會有三個階段，但是并不是說這一定是線性的。如果能夠利用好自己技術優勢，那么越早將它變成一個具有網絡效應的產品越好。這之后，因為用戶反饋和生態系統建設等方面會給你帶來巨大的提升。因此，并不是要等待技術完全普適化才去產品化，而是要盡早地放出有用的產品讓用戶去投票。

最終目標不是超越OpenAI

機器之心：你們目前的初始目標是實現GPT4的開發，現在進展如何？

楊植麟:?我們首先要做的是預測，然后才能做規模化。在投入大量的資金去規模化前，我們需要知道規模化后會發生什么。通過很多預測工作，總結規律，然后預測規模化后的情況。這樣可以涵蓋大概主要的影響因素，剩下的少部分可以通過一些經驗和試錯來推斷。

目前我們前期已經驗證完，開始去用更大的數據集去訓練，以使訓練更穩定，保證代碼的正確性，以及優化損失函數，訓練大模型。

機器之心：很多大模型創業公司的初期目標都是超過GPT4，“達到或者超越”的標準會是什么？

楊植麟：我認為最重要的標準其實是模型的壓縮比。

如果基于第一性原則來思考，智能的首要任務就是優化壓縮，那么提升壓縮比就意味著智能的增強。在一個足夠大的數據集上，模型的壓縮比有多大就能衡量出模型的優劣。例如，OpenAI的GPT-4可能在某些領域已經達到了30多的壓縮比，而一些開源的模型的壓縮比可能只有10出頭，所以空間還是非常大的。

至于用戶眼中的模型在應用里的表現，實際上也是由你的模型壓縮比所決定的。模型的壓縮比如果非常好，剩下的問題就是工作量問題，時間允許你肯定能把它調地很好。

所以我覺得壓縮比是最關鍵的指標。例如，我們現在去監測我們的模型的進展，我最主要看的指標也是壓縮比，我可以通過算出來的壓縮比去預測它的趨勢，什么時候能達到GPT-4的壓縮比，這是可以被預測出來的。

機器之心：和如今在創業的公司一樣，OpenAI也在往前走、快速迭代自己的模型。如果說目標是追趕GPT4的話，你認為超越OpenAI的可能性大嗎？

楊植麟：有可能，但這個過程需要時間和技術創新。

對于我們來說，一方面，后發優勢可以節省時間，即利用OpenAI等先行者已經做出的工作和探索成果。比如我們不用再像他們之前一樣，花幾年的時間去確認AI的第一性原理，而是可以直接沿著這條路往前走。

但客觀上，確實目前的差距很大。短期來看，我們要看到這個差距，而不是說現在就說要馬上“趕英超美”。我認為如果真的能夠實現“超越”這個目標的，應該需要依靠接下來還沒有出現的模型，要去思考下一代模型怎么做。

長期來看，我是比較樂觀的。因為和電力不一樣，AI是異質化的。全世界各國的電力都是一樣的，都可以用來給手機充電。但是對于一個記者、一個程序員以及一個畫家，這三者所面向的人工智能的智能維度完全不一樣。

因此，最后可能人工智能模型不會存在一個超越與不超越的問題。比如雖然OpenAI在某些智能領域做得很好，但可能在某些特定場景中，比如生成圖片的美學價值上，它暫時還無法超過Midjourney。即使OpenAI在某些領域超過了，可能還會有其他領域存在差距。因此，有很多維度可以用來定義智能水平。

由于人工智能的異質化，每個公司可能都有自己擅長的部分。通用能力上做得很好是一個前提，但在每個細分領域里，還是存在專業化的差異。例如，character.ai在角色扮演這個場景中，可能會做得比GPT-4更好，這就是專業化的體現。雖然它們的訓練路徑和OpenAI很接近，但產品的出發點可能會決定了它在這個領域里專業化的位置。

通用人工智能會存在技術門檻，這個世界上只會有少數的通用人工智能公司，但每個跨過一定技術門檻的公司可以在某些具體的場景或類型的智能上有專業化優勢，并在這些領域做得比其他公司更好，最終形成一些網絡效應。因此，未來并不會只有一家AI公司能包辦所有的智能。

機器之心: 你有沒有想過，可能我們永遠無法追趕上

楊植麟：就像上面所說的，追趕可能并不是我們的最終目標，總體上這個領域有很多維度需要探索，需要很多公司一起。

爬樓梯，而不是看風景

機器之心：大模型是個非常新的技術方向，從你接觸的情況看，投資人對這件事的理解程度怎樣？

楊植麟：我覺得一個關鍵需要理解的點是AI-native產品跟傳統產品的區別。

在大模型時代，以往基于移動互聯網的產品邏輯和交互方式已經在發生巨大改變。以往，用戶使用移動互聯網產品的使用路徑非常確定和清晰。但對于Chat-based UX來說，所有交互都基于對話，是完全開放性的，用戶可能看到的結果出現了指數級的增長。這對產品經理的能力提出了新的要求，需要在無限的可能性中去通過有限的評測來定義產品。UX有兩個重要的維度，一個是靈活度，一個是直觀度，chat-based UX相比于傳統的GUI顯得非常靈活，但直觀度相對下降，所以怎么在保持靈活度的前提下提升直觀度，也是一個重要命題。

很多人比較在意公司的商業模式，我認為商業模式不會成為特別大的問題。目前有很多可以借鑒成熟經驗的地方，比如可以做訂閱，或者通過聊天方式推薦商品或廣告，以一種更自然且精準的方式來實現。又比如，類似游戲的商業模式也可以借鑒，比如抽卡等等。

相比于商業模式，我認為現階段的核心議題還是產品創新，重要性遠大于商業模式。

我們需要通過技術創新來實現出色的產品，而一旦我們擁有產品，就能將流量和用戶關聯起來，產生良好的數據去驅動模型更加智能。

因此，理解這個事情需要大量的學習。在這個時代變化非常快的情況下，我認為每個人都需要快速學習，吸收新知識，持續更新自己的認知是非常重要的。

機器之心：整體來看，在大語言模型的研究中，比較難的是什么？

楊植麟：整體上都很難。你可以看到美國不少大廠投入了很多資金，但還沒有做出能看的東西，因為這里面本身難度確實非常大。如果我們仔細去拆分，或許包括三個方面：

首先，算法創新是必需的，這需要大量的投入與研發；其次，很大一部分情況是算法并不是新的，但是你要怎么調，讓它更有效地工作，這是一個很具體的問題。

第三，工程實現是不是正確的，這個難度也很大。很多時候你搞了很多bug，非常容易你的loss就炸了。

所有這些挑戰最后都反映到一個核心指標——人才密度。

人才密度決定了以上提到的各個問題的解決程度，能做到多好。這里的人才密度可能又分為幾個方面：

第一，團隊有沒有訓練過這些東西的經驗。因為經驗本身就是一個踩坑的過程，你可以從你以前的經驗里面去學習。

其次，團隊有沒有信息，比如說你跟這個圈子離得比較近一點，可以更及時地獲得一些有價值的信息。

第三，團隊有沒有面對未知的問題的創新能力。因為你不可能說所有東西都是已知的，所有東西都被你的經驗或者信息覆蓋，這個基本不可能。那么面對新的情況的時候，你這個團隊有沒有能力去針對這些新的情況去做很多調整？比如說，你發現你可能把模型的batch size加大之后，它的loss就特別差，那么你的團隊有沒有辦法去解決這個問題？

對于一個公司來說，最難的是在爬樓梯和看風景之間做出取舍。可能有的人爬了一兩層樓之后就快速選擇看風景，用能力比較基礎的模型去做大肆宣傳，去做商業化，對于我們來說，更重要的是以終為始，堅持爬樓梯，攀登高峰。即便中間也會看看風景，最終也是為了爬樓梯服務的。

機器之心: 你在學術界最廣為人知的成就是Transformer-XL與XLnet這兩篇論文，產生了很大的影響。不過，2019年你提到一個故事——XLnet這篇論文曾經被ICLR 2019大會拒絕，理由是評委不認為大語言模型的效果提升在應用上會有很大的影響。現在從大模型行業整個發展階段來看，這件事可能代表了什么？

楊植麟：現在看這個觀察挺有意思。

當時，我覺得就是大模型的第一性原理還沒有清晰，或者說第一性原理還沒有真正成為共識。因為現在的第一性原理就是，只要你有更好的壓縮比，你就會有更好的智能，這個其實對應的就是大語言模型的目標函數。所以當時（提出Transformer-XL），我們其實是在原模型的基礎上取得了一個比較大的提升，讓它的智能程度提升了很多。但當時，對于這件事情是有用的，顯然還沒有出現一個共識。

那其實，本質上，我們可以看到一般共識是要落后于非共識的思維的。正因為這樣，非共識可以產生很大的價值。比如我們現在正在做的事情，雖然是非共識，但是我一點都不care。我直接做工業化，把這個東西做出來效果之后，那么很多人就會來跟進和關注。

OpenAI通過工業化的方式，而不是一個純研究的方式去證明了第一性原則是對的。我覺得這見證了時代的變遷，一共有三個階段。第一階段是2018年之前，所有人不知道大語言模型有什么用，到第二個階段是18到19年，BERT時代，大語言模型可以提升各種任務，到第三個階段，20年往后，只剩下一個任務就是語言模型。

GPT3的發布為第一性原理提供了足夠多的證據，雖然距離真正形成共識還需要一段時間，但是它給出了一個底層依據，明確了優化的目標。因為方向很清楚，所以它適合做工業化，而不僅僅是學術研究。這也標志著從學術研究階段向工業化階段的過渡。在工業化階段，目前還處于一個需要創新的階段，因為如何讓預測越來越準確，現在還有一些問題沒有完全解決。

機器之心：在我們看來，最近幾年在基礎模型的架構上的研究似乎并不多。你認為Transformer架構將來會不會被替代？

楊植麟：我認為如果時間足夠長，Transformer肯定會被替代。

但在短期三到五年內，更大的可能性是在Transformer的核心思想上進行優化。比如，如果你想處理10萬的context，你肯定不能使用原始的Transformer。如果你想處理分鐘級別的長視頻，使用原始的Transformer可能不是最優方案。

所以，我認為在接下來的三到五年內，我們可能更傾向于針對特定問題對Transformer結構進行優化，但核心的思想我認為應該還是比較通用的。

在這個過程中，量變產生質變，比transformer更好的模型會自然通過組合演進的方式產生。

機器之心：

現在許多公司在做行業大模型的研發，你的看法是什么？

楊植麟：我覺得行業大模型在短期內有其存在的道理，利用專有數據的優勢，可能在某些非常封閉的行業有所作為。

但從長期看，當一個賽道開始接入更多來自B端和C端的參與方，再封閉的行業，都很難阻止數據的擴散，超級入口會變成數據黑洞把各種數據吸納進來，行業模型的優勢會消失。

另一個方面看，行業大模型的計算量本質上是一個能源轉化成智能的過程。如果我投入了更多的能源，我就會有更多的智能，中間轉化率取決于我的算法的有效性。如果我假設你算法是一樣的，那么你有多少智能就完全取決于你有多少能源。

而客觀上，這種行業大模型消耗的能源是要比通用的模型要少好幾個數量級，長期來說這個差距還會擴大。這樣的話它產生的智能最終提供的增量價值會趨近于0。

在一些超級封閉的行業，如果通用模型還沒有觸及，或者數據吸納的效應還沒有出現，這種情況下短期可能存在一些機會，但長期來看我覺得會回歸到通用模型。