【#區(qū)塊鏈# #體驗(yàn)完楊植麟公司的新模型,發(fā)現(xiàn)這Kimi Chat連家譜都敢讀了#】
原文來源:GenAI新世界
圖片來源:由無界 AI?生成
完了,又多了一個大模型能看懂我身份證了?
最近,楊植麟的創(chuàng)業(yè)公司月之暗面(Moonshot AI)發(fā)布了新版本模型moonshot-v1-20231225。
長長長長長的 Kimi Chat 第一次上新了。
圖源:Kimi Chat
點(diǎn)開Kimi Chat發(fā)現(xiàn),它回復(fù)速度好像比以前快了,網(wǎng)頁端多了個淺色模式(月之亮面?),但最重要的是,它能讀PDF掃描件了!
啥意思呢,就是我把我身份證的照片發(fā)給他,它直接給我把家庭住址擇出來了,你要讓它按姓名、出生日期...列成張表,它還能給你整的挺規(guī)矩。
月之暗面自己的描述是這樣:
在一段演示視頻里,使用者給Kimi Chat發(fā)了一張關(guān)于它這次新功能介紹的草圖,然后Kimi chat看著這個手寫草稿,直接轉(zhuǎn)換成了一個信息表格。
在這之前,Kimi Chat的人設(shè)是“長”,能一口氣讀20萬漢字?,F(xiàn)在它能讀掃描件了,論文、手稿、盜版書(不是),想象空間又變大了。
這么說吧,做掃描全能王起家的那家公司,去年?duì)I收10個億,今年要在上交所上市了。
但這能力到底有沒有說的這么好,得試試。我先扔了一份浙江省高院發(fā)布的《關(guān)于規(guī)范律師調(diào)查令制度的辦法》的掃描件給它,看Kimi Chat能不能幫我理一下這份20頁文件的大致內(nèi)容,效果還不錯:
圖源:Kimi Chat
接著我繼續(xù)問,這份文件里“浙江省高級人民法院關(guān)于規(guī)范律師調(diào)查令制度的辦法”目錄下,第五條寫的是什么。先說謎底:
圖源:《關(guān)于規(guī)范律師調(diào)查令制度的辦法》
Kimi Chat找到了精確位置,第一遍沒答完整,第二遍就全對了:
圖源:Kimi Chat
嚴(yán)肅的測試到此為止,然后我扔給了它一張即刻用戶@我有貓之貍寶兒de麻麻貼出的手稿,讓它幫我整理成一份更清晰的表格:
圖源:即刻用戶@我有貓之貍寶兒de麻麻
這手稿講的什么,肯定有人一眼就能看出來。如果沒看出來的話,跟著Kimi Chat的思路試試:
圖源:Kimi Chat
它一眼就看出這是一份家族譜系了,然后我順著繼續(xù)問它如何理解這份族譜。讓我驚訝的是,它已經(jīng)隱約判斷出這是一個文學(xué)作品中的虛構(gòu)家族,并且在其中看到了世代傳承的復(fù)雜性,甚至一些悲劇元素。
合理猜測,Kimi Chat可能已經(jīng)在背后對這些名字完成了一些搜索的動作,但這族譜到底出自何處,它沒有給出判斷:
圖源:Kimi Chat
不過,當(dāng)我告訴它這份族譜出自一個“文學(xué)名著”,有個這個關(guān)鍵的限定詞,它完全推理出了準(zhǔn)確答案(我很懷疑它早就知道了)——《百年孤獨(dú)》:
圖源:Kimi Chat
到這兒我、或許有一些人會有疑問,對于大模型來說,讀圖片(JPEG)和讀PDF的區(qū)別到底是啥,誰更難?
我拿這個問題問GPT-4,對于GPT-4或者所有基于文本預(yù)訓(xùn)練的大模型來說,處理PDF文件比JPEG文件更加直接和簡單,下面是GPT-4的回答:
對于GPT-4這樣的大型語言模型來說,處理JPEG文件和PDF文件在技術(shù)上存在顯著差異,而且難度也不同。
處理JPEG文件:
處理PDF文件:
所以在難度上,對于大語言模型來說,直接處理PDF文件還在模型的直接能力范圍里,處理JPEG文件需要圖像到文本的轉(zhuǎn)換,這需要多模態(tài)能力的介入,使得整個處理過程更為復(fù)雜和曲折。
這也能解釋為什么當(dāng)我嘗試給Kimi Chat一張圖片,它好像仍然在用讀“文檔”的邏輯理解這張圖。我拍了一張Manner咖啡的杯套,圖片是這樣的:
圖源:油醋
Kimi Chat完全讀懂了這個杯套上的文字內(nèi)容,并且從這些字眼里推測出了這個物件來字咖啡或飲品店的杯狀飲品身上:
圖源:Kimi Chat
但它無法識別圖案,就沒法識別這到底是一家咖啡店還是奶茶店的杯套——它似乎本能的跳過了符號化的部分。但當(dāng)我給了它一點(diǎn)“觀察圖中符號”的傾向,它開始把注意力放在畫面里的圖形部分,最終——在Manner的標(biāo)志里找到了“Manner”這幾個字:
圖源:Kimi Chat
Bingo!
給Kimi Chat累夠嗆,就是咖啡涼了。
小編推薦下載
相關(guān)推薦
資訊排行
同類軟件下載
熱門標(biāo)簽