體驗(yàn)完楊植麟公司的新模型，發(fā)現(xiàn)這Kimi Chat連家譜都敢讀了

時間：2023-12-28 13:41:00

來源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #體驗(yàn)完楊植麟公司的新模型，發(fā)現(xiàn)這Kimi Chat連家譜都敢讀了#】

原文來源：GenAI新世界

圖片來源：由無界 AI?生成

完了，又多了一個大模型能看懂我身份證了？

最近，楊植麟的創(chuàng)業(yè)公司月之暗面（Moonshot AI）發(fā)布了新版本模型moonshot-v1-20231225。

長長長長長的 Kimi Chat 第一次上新了。

圖源：Kimi Chat

點(diǎn)開Kimi Chat發(fā)現(xiàn)，它回復(fù)速度好像比以前快了，網(wǎng)頁端多了個淺色模式（月之亮面？），但最重要的是，它能讀PDF掃描件了！

啥意思呢，就是我把我身份證的照片發(fā)給他，它直接給我把家庭住址擇出來了，你要讓它按姓名、出生日期...列成張表，它還能給你整的挺規(guī)矩。

月之暗面自己的描述是這樣：

我們實(shí)現(xiàn)了從掃描件（文檔、合同、白板等等）提取文字的功能。目前已支持 PDF 格式的掃描文件上傳解析。
比如可以提取白板上的手寫內(nèi)容。

在一段演示視頻里，使用者給Kimi Chat發(fā)了一張關(guān)于它這次新功能介紹的草圖，然后Kimi chat看著這個手寫草稿，直接轉(zhuǎn)換成了一個信息表格。

在這之前，Kimi Chat的人設(shè)是“長”，能一口氣讀20萬漢字?，F(xiàn)在它能讀掃描件了，論文、手稿、盜版書（不是），想象空間又變大了。

這么說吧，做掃描全能王起家的那家公司，去年?duì)I收10個億，今年要在上交所上市了。

但這能力到底有沒有說的這么好，得試試。我先扔了一份浙江省高院發(fā)布的《關(guān)于規(guī)范律師調(diào)查令制度的辦法》的掃描件給它，看Kimi Chat能不能幫我理一下這份20頁文件的大致內(nèi)容，效果還不錯：

圖源：Kimi Chat

接著我繼續(xù)問，這份文件里“浙江省高級人民法院關(guān)于規(guī)范律師調(diào)查令制度的辦法”目錄下，第五條寫的是什么。先說謎底：

圖源：《關(guān)于規(guī)范律師調(diào)查令制度的辦法》

Kimi Chat找到了精確位置，第一遍沒答完整，第二遍就全對了：

圖源：Kimi Chat

嚴(yán)肅的測試到此為止，然后我扔給了它一張即刻用戶@我有貓之貍寶兒de麻麻貼出的手稿，讓它幫我整理成一份更清晰的表格：

圖源：即刻用戶@我有貓之貍寶兒de麻麻

這手稿講的什么，肯定有人一眼就能看出來。如果沒看出來的話，跟著Kimi Chat的思路試試：

圖源：Kimi Chat

它一眼就看出這是一份家族譜系了，然后我順著繼續(xù)問它如何理解這份族譜。讓我驚訝的是，它已經(jīng)隱約判斷出這是一個文學(xué)作品中的虛構(gòu)家族，并且在其中看到了世代傳承的復(fù)雜性，甚至一些悲劇元素。

合理猜測，Kimi Chat可能已經(jīng)在背后對這些名字完成了一些搜索的動作，但這族譜到底出自何處，它沒有給出判斷：

圖源：Kimi Chat

不過，當(dāng)我告訴它這份族譜出自一個“文學(xué)名著”，有個這個關(guān)鍵的限定詞，它完全推理出了準(zhǔn)確答案（我很懷疑它早就知道了）——《百年孤獨(dú)》：

圖源：Kimi Chat

到這兒我、或許有一些人會有疑問，對于大模型來說，讀圖片（JPEG）和讀PDF的區(qū)別到底是啥，誰更難？

我拿這個問題問GPT-4，對于GPT-4或者所有基于文本預(yù)訓(xùn)練的大模型來說，處理PDF文件比JPEG文件更加直接和簡單，下面是GPT-4的回答：

對于GPT-4這樣的大型語言模型來說，處理JPEG文件和PDF文件在技術(shù)上存在顯著差異，而且難度也不同。

處理JPEG文件:

GPT-4本身是一個以文本為基礎(chǔ)的模型，它并不直接處理圖像數(shù)據(jù)。因此，對于JPEG這樣的圖像文件，GPT-4無法直接解讀圖像內(nèi)容。
如果要讓GPT-4處理JPEG文件，就需要先將圖像內(nèi)容轉(zhuǎn)換為文本描述。這通常涉及使用計(jì)算機(jī)視覺模型來識別圖像中的元素并將它們轉(zhuǎn)換為文本描述，然后這個描述可以被GPT-4處理。

處理PDF文件:

PDF文件處理對于GPT-4來說相對更直接，因?yàn)镻DF文件通常包含大量的文本內(nèi)容。GPT-4可以處理這些文本信息，進(jìn)行理解、生成回應(yīng)或進(jìn)行其他文本相關(guān)的任務(wù)。
然而，如果PDF文件中包含圖像、表格或復(fù)雜的格式化布局，這些非文本元素就可能難以被GPT-4直接處理。在這種情況下，可能需要使用OCR技術(shù)將非文本內(nèi)容轉(zhuǎn)換為文本，或者進(jìn)行特定的格式處理，才能有效地利用GPT-4。

所以在難度上，對于大語言模型來說，直接處理PDF文件還在模型的直接能力范圍里，處理JPEG文件需要圖像到文本的轉(zhuǎn)換，這需要多模態(tài)能力的介入，使得整個處理過程更為復(fù)雜和曲折。

這也能解釋為什么當(dāng)我嘗試給Kimi Chat一張圖片，它好像仍然在用讀“文檔”的邏輯理解這張圖。我拍了一張Manner咖啡的杯套，圖片是這樣的：

圖源：油醋

Kimi Chat完全讀懂了這個杯套上的文字內(nèi)容，并且從這些字眼里推測出了這個物件來字咖啡或飲品店的杯狀飲品身上：

圖源：Kimi Chat

但它無法識別圖案，就沒法識別這到底是一家咖啡店還是奶茶店的杯套——它似乎本能的跳過了符號化的部分。但當(dāng)我給了它一點(diǎn)“觀察圖中符號”的傾向，它開始把注意力放在畫面里的圖形部分，最終——在Manner的標(biāo)志里找到了“Manner”這幾個字：

圖源：Kimi Chat

Bingo！

給Kimi Chat累夠嗆，就是咖啡涼了。

小編推薦下載