Októberben az Apple Inc. a Cornell Egyetem kutatóival közösen csendben piacra dobta a Ferret nevű nagy, multimodális, nyílt forráskódú nyelvi modellt (LLM). Ez a lépés jelentős irányváltást jelentett az Apple részéről, amelyet hagyományosan zártkörű megközelítéséről ismertek, és hangsúlyozta az AI területén folytatott jelentős kutatási elkötelezettségüket.
A Ferret abban különbözik más MI modellektől, hogy képek részeit képes felhasználni lekérdezésekben. Így működik: egy adott képrészletet elemez, azonosítja a releváns elemeket, és ezeket a lekérdezés részeként használja, hagyományos választ adva. Például, ha egy felhasználó kiemel egy állatot egy nagyobb képen, és megkérdezi az LLM-et az állatról, az képes azonosítani a fajt és további kontextust biztosítani az állat cselekedeteiről.
🚀🚀Introducing Ferret, a new MLLM that can refer and ground anything anywhere at any granularity.
📰https://t.co/gED9Vu0I4y
1⃣ Ferret enables referring of an image region at any shape
2⃣ It often shows better precise understanding of small image regions than GPT-4V (sec 5.6) pic.twitter.com/yVzgVYJmHc— Zhe Gan (@zhegan4) October 12, 2023
Zhe Gan, az Apple egyik MI kutatója a Ferretet úgy írta le, mint egy rendszert, amely “bármit, bárhol és bármilyen részletességgel képes hivatkozni és rögzíteni”. Ez pontos megértést sugall a képek kisebb részeiről, túllépve más modelleken, mint például a GPT-4V.
A Ferret nyílt forráskódúvá tétele fontos lépés az Apple számára, ami meglepő nyitottságot mutat az MI közösség felé. Ez az irány előnyös lehet az Apple számára az MI iparban, mivel a cég számítási erőforrások terén korlátozottsággal küzd a Microsoft és a Google-féle óriásokkal szemben. Ezért az Apple választhat a nagyarányú felhőszolgáltatókkal való partnerség vagy munkájuk nyílt forráskódú közösséggel való megosztása között, egy Meta Platforms Inc. által már korábban alkalmazott stratégiát követve.