Októberben az Apple Inc. a Cornell Egyetem kutatóival közösen csendben piacra dobta a Ferret nevű nagy, multimodális, nyílt forráskódú nyelvi modellt (LLM). Ez a lépés jelentős irányváltást jelentett az Apple részéről, amelyet hagyományosan zártkörű megközelítéséről ismertek, és hangsúlyozta az AI területén folytatott jelentős kutatási elkötelezettségüket.

A Ferret abban különbözik más MI modellektől, hogy képek részeit képes felhasználni lekérdezésekben. Így működik: egy adott képrészletet elemez, azonosítja a releváns elemeket, és ezeket a lekérdezés részeként használja, hagyományos választ adva. Például, ha egy felhasználó kiemel egy állatot egy nagyobb képen, és megkérdezi az LLM-et az állatról, az képes azonosítani a fajt és további kontextust biztosítani az állat cselekedeteiről.

Zhe Gan, az Apple egyik MI kutatója a Ferretet úgy írta le, mint egy rendszert, amely “bármit, bárhol és bármilyen részletességgel képes hivatkozni és rögzíteni”. Ez pontos megértést sugall a képek kisebb részeiről, túllépve más modelleken, mint például a GPT-4V.

A Ferret nyílt forráskódúvá tétele fontos lépés az Apple számára, ami meglepő nyitottságot mutat az MI közösség felé. Ez az irány előnyös lehet az Apple számára az MI iparban, mivel a cég számítási erőforrások terén korlátozottsággal küzd a Microsoft és a Google-féle óriásokkal szemben. Ezért az Apple választhat a nagyarányú felhőszolgáltatókkal való partnerség vagy munkájuk nyílt forráskódú közösséggel való megosztása között, egy Meta Platforms Inc. által már korábban alkalmazott stratégiát követve.