Az Apple nemrégiben, a 2024-es júniusi WWDC konferenciát megelőzően, februárban mutatta be az “MGIE” (MLLM-Guided Image Editing) nevű projektjét, egy új, nyílt forráskódú MI modellt, amely a képszerkesztést természetes nyelvi utasítások alapján, magas szinten teszi lehetővé. Ez a fejlesztés, amely az Apple mérnökeinek és a Kaliforniai Egyetem kutatóinak közös munkájából született, új lehetőségeket nyit a digitális képszerkesztés terén.
Az MGIE modell egyik fő jellemzője, hogy képes a felhasználók által megadott parancsokat követve pixel szintű manipulációkat végezni. Ez azt jelenti, hogy a Photoshop-szintű szerkesztésektől kezdve a globális fotóoptimalizáláson át a lokális beavatkozásokig szinte minden lehetséges. A modell képességei között szerepel a színbeállítás, objektumok hozzáadása vagy eltávolítása, háttér módosítása, és még a haj vagy ruházat stílusának átalakítása is.
Az MGIE használata egyszerű: a felhasználóknak csupán hangparancsokat kell adniuk, például a “növeld az ég szaturációját 20%-kal” típusú utasításokat, amelyeket a rendszer azonnal és pontosan hajt végre. Emellett a modell képes új képek generálására, kiindulva pusztán szöveges leírásokból, ami széleskörű alkalmazási lehetőségeket kínál, legyen szó akár művészi projektekről, akár marketingcélokra történő képalkotásról.
Az, hogy az MGIE projekt GitHubon nyílt forráskódúként érhető el, lehetővé teszi a fejlesztők számára, hogy hozzáférjenek, testreszabják és továbbfejlesszék a modellt saját igényeik szerint. Ez nem csak az Apple elkötelezettségét mutatja a közösség által vezérelt innováció iránt, hanem azt is, hogy a képszerkesztés terén milyen új irányok lehetnek elérhetőek a jövőben.