← Fogalomtár
Fogalom
Multimodális AI
Olyan AI rendszer, amely nemcsak szövegekkel, hanem többféle adatformátummal – képekkel, hangokkal, videókkal – is képes egyszerre dolgozni, azokat megérteni és generálni.
Analógia
Mint a svájci bicska, amiben nemcsak egy penge van a szöveghez, hanem olló a képekhez, csavarhúzó a hangokhoz és sörnyitó a videókhoz is, így szinte bármilyen helyzetben bevethető.
Miért fontos?
A mindennapi munkában így egyetlen felülettel lehet egy kézírásos jegyzetet összefoglalni, egy diagramból adatokat kinyerni, vagy éppen egy videó tartalmát kielemezni. Kiterjeszti a mesterséges intelligencia használhatóságát a tisztán szöveges feladatokon túlra.