Přejít na hlavní obsah
CIAD

AWS začal nabízet modely Gemma 4 od Google DeepMind v Amazon Bedrock

Společnost AWS integrovala rodinu otevřených modelů Gemma 4 do své spravované platformy Amazon Bedrock, která firmám umožňuje využívat pokročilé funkce umělé in

Společnost AWS oznámila, že jsou v rámci platformy Amazon Bedrock dostupné otevřené modely Gemma 4 od Google DeepMind. Podle AWS ML blogu jde o modely s otevřenými váhami vydané pod licencí Apache 2.0, jejichž návrh klade důraz na optimální poměr inteligence a počtu parametrů. Tento přístup umožňuje nasazení pokročilých schopností v široké škále provozních scénářů.

Rodina zahrnuje tři varianty optimalizované pro různé náklady a latenci: Gemma 4 31B, Gemma 4 26B-A4B a Gemma 4 E2B. Varianta 31B je hustý model s 30,7 miliardy parametrů. Varianta 26B-A4B využívá architekturu mixture-of-experts s 25,2 miliardy celkových parametrů, přičemž aktivních je pouze 3,8 miliardy na token. Podle AWS ML blogu to přináší náklady a latenci přibližně ve třídě 4 miliard parametrů při zachování znalostní kapacity většího modelu. Varianta E2B používá Per-Layer Embeddings a má efektivně 2,3 miliardy parametrů z celkových 5,1 miliardy, čímž dále snižuje nároky na paměť a výpočetní výkon. Podle AWS ML blogu všechny varianty podporují vestavěný režim uvažování, nativní volání funkcí pro agentní workflow, multimodální vstup kombinující text a obraz a podporu více než 35 jazyků s předtrénováním na více než 140 jazycích.

Nezávislé benchmarky uvádějí vysokou efektivitu modelů. Podle dat společnosti Artificial Analysis, která cituje AWS ML blog, dosahuje varianta 31B indexu intel understatement 39, což výrazně převyšuje medián 15 v kategorii otevřených modelů s 4 až 40 miliardami parametrů.

Všechny varianty využívají hybridní pozornostní mechanismus kombinující lokální a globální pozornost. Kontextová okna dosahují až 256 tisíc tokenů u variant 31B a 26B-A4B při zachování malé paměťové stopy. Podle AWS ML blogu mohou organizace modely využívat prostřednictvím plně spravované služby, přičemž inference probíhá na infrastruktuře provozované výhradně AWS. Prompty a výstupy nejsou využívány k tréninku modelů a obsah není sdílen s třetími stranami. Uživatelé tak získávají přístup k vedoucím otevřeným modelům bez kompromisů v oblasti ochrany dat, regulatorního souladu nebo provozní kontroly.

Platforma umožňuje uživatelům vybírat variantu, která nejlépe odpovídá jejich požadavkům na výkon a náklady. Díky společnému rozhraní API lze vyvinout aplikaci jednou a následně přepínat mezi variantami podle aktuálních potřeb konkrétní úlohy. Podle AWS ML blogu lze modely využít pro stavbu multimodálních agentů, lehkých aplikací, pipeline pro zpracování dokumentů a softwarových inženýrských workflow.

Souběžně s tím Google DeepMind pokračuje v rozšiřování ekosystému Gemma. Podle společnosti byl model Gemma 4 12B představen jako první středně velký model řady s nativními audio vstupy a bezenkodérovou architekturou, který se vejde do 16 GB RAM běžných notebooků. Tento model dosahuje výkonu blízkého většímu modelu 26B MoE při méně než poloviční paměťové stopě. Podle Google DeepMind celá rodina Gemma 4 překročila 150 milionů stažení. Komunita vývojářů již vytvořila aplikace od nositelných robotických paží pro fyzickou asistenci po podnikové zabezpečení umělé inteligence.

Co to znamená: Pro firmy znamená dostupnost modelů Gemma 4 v Amazon Bedrock možnost nasadit pokročilé otevřené modely bez nutnosti investovat do vlastní infrastruktury a provozu inference. Z hlediska auditu a implementace umělé inteligence je klíčové, že služba zajišťuje ochranu dat a soukromí na podnikové úrovni, což usnadňuje splnění regulatorních požadavků. Architektonická transparentnost otevřených vah umožňuje nezávislé ověření modelu, vlastní benchmarky na interních datech a případné doladění na proprietárních datasetech. Firmy mohou vyvíjet aplikace jednou proti společnému rozhraní API a přepínat mezi variantami podle požadavků na cenu a latenci konkrétní úlohy. Díky škálovatelnosti on-demand inference a absenci potřeby spravovat vlastní inference stacky se snižuje celková složitost provozu AI řešení v produkčním prostředí.

Zdroje:

Tento přehled sestavil automatizovaný redakční systém CIAD z veřejně dostupných zdrojů, ověřil fakta vůči více nezávislým zdrojům a uvedl je níže. Redakční odpovědnost nese CIAD. Nepřesnost nahlaste na office@ciad.cz.


← Zpět na blog