Getting your Trinity Audio player ready...

Deep­Seek, ein chi­ne­si­sches KI-Unter­neh­men, hat mit Janus Pro 7B ein Open-Source-KI-Modell für visu­el­le Auf­ga­ben auf den Markt gebracht und sorgt damit für wei­te­re Umwäl­zun­gen in der glo­ba­len KI-Land­schaft. Die­se Ver­öf­fent­li­chung folgt auf die kürz­li­che Ein­füh­rung des R1 Lar­ge Lan­guage Models durch das Unter­neh­men, die bereits zu einem erheb­li­chen Aus­ver­kauf von US-ame­ri­ka­ni­schen KI-Akti­en geführt hat­te[1]Deep­Seek unleas­hes ‘Janus Pro 7B’ visi­on model amidst AI stock blood­bath, igni­ting fresh fears of Chi­ne­se tech domi­nan­ce.

Janus Pro 7B ist auf Effi­zi­enz und Viel­sei­tig­keit aus­ge­legt und zeich­net sich in ver­schie­de­nen visu­el­len Auf­ga­ben aus, dar­un­ter Bil­der­zeu­gung, visu­el­le Fra­ge-Ant­wort-Sys­te­me und Bildbeschreibung.

Das Modell ver­wen­det 7 Mil­li­ar­den Para­me­ter und nutzt einen inno­va­ti­ven SigLIP-Lar­ge-Patch16-384-Enco­der für detail­lier­te Bildanalysen.

Zu den wich­tigs­ten Merk­ma­len von Janus Pro 7B gehören:

  1. Effi­zi­enz: Aus­ge­wo­ge­nes Ver­hält­nis zwi­schen Leis­tung und Rechen­auf­wand, wodurch es für Unter­neh­men aller Grö­ßen­ord­nun­gen zugäng­lich ist.
  2. Viel­sei­tig­keit: Fähig sowohl zur Ana­ly­se als auch zur Gene­rie­rung von Bildern.
  3. Leis­tung: Über­trifft Bran­chen­füh­rer wie OpenAI’s DALL‑E 3 und Sta­bi­li­ty AI’s Sta­ble Dif­fu­si­on bei wich­ti­gen Benchmarks.
  4. Open-Source: Ver­öf­fent­licht unter einer MIT-Lizenz, die eine kos­ten­lo­se Nut­zung für kom­mer­zi­el­le Zwe­cke erlaubt.

Der Zeit­punkt der Ver­öf­fent­li­chung von Janus Pro 7B, der mit einem Aus­ver­kauf von US-Tech­no­lo­gie­ak­ti­en zusam­men­fiel, hat die Mark­t­ängs­te über Chi­nas wach­sen­de KI-Fähig­kei­ten ver­stärkt. Die­se Markt­ein­füh­rung, kom­bi­niert mit der frü­he­ren Ver­öf­fent­li­chung des R1-Modells, hat Beden­ken über mög­li­che nega­ti­ve Kon­se­quen­zen für die der­zei­ti­gen Markt­füh­rer in der KI-Bran­che auf­kom­men lassen.

Deep­Seeks Ansatz stellt die vor­herr­schen­de Vor­stel­lung in Fra­ge, dass fort­schritt­li­che KI mas­si­ve Rechen­res­sour­cen und Inves­ti­tio­nen erfor­dert[2]His­to­ri­scher Kurs­sturz der Nvi­dia-Aktie. Das Unter­neh­men behaup­tet, sei­ne Model­le zu einem Bruch­teil der Kos­ten sei­ner Wett­be­wer­ber ent­wi­ckelt zu haben, was mög­li­cher­wei­se den Zugang zu moderns­ter KI-Tech­no­lo­gie demokratisiert.

Die­se Ent­wick­lung hat erheb­li­che Aus­wir­kun­gen auf die glo­ba­le KI-Land­schaft, könn­te das Kräf­te­ver­hält­nis in der KI-Inno­va­ti­on ver­schie­ben und wirft Fra­gen zur zukünf­ti­gen Wett­be­werbs­fä­hig­keit der US-Tech­no­lo­gie­gi­gan­ten in die­sem Bereich auf.

SigLIP-Lar­ge-Patch16-384-Enco­der
Der SigLIP-Lar­ge-Patch16-384-Enco­der ist ein fort­schritt­li­cher Bild­ver­ar­bei­tungs­al­go­rith­mus, der Teil des SigLIP (Sig­mo­id Loss for Lan­guage Image Pre-Trai­ning) Modells ist. Die­ses Modell wur­de von Goog­le ent­wi­ckelt und stellt eine Wei­ter­ent­wick­lung der CLIP-Archi­tek­tur dar.

 

Die wich­tigs­ten Merkmale:

  1. Bild­auf­lö­sung: Der Enco­der ver­ar­bei­tet Bil­der mit einer Auf­lö­sung von 384×384 Pixeln.
  2. Archi­tek­tur: Es han­delt sich um einen Visi­on Trans­for­mer (ViT) mit 16×16 Pixel gro­ßen Patches.
  3. Para­me­ter­an­zahl: Der Enco­der ver­fügt über etwa 652 Mil­lio­nen Parameter.
  4. Vor­trai­ning: Das Modell wur­de auf dem Web­LI-Daten­satz vor­trai­niert, der aus eng­lisch­spra­chi­gen Bild-Text-Paa­ren besteht.
  5. Ein­satz­ge­bie­te: Der Enco­der eig­net sich beson­ders für Zero-Shot-Bild­klas­si­fi­zie­rung und Bild-Text-Retrieval-Aufgaben.
  6. Leis­tung: Er ermög­licht eine detail­lier­te Bild­ana­ly­se und ver­bes­ser­te Inter­pre­ta­ti­on visu­el­ler Informationen.
  7. Ver­lust­funk­ti­on: Im Gegen­satz zu her­kömm­li­chen CLIP-Model­len ver­wen­det SigLIP eine Sig­mo­id-Ver­lust­funk­ti­on, die direkt auf Bild-Text-Paa­ren ope­riert, ohne eine glo­ba­le Nor­ma­li­sie­rung zu benötigen.

Die­se Eigen­schaf­ten machen den SigLIP-Lar­ge-Patch16-384-Enco­der zu einem leis­tungs­fä­hi­gen Werk­zeug für ver­schie­de­ne mul­ti­mo­da­le KI-Auf­ga­ben, ins­be­son­de­re wenn es um die Ver­ar­bei­tung und das Ver­ständ­nis von Bil­dern in Ver­bin­dung mit Text geht. 

Zuerst erschie­nen auf KI-Agen­ten