https://twitter.com/gdb/status/1790869434174746805

Możliwości generatora obrazów GPT-4o. Możliwości generowania tekstu wyglądają lepiej niż w prezentowanym niedawno SD-3.
Widać ciekawe niuanse jak fakt, że słowo "What" zasłonięte dłonią ma odpowiedni odstęp do dalszej części zdania.

GPT-4o jest prawdopodobnie modelem mniejszym, a mimo tego jest na zbliżonym poziomie do GPT-4. Czy może być tak, że dodanie wielomodalności poprawia każdą z nich osobno? To znaczy, stworzenie modelu który natywnie interpretuje obrazy, audio, tekst - poprawia jakość każdego z tych elementów w porównaniu do osobnego modelu z tylko jedną modalnością?

Nie wiem bo się nie znam na AI, zapraszam ekspertów do wyrażenia swojego zdania.

#sztucznainteligencja #openai #chatgpt #nauka #technologia #ai #si #stablediffusion #eacc #ciekawostki
d964e4f3-7f20-4220-bb5c-6d95261d46be
Amebcio

@NrmvY No jest jeszcze pytanie ile pamięci ma do dyspozycji i na jakim sprzęcie to działa. SD3 jest stworzone z myślą o konsumenckich GPU, natomiast ChatGPT z założenia pracuje na farmach serwerów

ZmiksowanaFretka

@NrmvY ziom to reklama, mogą se napisać co im się podoba i nikt nie jest w stanie tego zweryfikować

Zaloguj się aby komentować