Modele AI od lat potrafią patrzeć na obrazy i informować, co widzą w obrazie, ale dzięki wiosennej aktualizacji OpenAI przeniosło wszystko na nowy poziom.
Wraz z wprowadzeniem GPT-4o w ChatGPT – nawet bez funkcji audio i wideo – OpenAI zaprezentowało jeden z najlepszych dotychczas wydanych modeli wizyjnych AI.
Jego sukces wynika częściowo z faktu, że jest multimedialny i pozwala na głębsze zrozumienie obrazów, wideo, audio i tekstu. Może analizować obraz, mowę, wideo i tekst, podczas gdy inne formularze są najpierw konwertowane na tekst.
Aby sprawdzić jego możliwości, dałem mu serię zdjęć i poprosiłem, aby opisał, co widzi. Im dokładniejszy model. Często modele wizyjne AI – w tym GPT-4 – pomijają jeden lub dwa obiekty lub otrzymują błędny opis.
Test wzroku GPT-4o
W każdym teście ChatGPT-4o otrzymywał obraz i pytanie „Co to jest?” Bez żadnego kontekstu i dodatkowych informacji. To bardziej przypomina sposób, w jaki ludzie prawdopodobnie będą korzystać z tej możliwości w prawdziwym świecie, i sposób, w jaki ja niedawno użyłem jej podczas wydarzenia w Paryżu.
Celem jest sprawdzenie, jak dobrze obraz jest analizowany. Za każdym razem pytałem, czy wykrywa, czy obraz został wygenerowany przez sztuczną inteligencję. Wszystkie są stworzone przy użyciu ideogramu z opisu stworzonego przez Claude’a 3 – więc całkowicie AI.
Po pierwszych kilku zdjęciach w rozmowie zaczął spontanicznie opowiadać mi, czy według niego zdjęcie zostało wygenerowane przez sztuczną inteligencję, czy nie, bez konieczności pytania mnie.
Zacząłem od aplikacji ChatGPT Desktop, ale zaczęła ona nie odpowiadać, więc przeniosłem się do Internetu i wszystko działało dobrze.
1. Rozpoznawanie obiektów
Na potrzeby tego pierwszego zdjęcia stworzyłem obraz czerwonego ceramicznego kubka wypełnionego gorącą kawą. Położono go na talerzu na drewnianym stole w kawiarni, ale kawiarnia była niewyraźna. Chodzi o to, aby zobaczyć, jak GPT-4o interpretuje tło i scenariusz.
GPT-4o napisał: „To zdjęcie przedstawia parującą filiżankę kawy w czerwonej filiżance ze spodkiem, umieszczoną na rustykalnym drewnianym stole. Tło jest rozmyte, co przedstawia przytulne wnętrze z ludźmi siedzącymi i rozmawiającymi w czymś, co przypomina jaskinię- jak kawiarnia lub wyjątkowe wnętrze z kamiennymi ścianami.” Uwaga skupia się na filiżance kawy, podkreślając parę unoszącą się z gorącego napoju.
Jest to tak dokładne i opisowe, jak to tylko możliwe. Nawet narysowanie obrazu danej sceny wykracza poza prosty opis. W ramach żartu zapytałem go: „Opisz myśli osoby siedzącej przy stole z tą gotową do wypicia kawą”.
Odpowiedziała dość opisowo, ale to zdanie wyróżniało się: „Ta kawa to coś więcej niż tylko napój; To rytuał, ceniona chwila samotności i kontemplacji wśród zgiełku codziennego życia.
2. Optyczne rozpoznawanie znaków (OCR)
Optyczne rozpoznawanie znaków (OCR) to technologia tak stara jak informatyka, dlatego powinna być banalna w przypadku każdego modelu wizyjnego, nawet smartfony robią to na urządzeniu. Dałem jej proste zdjęcie przedstawiające zbliżenie starej drewnianej tabliczki z napisem „Witamy w Oakville” napisanym odręcznie w stylu vintage. Chcę czegoś więcej niż tylko SMS-a od AI.
Dostarczono GPT-4o; Tekst: „To zdjęcie przedstawia tablicę w stylu vintage z napisem „Witamy w Oakville”. Tablica wygląda na wyblakłą i ma stare rustykalne wykończenie, co wskazuje, że przez pewien czas była wystawiona na działanie czynników atmosferycznych. Tekst jest napisany pogrubioną białą czcionką na czerwonym tle, ze śladami zużycia, które dodają mu nostalgicznego uroku. Znak jest częściowo otoczony zielenią, co sugeruje, że mógł zostać umieszczony na zewnątrz, być może przy wjeździe do miasta lub gminy zwanej Oakville.
Tekst nie tylko czytał się poprawnie, ale także sugerował więcej szczegółów na temat lokalizacji, identyfikując możliwe miasto lub osadę i wyciągając szczegóły samego znaku.
3. Rozpoznawanie twarzy
Jest to kontrowersyjne wykorzystanie technologii sztucznej inteligencji i jest w pewnym stopniu zakazane w Unii Europejskiej. Ale jak dobrze GPT-4o może opisać twarz? Zdjęcie było wygenerowanym przez sztuczną inteligencję przedstawieniem kobiety po czterdziestce, z ciemnymi włosami i ciepłymi, brązowymi oczami. Miała przyjazny uśmiech.
GPT-4o opisał to w następujący sposób: „To zdjęcie przedstawia zbliżenie uśmiechniętej kobiety o ciemnych, kręconych włosach. Koncentruje się na jej twarzy, która jest dobrze oświetlona, ukazując szczegóły tekstury i rysów skóry przyjazny wyraz twarzy, a jej oczy patrzą bezpośrednio w kamerę. Tło jest rozmyte, „koncentrując się na temacie”.
Chciałem trochę więcej, także w pewnym wieku. Zapytałem ją: „Ile lat ma ta osoba i jaki jest jej stan emocjonalny?” Odpowiedziała, że ma około 30–40 lat i jest dobrej myśli, wyjaśniając: „Ogólne wrażenie jest takie, że jest w dobrym stanie emocjonalnym i prawdopodobnie czuje się dobrze i komfortowo”.
4. Ujawnianie uczuć
Następnie chciałem sprawdzić, jak dobrze GPT-4o poradzi sobie ze zdjęciem starszego mężczyzny o smutnej twarzy. Czy zamierza to uchwycić, czy po prostu opisać scenę? Pamiętaj, że jedyne dane wejściowe, jakie miał, to „co to jest” i obraz.
GPT-4o spisał się dobrze. Zdjęcie brzmiało: „To zdjęcie przedstawia starszego mężczyznę siedzącego na ławce na świeżym powietrzu, najprawdopodobniej w parku. Oświetlenie wskazuje, że zdjęcie zostało zrobione podczas złotej godziny, a jego twarz podkreśla delikatne światło słoneczne zamyślony, z lekką nutą melancholii lub kontemplacji. Ubrany jest w koszulę i marynarkę z kołnierzykiem, a tło jest rozmyte, skupiając uwagę na mężczyźnie, zapewniając jednocześnie przyjemną, naturalną oprawę.
Model AI zrobił dokładnie to, na co liczyłem: opisał scenę i zasugerował, co mężczyzna może czuć w tym momencie.
5. Zrozum scenę
Jak dobrze GPT-4o jest w stanie opisać scenę na podstawie obrazu i zidentyfikować elementy w scenie? Jest to przydatna umiejętność, ponieważ modele sztucznej inteligencji są coraz częściej wykorzystywane do opisu prawdziwego świata. Jest to jedna z głównych cech nowego trybu audio ChatGPT.
„To zdjęcie przedstawia tętniący życiem targ rolniczy na świeżym powietrzu w słoneczny dzień” – oznajmił GPT-4o. „Pod namiotami ustawiono różne stoiska, na których wystawiono mnóstwo świeżych produktów, w tym owoców, warzyw i innych towarów. przeglądanie, zakupy i interakcja ze sprzedawcami.” Rynek wydaje się znajdować w pięknym, wysadzanym drzewami obszarze, z zielonymi liśćmi w tle. Atmosfera jest żywa i zorientowana na społeczność, z naciskiem na lokalne i świeże produkty.
Niewiele do powiedzenia. Był dokładny w swoim opisie obrazu i sytuacji. Podałeś więcej szczegółów, niż się spodziewałem i wyróżniłeś niektóre produkty w promocji.
6. Ocena jakości obrazu
Poprosiłem Ideogram o utworzenie czterech prawie identycznych obrazów w siatce, ale nadając każdemu inną rozdzielczość lub poziom kompozycji. Chciałem zobaczyć, jak GPT-4o by to opisał. Poradzi sobie z podstawowym obrazem, ale co z czterema z nich, każdy trochę inny?
„Zdjęcie to zbiór czterech fotografii krajobrazowych ułożonych w siatkę, z których każda przedstawia oszałamiający widok na pagórki porośnięte zieloną trawą i dzikimi kwiatami pod przesiąkniętym chmurami niebem” – napisał GPT-4o. Jak na razie dobrze.
Kontynuuje: „Zdjęcie po lewej u góry przedstawia delikatnie różowo-niebieskie gradientowe niebo, sugerujące świt lub zmierzch, ze wzgórzami skąpanymi w ciepłym złotym świetle, uwydatniającym żywą zieloną trawę oraz żółte i białe kwiaty. Zdjęcie u góry po prawej przedstawia podobną scenę, ale w stonowanych tonach, co sugeruje… Zdjęcie wykonane wczesnym rankiem lub późnym popołudniem ma chłodniejsze kolory i wyraźniejsze błękitne niebo, co sugeruje południe z delikatniejszym oświetleniem. Zdjęcie w prawym dolnym rogu jest cieplejsze i bardziej nasycone, z różowym odcieniem nieba , sugerujący światło zachodu słońca Ciepły Te różnice w oświetleniu i odcieniu kolorów ilustrują, jak różne pory dnia i techniki fotograficzne mogą wpływać na nastrój i wygląd tej samej naturalnej sceny.
Choć nie rozumiała celu siatki czterech obrazów – porównania kompozycji – potrafiła opisać każdy z osobna, co zrobiło na nim wrażenie. Właściwie sama porównała zdjęcia.
7. Wykrywanie wielu obiektów
Na koniec następuje ważny test, czy model ma być przydatny jako narzędzie dostępności – jak dobrze wykrywa obiekty w zatłoczonej scenie. To samo roszczenie co inni. Na zdjęciu zaśmiecone biurko i spodziewam się, że wyciągnie z niego choć jeden drobiazg.
GPT-4o napisał: „Zdjęcie przedstawia nowoczesną, zorganizowaną przestrzeń biurową z widokiem na miasto widocznym przez duże okna w tle. Na biurku znajduje się starannie zaaranżowane wiele przedmiotów zwykle spotykanych w produktywnym środowisku pracy, w tym laptop w centrali. metalowa lampa na biurko i filiżanka kawy sugerują swobodną, ale skupioną atmosferę. Rozrzucone notesy i papiery sugerują aktywną pracę i robienie notatek, a mała roślina doniczkowa dodaje odrobinę zieleni. Oprawione w ramki zdjęcie dwóch osób zapewnia potencjalnie osobisty charakter służąc jako źródło motywacji Miejsce pracy jest wypełnione artykułami biurowymi, takimi jak długopisy, ołówki i organizery, zapewniając funkcjonalność Miejskie tło panoramy miasta z nowoczesnymi wieżowcami tworzy dynamiczne i inspirujące środowisko.
Zadziałało. Postanowiłem skontaktować się z nim i poprosić go o podanie koloru doniczki i od razu zadziałało. Poprosiłem go więc, aby znalazł na zdjęciu moje okulary, a on słusznie powiedział: „Twoje okulary leżą na biurku po prawej stronie laptopa, na wierzchu notebooka”.
streszczenie
Każdy model widzenia, którego używałem w przeszłości, popełnił co najmniej jeden błąd, zwykle poważny, taki jak błędna identyfikacja obiektu lub niezidentyfikowanie koloru lub marki.
GPT-4o zdobywa każdy z tych punktów. Przejście na prawdziwą multimodalność zmieniło zasady gry w OpenAI.
Pokazuje także potencjalną wartość inteligentnych okularów jako prawdziwej przyszłości interakcji z danymi. Zapomnijmy o smartfonie, wykorzystajmy wizję, aby połączyć rzeczywistość z cyfrą.
Więcej z przewodnika Toma
„Muzyk. Guru kawy. Specjalista od zombie. Adwokat mediów społecznościowych. Introwertyk. Ekstremalny miłośnik jedzenia. Ewangelista alkoholu”.