13.2 C
İstanbul
Çarşamba, Kasım 13, 2024

Satın Al

spot_img

GPT-4o hakkında merak edilen her şey!

ChatGPT ve Dall-E ile süregelen macera Sora ile devam ederek gelişme devam ediyor. Bu suni zeka araçlarının gerisinde olan OpenAI ise araçlarına güç veren modellerini devamlı olarak geliştirmeyi sürdürüyor. Bu bağlamda suni zeka devi kısa zaman ilkin ses, imaj ve metin içinde reel zamanlı olarak mantık yürütebilen yeni amiral gemisi GPT-4o’yu resmen duyurdu. GPT-4o’nun ne olduğunu, bu modelin neler yapabileceği, kabiliyetlerini ve fazlaca daha fazlasına değiniyoruz: OpenAI GPT-4o nedir, ne yapar? GPT-4 seviyesinde zeka deneyimi Hem modelden aynı zamanda internetten yanıtlar alabilme Verileri analizi ve grafik oluşturabilme Çektiğiniz fotoğraflar hakkındaki söyleşi edebilme Video vesilesiyle söyleşi edebilme Gerçek zamanlı çeviri İnsan benzeri ses, tonlama, mimiklendirme Özetleme, yazma yada çözümleme yardımı için dosya yükleme GPT Store erişimi ve GPT’leri kullanma Memory (Önceki konuşulanları hatırlama) ile daha derin kontakt kurabilme

OpenAI’a bakılırsa GPT-4o, oldukça daha organik insan-bilgisayar etkileşimine doğru atılmış bir adımdır; metin, ses ve görüntünün herhangi bir kombinasyonunu girdi olarak kabul bu model aynı halde metin, ses ve imaj çıktılarının herhangi bir kombinasyonunu üretebiliyor. Bu arada isimlendirmedeki “o” harfi “omni” anlamına geliyor ve modelin metin, konferans ve videoyu işleme kabiliyetine atıfta bulunuyor. Gelişmiş metin, ses ve imaj muhakemesi Temel anlamda GPT-4o, “GPT-4 düzeyinde” zeka sağlıyor sadece GPT-4`ün birden fazla modalite ve ortamdaki kabiliyetlerini geliştirmeyi amaçlıyor. Hatırlanacağı suretiyle GPT-4 Turbo, imaj ve metin kombinasyonuyla eğitilmişti ve görüntülerden metin çıktısı üretmek ve bu görüntülerin içeriğini tarif etmek şeklinde görevleri yerine getirebiliyordu.

GPT-4o ise sürece konuşmayı da ekliyor. Dolayısıyla GPT-4o ile ChatGPT, dijital sesli asistan haline bürünmüş oluyor. “Peki bu tam olarak ne işimize yarayacak? Zaten ChatGPT konuşmuyor muydu?” dediğinizi duyar gibiyim. Evet, ChatGPT upuzun bir süredir söyleşi robotunun yanıtlarını metinden sese modeli kullanan bir ses moduna sahipti sadece GPT-4o bunu güçlendirerek kullananların ChatGPT ile bir asistan şeklinde etkileşime girmesine imkan tanıyor. Örneğin, ChatGPT’ye bir sual sordunuz ve ChatGPT sorunuza yanıt vermeye başladı sadece derhal soruya bir ek yapmak yada suali yanlış anlayan aracı düzeltmek istediniz. Bu senaryoda eskiden ChatGPT’nin yazmasının yada konuşmasının bitmesini beklemek gerekiyordur. Ancak GPT-4o destekli ChatGPT ile aracın sözünü kesebilir ve yeni bir etkileşim başlatabilirsiniz. İnsan düzeyinde sesli cevap OpenAI, modelin “reel zamanlı” cevap verme özelliği sunduğunu ve hatta kullanıcının sesindeki nüansları algılayarak “bir takım değişik romantik tarzda” (müzikle uğraşmak dahil) sesler üretebildiğini söylüyor. Teknik olarak şirket, ses girdilerine 232 milisaniye şeklinde kısa bir müddette cevap verebilir. Tek başına bu zaman bir şey anlatım etmiyor, o yüzden; bu, bir adamın yaklaşık cevap süresiyle eş. ‘dan önce, ChatGPT ile konuşmak için Ses Modunu yaklaşık 2,8 saniye (GPT-3,5) ve 5,4 saniye (GPT-4) rötar süreleriyle kullanabiliyorduk. Bu eski modellerde Ses Modu için aslen üç ayrı modelden oluşan bir süreç kullanılıyordu: kolay bir model sesi metne dönüştürüyor, GPT-3.5 yada GPT-4 metni alıyor ve metin çıktısı veriyor ve üçüncü bir kolay model bu metni yeniden sese dönüştürüyordu. Haliyle bu süreçte malumat kaybı fazla olurken hem de tonlamalar yada kahkaha, şarkı söyleme ve duygular anlatım edilemiyordu. Her şey için tek model GPT-4o ile metin, imaj ve seste uçtan uca tek model kullanılıyor, kısaca bütün girdiler ve çıktılar aynı sinir ağı tarafınca işleniyor. Bu şirket için de bir ilk bundan dolayı daha öncekiler bütün bu modaliteleri birleştiremiyordu. Tüm bu gelişmeye karşın OpenAI, modelin neler yapabileceğini ve sınırlarını keşfetme mevzusunda hemen hemen başlangıç aşamasında olduklarını söylüyor.

Görüntü analizi ve cepte taşınan bir tercüman GPT-4o ek olarak ChatGPT`nin görme kabiliyetlerini de geliştiriyor. Bir fotoğraf – yahut bir masaüstü ekranı – verildiğinde ChatGPT artık en teferruat sorulara (mesela, “bu bireyin giydirilmiş olduğu gömleğin markası ne?” benzer biçimde) süratli yanıtlar verebiliyor. OpenAI CTO’su Mira Murati, bu özelliklerin gelecekte daha da gelişeceğini söylüyor. An itibariyle GPT-4o değişik bir dildeki bir menünün resmine bakıp onu çeviri edebilirken, gelecekte bu model ChatGPT’nin mesela canlı bir spor karşılaşmasını seyredip size kuralları açıklamasına imkan tanıyabilecek. Yani yanınızda bir nevi tercüman taşıyormuş benzer biçimde olacaksınız. Zira çeviriler, yukarıda da dediğimiz benzer biçimde anlık olarak gerçekleşiyor.

OpenAI, GPT-4o’nun daha fazlaca dilli bulunduğunu ve 50 değişik dilde performansının arttığını da ekliyor. Şirket, OpenAI’ın API’sinde GPT-4o’nun GPT-4’ten (bilhassa GPT-4 Turbo) iki kat daha süratli, yarı fiyatına ve daha yüksek hız limitlerine haiz bulunduğunun altını çiziyor. Ses şu anda bütün müşteriler için GPT-4o API’sinin bir parçası değil. OpenAI, kötüye kullanım riskini gerekçe göstererek, GPT-4o’nun yeni ses kabiliyetlerini gelecek haftalarda birtakım ortaklara sunmayı planladığını söylüyor. Geleneksel ölçütlere nazaran GPT-4o, metin, akıl yürütme ve kodlama zekasında GPT-4 Turbo düzeyinde performans gösterirken fazlaca dilli, ses ve imaj kabiliyetlerinde yeni yüksek puanlara erişiyor. Akıl yürütme performansında ise yeni bir barem (%88,7) belirliyor. GPT-4o’nun kullanılabilirliği OpenAI, GPT-4o’yu derin öğrenmenin sınırlarını bu kere ergonomik kullanılabilirlik yönünde zorlamak için atılan bir adım olarak görüyor ve bununla birlikte GPT-4o’nun yeteneklerinin yinelemeli olarak kullanıma sunulacağını söylüyor. GPT-4o’nun metin ve imaj özellikleri bugün ChatGPT’de kullanıma sunulmaya başlanıyor. GPT-4o’yu parasız katmanda ve Plus kullanıcıları için ise 5 kata kadar daha yüksek bildiri limitleriyle kullanıma sunuluyor. Önümüzdeki haftalarda OpenaI, ChatGPT Plus’ta GPT-4o ile Ses Modu’nun yeni bir sürümünü alfa olarak kullanıma alacak. Geliştiriciler de artık GPT-4o’ya API’de bir metin ve imaj modeli olarak da erişebilirler. GPT-4o, GPT-4 Turbo’ya kıyasla 2 kat daha süratli, yarı fiyatına ve 5 kat daha yüksek hız limitlerine haiz. GPT-4o’nun yeni ses ve video özelliklerine yönelik desteği gelecek haftalarda API’deki minik bir gruba sunulacak.

CEO Sam Altman, yaptığı açıklamada vurgulamak istediği ilk şeyin insanlara yetenekli yapay zeka araçlarını ücretsiz olarak sunmak olduğunu belirtti. Altman, istedikleri şeyin bir yapay zeka oluşturmak ve bunu insanların kullanımına sunarak onların yaratacakları şeyleri izlemek olduğunu aktarıyor. Bunu yaparken de ücretsiz kalınacağını söylüyor. Ancak yine de kendilerinin bir işletme olduğunu ve süreç içerisinde (ve mevcut durumda) ücretlendirilecek çok şeyin olacağının altını çiziyor.

Altman, yeni GPT-4o hakkında ise şimdiye kadar kullandığı iyi bilgisayar arayüzü olduğunu söylüyor. CEO, modellerinin filmlerdeki yapay zeka gibi hissettirdiğini ve bunun gerçekten yaşanıyor oluşunun şaşırtıcı olduğunu söylüyor. Altman’ın atıf yaptığı filmin “Her” olduğunu düşünüyorum.

Teknik detaylar ve genel bilgilerden sonra şimdi de OpenAI’ın GPT-4o hakkında paylaştığı bazı örnek videolara göz atalım. Zira bu videolar yukarıda yazdıklarımızın tamamını en ideal şekilde sizlere gösteriyor. Örneğin hemen üstteki köpek videosu. Kullanıcı GPT-4o’ya köpeğini göstererek “seni birisiyle tanıştıracağım” diyor. GPT-4o’nun verdiği tepkiler ise bir insandan farksız, tonlamalar , benzetmeler yapıyor ve adını soruyor. Adını öğrendikten sonra ise ona adıyla seslenmeye devam ediyor.

Filmlerin gerçekle buluşması CEO Sam Altman, yapmış olduğu açıklamada vurgulamak istediği ilk şeyin insanlara kabiliyetli suni zeka araçlarını ücretsiz bir şekilde taktim etmek bulunduğunu belirtti. Altman, istedikleri şeyin bir suni zeka kurmak ve bunu insanların kullanımına sunarak onların yaratacakları şeyleri kovuşturmak bulunduğunu aktarıyor. Bunu yaparken de parasız kalınacağını söylüyor. Ancak yeniden de kendilerinin bir işletme bulunduğunu ve süreç içerisinde (ve mevcut durumda) ücretlendirilecek fazlaca şeyin olacağının altını çiziyor. Altman, yeni GPT-4o ile alakalı ise şimdiye kadar kullandığı iyi bilgisayar arayüzü bulunduğunu söylüyor. CEO, modellerinin filmlerdeki suni zeka benzer biçimde hissettirdiğini ve bunun harbiden yaşanıyor oluşunun şaşırtıcı bulunduğunu söylüyor. Altman’ın atıf yapmış olduğu filmin “Her” bulunduğunu düşünüyorum. Teknik detaylar ve genel bilgilerden sonrasında şimdi de OpenAI’ın GPT-4o ile alakalı paylaşmış olduğu birtakım misal videolara göz atalım. Zira bu videolar yukarıda yazdıklarımızın tamamını en ülkü biçimde sizlere gösteriyor. Örneğin derhal üstteki köpek videosu. Kullanıcı GPT-4o’ya köpeğini göstererek “seni birisiyle tanıştıracağım” diyor. GPT-4o’nun verdiği tepkiler ise bir insandan farksız, tonlamalar , benzetmeler yapıyor ve ismini soruyor. Adını öğrendikten sonrasında ise ona adıyla seslenmeye devam ediyor. Hemen üstteki bir öteki örnekte ise etkileşim kuran ve şarkı söyleyen iki GPT-4o`yu görüyoruz. Bunlardan birisi kamera vesilesiyle görebiliyor diyesi ise göremiyor. Görme kabiliyetine haiz olan ise diğerine çevreyi yardımsever bir biçimde açıklayarak tanıtıyor. Ve evet, beraber şarkı da söylüyorlar. Bu, görme engelli bireyler için mükemmel bir kullanım örneği olabilir benzer biçimde duruyor değil mi? Zaten OpenAI da bunu o amaçla kullanıyor.
Firma, Be My Eyes girişimi ile bu mevzuda yakından çalışıyor. GPT-4o ile reel zamanlı tercüme de artık bir “gerçeklik” haline geliyor. Yukarıdaki örnekte İngilizce-İspanyolca ve İspanyolca-İngilizce benzer biçimde anlık olarak organik bir dilde ve insan benzer biçimde tercüme yaptığını görüyoruz. Bir öteki örnekte ise GPT-4o ile ninniler ve fısıltıların iyi mi işlediğini görüyoruz. Kullanıcı bir patates ile alakalı ninni anlatmasını istiyor, arkasından bunu fısıltı tonuyla aktarmasını söylüyor. Hatta GPT-4o, anlatımında aşırı fısıltıya kaçtığında ise ona birazcık daha yüksek tona çıkmasını söylüyor. Elbette tamamı olurken verilen yanıtlar ve gülümseme ifadeleri de kullanıcıya aktarılıyor. GPT-4o`yu tek bir görüntünün birden fazla görünümünü kurmak için bile kullanılabilir ve bu sahneler 3 boyutlu nesnelere dönüştürülebilirsiniz. Benzer biçimde görsel anlatılar da kurmak mümkün. Üstelik bunu yaparken yinelemeli olarak yapabiliyorsunuz. Hemen üstteki görselde günlük yazan bir robotun birinci kişi görünümü resmediliyor. Üç adımda günlük girişlerindeki ilerleyiş önceki temel alınarak devam ettirliyor.
KAYNAK: https://www.donanimhaber.com/harici-baglanti?url=https%253a%252f%252fopenai.com%252findex%252fgpt-4o-and-more-tools-to-chatgpt-free%252f

Capslock TV Teknoloji Haberleri - En Güncel Teknoloji Gelişmeleri ve İncelemeleri sitesinden daha fazla şey keşfedin

Subscribe to get the latest posts sent to your email.

İlgili Makaleler

Bir Cevap Yazın

Bağlı kalın

0BeğenenlerBeğen
0TakipçilerTakip Et
6TakipçilerTakip Et
29,042TakipçilerTakip Et
0AboneAbone Ol
- Advertisement -spot_img

En son makaleler

Erişilebilirlik Araçları