ChatGPT ve Dall-E ile süregelen macera Sora ile devam ederek gelişme devam ediyor. Bu suni zeka araçlarının gerisinde olan OpenAI ise araçlarına güç veren modellerini devamlı olarak geliştirmeyi sürdürüyor. Bu bağlamda suni zeka devi kısa zaman ilkin ses, imaj ve metin içinde reel zamanlı olarak mantık yürütebilen yeni amiral gemisi GPT-4o’yu resmen duyurdu. GPT-4o’nun ne olduğunu, bu modelin neler yapabileceği, kabiliyetlerini ve fazlaca daha fazlasına değiniyoruz: OpenAI GPT-4o nedir, ne yapar? GPT-4 seviyesinde zeka deneyimi Hem modelden aynı zamanda internetten yanıtlar alabilme Verileri analizi ve grafik oluşturabilme Çektiğiniz fotoğraflar hakkındaki söyleşi edebilme Video vesilesiyle söyleşi edebilme Gerçek zamanlı çeviri İnsan benzeri ses, tonlama, mimiklendirme Özetleme, yazma yada çözümleme yardımı için dosya yükleme GPT Store erişimi ve GPT’leri kullanma Memory (Önceki konuşulanları hatırlama) ile daha derin kontakt kurabilme
OpenAI’a bakılırsa GPT-4o, oldukça daha organik insan-bilgisayar etkileşimine doğru atılmış bir adımdır; metin, ses ve görüntünün herhangi bir kombinasyonunu girdi olarak kabul bu model aynı halde metin, ses ve imaj çıktılarının herhangi bir kombinasyonunu üretebiliyor. Bu arada isimlendirmedeki “o” harfi “omni” anlamına geliyor ve modelin metin, konferans ve videoyu işleme kabiliyetine atıfta bulunuyor. Gelişmiş metin, ses ve imaj muhakemesi Temel anlamda GPT-4o, “GPT-4 düzeyinde” zeka sağlıyor sadece GPT-4`ün birden fazla modalite ve ortamdaki kabiliyetlerini geliştirmeyi amaçlıyor. Hatırlanacağı suretiyle GPT-4 Turbo, imaj ve metin kombinasyonuyla eğitilmişti ve görüntülerden metin çıktısı üretmek ve bu görüntülerin içeriğini tarif etmek şeklinde görevleri yerine getirebiliyordu.
GPT-4o ise sürece konuşmayı da ekliyor. Dolayısıyla GPT-4o ile ChatGPT, dijital sesli asistan haline bürünmüş oluyor. “Peki bu tam olarak ne işimize yarayacak? Zaten ChatGPT konuşmuyor muydu?” dediğinizi duyar gibiyim. Evet, ChatGPT upuzun bir süredir söyleşi robotunun yanıtlarını metinden sese modeli kullanan bir ses moduna sahipti sadece GPT-4o bunu güçlendirerek kullananların ChatGPT ile bir asistan şeklinde etkileşime girmesine imkan tanıyor. Örneğin, ChatGPT’ye bir sual sordunuz ve ChatGPT sorunuza yanıt vermeye başladı sadece derhal soruya bir ek yapmak yada suali yanlış anlayan aracı düzeltmek istediniz. Bu senaryoda eskiden ChatGPT’nin yazmasının yada konuşmasının bitmesini beklemek gerekiyordur. Ancak GPT-4o destekli ChatGPT ile aracın sözünü kesebilir ve yeni bir etkileşim başlatabilirsiniz. İnsan düzeyinde sesli cevap OpenAI, modelin “reel zamanlı” cevap verme özelliği sunduğunu ve hatta kullanıcının sesindeki nüansları algılayarak “bir takım değişik romantik tarzda” (müzikle uğraşmak dahil) sesler üretebildiğini söylüyor. Teknik olarak şirket, ses girdilerine 232 milisaniye şeklinde kısa bir müddette cevap verebilir. Tek başına bu zaman bir şey anlatım etmiyor, o yüzden; bu, bir adamın yaklaşık cevap süresiyle eş. ‘dan önce, ChatGPT ile konuşmak için Ses Modunu yaklaşık 2,8 saniye (GPT-3,5) ve 5,4 saniye (GPT-4) rötar süreleriyle kullanabiliyorduk. Bu eski modellerde Ses Modu için aslen üç ayrı modelden oluşan bir süreç kullanılıyordu: kolay bir model sesi metne dönüştürüyor, GPT-3.5 yada GPT-4 metni alıyor ve metin çıktısı veriyor ve üçüncü bir kolay model bu metni yeniden sese dönüştürüyordu. Haliyle bu süreçte malumat kaybı fazla olurken hem de tonlamalar yada kahkaha, şarkı söyleme ve duygular anlatım edilemiyordu. Her şey için tek model GPT-4o ile metin, imaj ve seste uçtan uca tek model kullanılıyor, kısaca bütün girdiler ve çıktılar aynı sinir ağı tarafınca işleniyor. Bu şirket için de bir ilk bundan dolayı daha öncekiler bütün bu modaliteleri birleştiremiyordu. Tüm bu gelişmeye karşın OpenAI, modelin neler yapabileceğini ve sınırlarını keşfetme mevzusunda hemen hemen başlangıç aşamasında olduklarını söylüyor.
Görüntü analizi ve cepte taşınan bir tercüman GPT-4o ek olarak ChatGPT`nin görme kabiliyetlerini de geliştiriyor. Bir fotoğraf – yahut bir masaüstü ekranı – verildiğinde ChatGPT artık en teferruat sorulara (mesela, “bu bireyin giydirilmiş olduğu gömleğin markası ne?” benzer biçimde) süratli yanıtlar verebiliyor. OpenAI CTO’su Mira Murati, bu özelliklerin gelecekte daha da gelişeceğini söylüyor. An itibariyle GPT-4o değişik bir dildeki bir menünün resmine bakıp onu çeviri edebilirken, gelecekte bu model ChatGPT’nin mesela canlı bir spor karşılaşmasını seyredip size kuralları açıklamasına imkan tanıyabilecek. Yani yanınızda bir nevi tercüman taşıyormuş benzer biçimde olacaksınız. Zira çeviriler, yukarıda da dediğimiz benzer biçimde anlık olarak gerçekleşiyor.
OpenAI, GPT-4o’nun daha fazlaca dilli bulunduğunu ve 50 değişik dilde performansının arttığını da ekliyor. Şirket, OpenAI’ın API’sinde GPT-4o’nun GPT-4’ten (bilhassa GPT-4 Turbo) iki kat daha süratli, yarı fiyatına ve daha yüksek hız limitlerine haiz bulunduğunun altını çiziyor. Ses şu anda bütün müşteriler için GPT-4o API’sinin bir parçası değil. OpenAI, kötüye kullanım riskini gerekçe göstererek, GPT-4o’nun yeni ses kabiliyetlerini gelecek haftalarda birtakım ortaklara sunmayı planladığını söylüyor. Geleneksel ölçütlere nazaran GPT-4o, metin, akıl yürütme ve kodlama zekasında GPT-4 Turbo düzeyinde performans gösterirken fazlaca dilli, ses ve imaj kabiliyetlerinde yeni yüksek puanlara erişiyor. Akıl yürütme performansında ise yeni bir barem (%88,7) belirliyor. GPT-4o’nun kullanılabilirliği OpenAI, GPT-4o’yu derin öğrenmenin sınırlarını bu kere ergonomik kullanılabilirlik yönünde zorlamak için atılan bir adım olarak görüyor ve bununla birlikte GPT-4o’nun yeteneklerinin yinelemeli olarak kullanıma sunulacağını söylüyor. GPT-4o’nun metin ve imaj özellikleri bugün ChatGPT’de kullanıma sunulmaya başlanıyor. GPT-4o’yu parasız katmanda ve Plus kullanıcıları için ise 5 kata kadar daha yüksek bildiri limitleriyle kullanıma sunuluyor. Önümüzdeki haftalarda OpenaI, ChatGPT Plus’ta GPT-4o ile Ses Modu’nun yeni bir sürümünü alfa olarak kullanıma alacak. Geliştiriciler de artık GPT-4o’ya API’de bir metin ve imaj modeli olarak da erişebilirler. GPT-4o, GPT-4 Turbo’ya kıyasla 2 kat daha süratli, yarı fiyatına ve 5 kat daha yüksek hız limitlerine haiz. GPT-4o’nun yeni ses ve video özelliklerine yönelik desteği gelecek haftalarda API’deki minik bir gruba sunulacak.
CEO Sam Altman, yaptığı açıklamada vurgulamak istediği ilk şeyin insanlara yetenekli yapay zeka araçlarını ücretsiz olarak sunmak olduğunu belirtti. Altman, istedikleri şeyin bir yapay zeka oluşturmak ve bunu insanların kullanımına sunarak onların yaratacakları şeyleri izlemek olduğunu aktarıyor. Bunu yaparken de ücretsiz kalınacağını söylüyor. Ancak yine de kendilerinin bir işletme olduğunu ve süreç içerisinde (ve mevcut durumda) ücretlendirilecek çok şeyin olacağının altını çiziyor.
Altman, yeni GPT-4o hakkında ise şimdiye kadar kullandığı iyi bilgisayar arayüzü olduğunu söylüyor. CEO, modellerinin filmlerdeki yapay zeka gibi hissettirdiğini ve bunun gerçekten yaşanıyor oluşunun şaşırtıcı olduğunu söylüyor. Altman’ın atıf yaptığı filmin “Her” olduğunu düşünüyorum.
Teknik detaylar ve genel bilgilerden sonra şimdi de OpenAI’ın GPT-4o hakkında paylaştığı bazı örnek videolara göz atalım. Zira bu videolar yukarıda yazdıklarımızın tamamını en ideal şekilde sizlere gösteriyor. Örneğin hemen üstteki köpek videosu. Kullanıcı GPT-4o’ya köpeğini göstererek “seni birisiyle tanıştıracağım” diyor. GPT-4o’nun verdiği tepkiler ise bir insandan farksız, tonlamalar , benzetmeler yapıyor ve adını soruyor. Adını öğrendikten sonra ise ona adıyla seslenmeye devam ediyor.
Capslock TV Teknoloji Haberleri - En Güncel Teknoloji Gelişmeleri ve İncelemeleri sitesinden daha fazla şey keşfedin
Subscribe to get the latest posts sent to your email.