OpenAI Sora, Yapay Zeka İstemlerini Fotogerçekçi Videolara Dönüştürüyor
OpenAI'nin sohbet robotlarının hukuk fakültesine gitmeden baro sınavını geçebileceğini zaten biliyoruz. Şimdi, tam da Oscar yaklaşırken, Sora adlı yeni bir OpenAI uygulaması, sinema okuluna gitmeden sinemada ustalaşmayı umuyor. Şimdilik bir araştırma ürünü olan Sora, güvenlik açıklarına karşı onu yeniden bir araya getirecek birkaç seçkin içerik oluşturucuya ve bir dizi güvenlik uzmanına gidiyor. OpenAI, bunu belirtilmemiş bir tarihte tüm yazar özentilerinin kullanımına sunmayı planlıyor, ancak önceden önizlemeye karar verdi.
Google gibi devlerden Runway gibi yeni girişimlere kadar diğer şirketler, metinden videoya yapay zeka projelerini zaten ortaya çıkardı. Ancak OpenAI, Sora'nın rakiplerinde görmediğim çarpıcı fotogerçekçiliğiyle ve diğer modellerin genellikle yaptığı bir dakikaya kadar kısa parçalardan daha uzun klipler üretme yeteneğiyle öne çıktığını söylüyor. Konuştuğum araştırmacılar tüm bu videoyu oluşturmanın ne kadar sürdüğünü söylemiyor, ancak basıldığında bunu "birkaç gün izin almaktan" ziyade "burrito yemeye gitmek" olarak tanımladılar. Gördüğüm özenle seçilmiş örneklere inanılacaksa, bu çabaya değer.
OpenAI kendi istemlerimi girmeme izin vermedi ancak Sora'nın gücünün dört örneğini paylaşıyordu. (Hiçbiri iddia edilen bir dakika sınırına ulaşmadı; en uzunu 17 saniyeydi.) İlki, takıntılı bir senarist kurgusuna benzeyen ayrıntılı bir yönlendirmeden geldi: “Güzel, karlı Tokyo şehri hareketli. Kamera, güzel karlı havanın tadını çıkaran ve yakındaki tezgahlarda alışveriş yapan birkaç kişiyi takip ederek şehrin hareketli caddesinde ilerliyor. Muhteşem sakura yaprakları kar taneleriyle birlikte rüzgarda uçuyor.
Sonuç, kar taneleri ve kiraz çiçeklerinin bir arada var olduğu o sihirli andaki Tokyo'nun şüphe götürmez bir şekilde ikna edici bir görüntüsüdür. Sanal kamera, sanki bir drone'a takılmış gibi, bir çiftin sokak manzarasında yavaşça dolaşmasını takip ediyor. Yoldan geçenlerden biri maske takıyor. Nehir kenarındaki bir yolda sol tarafta arabalar gürleyerek geçiyor, sağ tarafta ise alışveriş yapanlar bir dizi küçük mağazaya girip çıkıyor.
Mükemmel değil. Ancak klibi birkaç kez izlediğinizde, karla kaplı kaldırımda gezinen bir çift olan ana karakterlerin, sanal kamera çalışmaya devam etseydi bir ikilemle karşı karşıya kalacaklarını fark ediyorsunuz. İşgal ettikleri kaldırım çıkmaz sokak gibi görünüyor; küçük bir korkuluğun üzerinden geçerek sağ taraflarındaki garip paralel yürüyüş yoluna çıkmaları gerekecekti. Bu hafif aksaklığa rağmen Tokyo örneği, dünya inşasında akıllara durgunluk veren bir çalışmadır. İlerleyen süreçte yapım tasarımcıları bunun güçlü bir işbirlikçi mi yoksa iş bitirici mi olduğunu tartışacaklar. Ayrıca bu videodaki tamamen dijital sinir ağı tarafından oluşturulan kişiler yakın çekimde gösterilmiyor ve herhangi bir ifade kullanmıyorlar. Ancak Sora ekibi, başka durumlarda da gerçek duyguları gösteren sahte oyuncuların bulunduğunu söylüyor.
Diğer klipler de etkileyici; özellikle "kırmızı bir mumun yanında diz çökmüş kısa tüylü bir canavarın animasyonlu bir sahnesi" ile birlikte bazı ayrıntılı sahne talimatları ("geniş gözler ve açık ağız") ve arzu edilen sahne havasının bir tanımını isteyen klipler de etkileyici. klip. Sora, Monsters, Inc.'de bir Furby, bir Gremlin ve Sully'den DNA'ya sahip gibi görünen Pixar benzeri bir yaratık üretiyor. Son filmin vizyona girdiği zamanı hatırlıyorum, Pixar , bir canavarın kürkünün ultra karmaşık dokusunu, yaratık hareket ederken yaratmanın ne kadar zor olduğunu anlatmıştı. Bunu doğru yapmak Pixar'ın tüm büyücülerinin aylarını aldı. OpenAI'nin yeni metinden videoya makinesi… az önce başardı.
Projede araştırma bilimcisi olan Tim Brooks bu başarı hakkında şunları söylüyor: "3 boyutlu geometriyi ve tutarlılığı öğreniyor." "Bunu önceden planlamadık; yalnızca çok fazla verinin görülmesi sonucu ortaya çıktı."
Sahneler kesinlikle etkileyici olsa da Sora'nın yetenekleri arasında en şaşırtıcı olanı, onun için eğitilmemiş olmasıdır. OpenAI'nin Dalle-3 görüntü oluşturucusu ve GPT-4'ün transformatör tabanlı motoru tarafından kullanılan yayılma modelinin bir versiyonuyla desteklenen Sora, yalnızca istemlerin taleplerini karşılayan videoları seri olarak yayınlamakla kalmıyor, aynı zamanda bunu bir şekilde yapıyor. Bu, sinematik gramerin yeni yeni ortaya çıkan bir kavrayışını gösteriyor.
Bu hikaye anlatma yeteneğine dönüşüyor. "Rengarenk balıklar ve deniz canlılarıyla dolu bir mercan kayalığının muhteşem bir şekilde işlenmiş kağıt sanatı dünyası" istemiyle oluşturulan başka bir videoda. Projedeki bir diğer araştırmacı Bill Peebles, Sora'nın kamera açıları ve zamanlamasıyla etkileyici bir anlatım yarattığını belirtiyor. "Aslında birden fazla çekim değişikliği var; bunlar bir araya getirilmiyor, ancak model tarafından tek seferde oluşturuluyor" diyor. "Ona bunu yapmasını söylemedik, otomatik olarak yaptı."
Görmediğim başka bir örnekte Sora'dan bir hayvanat bahçesi turu yapması istendi. Peebles, "Hayvanat bahçesinin adıyla büyük bir tabela üzerinde başladı, yavaş yavaş aşağıya doğru kaydırıldı ve ardından hayvanat bahçesinde yaşayan farklı hayvanları göstermek için bir dizi çekim değişikliği yapıldı" diyor Peebles, "Bunu güzel ve güzel bir şekilde başardı. Açıkça yapması talimatı verilmeyen sinematik bir yol.”
Sora'da OpenAI ekibinin göstermediği ve uzun bir süre de yayınlayamayabileceği bir özellik, tek bir görüntüden veya bir dizi kareden video oluşturma yeteneğidir. Brooks, "Bu, hikaye anlatma yeteneklerini geliştirmenin gerçekten harika bir yolu olacak" diyor. “Aklınızda olanı tam olarak çizebilir ve ardından onu canlandırarak hayata geçirebilirsiniz.” OpenAI, bu özelliğin aynı zamanda deepfake ve yanlış bilgi üretme potansiyeline sahip olduğunun bilincindedir. Peebles, "Bununla ilgili tüm güvenlik sonuçları konusunda çok dikkatli olacağız" diye ekliyor.