Ana Sayfa Teknoloji Yeni yüksek kaliteli yapay zeka video oluşturucu Pyramid Move kullanıma sunuldu ve...

Yeni yüksek kaliteli yapay zeka video oluşturucu Pyramid Move kullanıma sunuldu ve tamamen açık kaynaktır!

33
0

Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin


AI video oluşturma modellerinin sayısı yeni bir modelle artmaya devam ediyor, Piramit Akışıbu hafta yayına giriyor ve uzunluğu 10 saniyeye kadar yüksek kaliteli video klipler sunuyor – hızlı ve tamamı açık kaynak.

Pekin Üniversitesi, Pekin Posta ve Telekomünikasyon Üniversitesi ve iyi incelenen tescilli Kling AI video oluşturucusunun yaratıcısı olan Kuaishou Know-how’den araştırmacıların işbirliğiyle geliştirilen Pyramid Move, tek bir AI modelinin video oluşturduğu yeni bir teknikten yararlanıyor. çoğu düşük çözünürlüklü olup yalnızca tam çözünürlüklü bir sürümü üretim sürecinin sonuna saklar.

İndirilmek üzere ham kod olarak mevcuttur Sarılma Yüz Ve Githubve bir şekilde çalıştırılabilir çıkarım kabuğu burada ancak kullanıcının mannequin kodunu kendi makinesine indirip çalıştırmasını gerektirir.

Çıkarım olarak mannequin, yalnızca 56 saniyede 5 saniyelik, 384p bir video üretebilir (birçok tam dizili difüzyon muadiliyle aynı seviyede veya onlardan daha hızlı), ancak Runway’in Gen 3-Alpha Turbo’su yapay zeka video oluşturma hızı açısından hala çok geride kalıyor , testlerimizde bir dakikanın altında ve çoğu zaman 10-20 saniyede geliyor.

Henüz Pyramid Move’u take a look at etme şansımız olmadı, ancak mannequin yaratıcıları tarafından yayınlanan videolar inanılmaz derecede gerçekçi, yeterince yüksek çözünürlükte ve ilgi çekici görünüyor; tescilli tekliflere benzer. Burada çeşitli örnekleri görebilirsiniz. Github proje sayfası.

Gerçekten de, Pyramid Move artık ticari/kurumsal amaçlarla bile indirilip kullanılabilecek şekilde tasarlanmıştır ve Runway’in Gen-3 Alpha, Luma’s Dream Machine, Kling ve Haulio gibi ücretli ve özel tekliflerle doğrudan rekabet edecek şekilde tasarlanmıştır. Sınırsız üretim aboneliğine sahip kullanıcılar için yılda yüzlerce hatta binlerce dolar.

Çeşitli AI video sağlayıcıları arasında kullanıcı kazanma yarışı devam ederken, Pyramid Move, gelişmiş video oluşturma yetenekleri arayan geliştiricilere, sanatçılara ve yaratıcılara daha fazla verimlilik ve esneklik getirmeyi amaçlıyor.

Yüksek kaliteli yapay zeka videoları için yeni bir teknik: ‘piramidal akış eşleştirme’

Yapay zeka video üretimi, genellikle geniş uzay-zamansal alanların modellenmesini içeren, hesaplama açısından yoğun bir görevdir. Geleneksel yöntemler genellikle sürecin farklı aşamaları için ayrı modeller gerektirir; bu da esnekliği sınırlar ve eğitimin karmaşıklığını artırır.

Piramit Akışı, yüksek görsel kaliteyi korurken video oluşturmanın hesaplama maliyetini büyük ölçüde azaltan, video oluşturma sürecini yalnızca son aşamanın çalıştırılmasıyla bir dizi “piramit” aşaması olarak tamamlayan bir yöntem olan piramidal akış eşleştirme kavramı üzerine inşa edilmiştir. tam çözünürlükte.

Önceden incelenen bir makalede şöyle anlatılıyor: “Verimli Video Üretken Modelleme için Piramidal Akış Eşleştirme,” gönderildi açık erişimli bilim dergisi arXiv 8 Ekim 2024’te.

Yazarlar arasında Yang Jin, Zhicheng Solar, Ningyuan Li, Kun Xu, Hao Jiang, Nan Zhuang, Quzhe Huang, Yang Tune, Yadong Mu ve Zhouchen Lin yer alıyor. Bu araştırmacıların çoğu Pekin Üniversitesi’ne bağlı, diğerleri ise Kuaishou Know-how’den.

Onlar yazarken, video üretimini farklı aşamalarda sıkıştırma ve optimize etme yeteneği, eğitim sırasında daha hızlı yakınsamaya yol açarak Pyramid Move’un eğitim grubu başına daha fazla örnek oluşturmasına olanak tanır.

Örneğin, önerilen piramidal akış, geleneksel yayılma modelleriyle karşılaştırıldığında jeton sayısını dört kat azaltır ve bu da daha verimli eğitim sağlar.

Mannequin, açık kaynaklı veri kümeleri üzerinde eğitilirken, 768p çözünürlükte ve saniyede 24 kare hızında 5 ila 10 saniyelik videolar üretebiliyor. Makalede özellikle Pyramid Move’un aşağıdaki konularda eğitim aldığı belirtiliyor:

  • LAION-5B, çok modlu yapay zeka araştırmalarına yönelik geniş bir veri kümesi.
  • CC-12M, net’de gezinen resim-metin çiftlerinden oluşan bir veri kümesidir.
  • SA-1B, yüksek kaliteli, bulanık olmayan görüntüler sunar.
  • Metinden videoya dönüştürme için yaygın olarak kullanılan video veri kümeleri olan WebVid-10M ve OpenVid-1M.

Yazarlar toplamda yaklaşık 10 milyon tek çekim videonun küratörlüğünü yaptı.

Bununla birlikte, bu “kamuya açık” veya “açık kaynak” veri kümelerinin birçoğu, son yıllarda telif hakkıyla korunan materyalleri, telif hakkı sahiplerinin izni veya bilgilendirilmiş rızası olmadan dahil ettiği için eleştirmenlerin eleştirilerine maruz kaldı ve özellikle LAION-5B, çocuklara yönelik cinsel istismar materyallerine ev sahipliği yapmak.

Ayrı olarak Runway, ABD telif haklarını ihlal ettiği iddiasıyla izinsiz, tazminatsız veya rızasız materyaller üzerinde eğitim verdiği için sanatçılar tarafından toplu davada dava edilen şirketler arasında yer alıyor. Dava şimdilik mahkemede tartışılmaya devam ediyor.

İzin verilen lisansa sahip, ticari kullanım için açık kaynak

Piramit Akışı şu şekilde yayınlandı: MİT LisansıTelif hakkı bildiriminin korunması koşuluyla ticari uygulamalar, değişiklikler ve yeniden dağıtım da dahil olmak üzere geniş bir kullanım yelpazesine izin verir.

Bu, Pyramid Move’u, modeli özel sistemlere entegre etmek isteyen geliştiriciler ve şirketler için çekici bir seçenek haline getiriyor ve Luma AI ve Runway’e meydan okuyabilir; zira her ikisi de, kendi tescilli AI video oluşturma teknolojilerini müşteri hizmetlerine entegre etmek isteyen geliştiriciler için ücretli uygulama programlama arayüzleri sunmaya çalışmaktadır. çalışanlara yönelik uygulamalar.

Ancak bu özel modeller geliştiriciler için uygun çıkarımlar olarak zaten mevcuttur; Pyramid Move’un Hugging Face’te bir demo çıkarımı vardır, bunun üzerine tam uygulamalar oluşturmak için uygun değildir ve kullanıcıların kendi çıkarım versiyonlarını barındırması gerekir; modelin kendisi “ücretsiz” olmasına rağmen maliyetlidir.

Buna ek olarak Pyramid Move, verimlilik kazanmak, maliyetleri düşürmek ve yeni yaratıcı araçları keşfetmek için yapay zekadan yararlanmak isteyen movie stüdyoları için cazip olabilir. Büyük bir movie stüdyosu olan Lionsgate, John Wick Ve Alacakaranlık Diğer pek çok parçanın yanı sıra movie franchise’ları da özel bir AI video oluşturma modeli yetiştirmek için kısa süre önce Runway ile belirsiz bir meblağ karşılığında bir anlaşma imzaladı. Üstelik, Titanik Ve Terminatör yönetmen James Cameron, AI video ve görüntü modeli sağlayıcısı Stability’nin yönetim kuruluna katıldı (ikincisi aynı zamanda Runway ile sanatçılar tarafından açılan aynı toplu davaya tabidir).

Lionsgate veya başka herhangi bir movie stüdyosu, Pyramid Move’u kullanarak, üçüncü taraf bir şirkete ödeme yapmadan açık kaynak sürümüne ince ayar yapabilir. Bununla birlikte, bunu yapmak için gerekli olan geliştirici yeteneğini ve bilgi işlem kaynaklarını yine de ellerinde bulundurmaları veya sözleşmeyle devretmeleri gerekecektir; bu da Runway gibi yerleşik AI sağlayıcılarıyla ortaklığı daha çekici hale getirebilir, çünkü bu şirket ve onun gibi diğerleri zaten AI mühendisliğine sahiptir. Yetenek evde onların emrinde.

Pyramidal Move Matching’in arkasındaki araştırma ekibi de açıklık ve erişilebilirlik konusunda kararlıdır. Tüm kod ve mannequin ağırlıkları, kamuya ücretsiz olarak sunulacaktır. resmi proje sayfasıdünyanın dört bir yanındaki araştırmacıların ve geliştiricilerin bu çalışmadan faydalanabilmesini ve geliştirebilmesini sağlamak.

Güçlü yönlerine rağmen, Piramit Akışının bazı sınırlamaları vardır. Şimdilik, kamera açıları, ana kareler ve insan hareketleri gibi sinematik öğeler üzerinde hassas kontrol sağlayan Runway Gen-3 Alpha gibi modellerde bulunan bazı gelişmiş ince ayar yeteneklerinden yoksun. Benzer şekilde Luma’s Dream Machine, Pyramid Move’un hâlâ yetiştiği gelişmiş kamera kontrol seçenekleri sunuyor.

Üstelik Pyramid Move’un nispeten yakın zamanda piyasaya sürülmesi, ekosisteminin – her ne kadar sağlam olsa da – rakiplerininki kadar olgun olmadığı anlamına geliyor.

İleriye baktığımızda: Yapay zeka video yarışında yavaşlama belirtisi yok

AI video oluşturma pazarı gelişmeye devam ederken, Pyramid Move’un lansmanı, Runway ve Luma gibi tescilli tekliflerle rekabet edebilecek daha erişilebilir, açık kaynaklı çözümlere doğru bir geçişin sinyalini veriyor.

Şimdilik, kapalı modellerin maliyet ve kısıtlamalarından kurtulmak isteyenler için sağlam bir alternatif sunarken, daha ticari muadilleriyle aynı seviyede etkileyici video kalitesi sunuyor.

Önümüzdeki aylarda geliştiriciler ve yaratıcılar muhtemelen Pyramid Move’un büyümesini yakından takip edecekler. Daha fazla iyileştirme ve optimizasyon potansiyeliyle, dünyanın her yerindeki video içeriği yaratıcılarının cephaneliğinde başvurulacak bir araç haline gelebilir. Tüm şirketler ve araştırmacılar şu anda hem teknolojik üstünlük hem de kullanıcılar için mücadele ediyor.

Bu arada, OpenAI’nin ilk kez Şubat 2024’te tanıtılan Sora’sı, bir avuç küçük erken alfa kullanıcısıyla yaptığı işbirlikleri dışında hiçbir yerde görülemiyor.


Kaynak

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz