Ana Sayfa Teknoloji Meta, metin ve konuşma giriş/çıkışlarını birleştiren Spirit LM açık kaynak modelini tanıtıyor

Meta, metin ve konuşma giriş/çıkışlarını birleştiren Spirit LM açık kaynak modelini tanıtıyor

26
0

Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin


Meta, Cadılar Bayramı 2024’e tam zamanında geldi Meta Ruhu LMşirketin metin ve konuşma giriş ve çıkışlarını sorunsuz bir şekilde entegre edebilen ilk açık kaynaklı çok modlu dil modeli.

Bu nedenle, OpenAI’nin GPT-4o (aynı zamanda doğal olarak multimodal) ve Hume’un EVI 2’si gibi diğer multimodal modellerin yanı sıra ElevenLabs gibi özel metinden konuşmaya ve konuşmayı metne dönüştürme teklifleriyle doğrudan rekabet eder.

Meta’nın Temel Yapay Zeka Araştırma (FAIR) ekibi tarafından tasarlanan Spirit LM, daha anlamlı ve doğal ses veren bir konuşma üretimi sunarak mevcut yapay zeka ses deneyimlerinin sınırlamalarını ele almayı hedeflerken, otomatik konuşma tanıma (ASR), metin tanıma gibi yöntemler arasında görevleri öğrenir. konuşma (TTS) ve konuşma sınıflandırması.

Ne yazık ki girişimciler ve iş dünyası liderleri için bu mannequin şu anda yalnızca ticari olmayan kullanım için mevcuttur. Meta’nın FAIR Ticari Olmayan Araştırma LisansıKullanıcılara Meta Spirit LM modellerini kullanma, çoğaltma, değiştirme ve türetilmiş çalışmalar oluşturma hakkını yalnızca ticari olmayan amaçlarla verir. Bu modellerin veya türevlerin herhangi bir dağıtımı aynı zamanda ticari olmayan kısıtlamaya da uygun olmalıdır.

Metin ve konuşmaya yeni bir yaklaşım

Sese yönelik geleneksel yapay zeka modelleri, konuşulan girişi bir dil modeliyle sentezlemeden önce işlemek için otomatik konuşma tanımaya dayanır ve bu daha sonra metinden konuşmaya teknikleri kullanılarak konuşmaya dönüştürülür.

Etkili olsa da, bu süreç çoğu zaman insan konuşmasının doğasında olan ton ve duygu gibi ifade niteliklerini feda eder. Meta Spirit LM, bu sınırlamaların üstesinden gelmek için fonetik, perde ve ton belirteçlerini birleştirerek daha gelişmiş bir çözüm sunar.

Meta, Spirit LM’nin iki versiyonunu yayınladı:

Ruh LM Tabanı: Konuşmayı işlemek ve oluşturmak için fonetik belirteçleri kullanır.

Ruh LM Etkileyici: Modelin heyecan veya üzüntü gibi daha incelikli duygusal durumları yakalamasına ve bunları oluşturulan konuşmaya yansıtmasına olanak tanıyan perde ve ton için ek belirteçler içerir.

Her iki mannequin de metin ve konuşma veri kümelerinin bir kombinasyonu üzerinde eğitilerek Spirit LM’nin konuşmadan metne ve metinden konuşmaya gibi modlar arası görevleri gerçekleştirmesine olanak tanırken, çıktılarında konuşmanın doğal ifadesini korur.

Açık kaynaklı ticari olmayan — yalnızca araştırma için kullanılabilir

Meta’nın açık bilime olan bağlılığı doğrultusunda şirket, Spirit LM’yi tamamen açık kaynak haline getirerek araştırmacılara ve geliştiricilere mannequin ağırlıkları, kod ve üzerine inşa edilecek destekleyici belgeler sağladı.

Meta, Spirit LM’nin açık yapısının, yapay zeka araştırma topluluğunu, konuşma ve metni yapay zeka sistemlerine entegre etmek için yeni yöntemler keşfetmeye teşvik edeceğini umuyor.

Sürüm ayrıca bir içerir araştırma makalesi modelin mimarisini ve yeteneklerini detaylandırıyor.

Meta’nın CEO’su Mark Zuckerberg, açık kaynaklı yapay zekanın güçlü bir savunucusu oldu ve yakın zamanda yazdığı bir açık mektupta yapay zekanın tıbbi araştırma ve teknoloji gibi alanlardaki ilerlemeleri hızlandırırken “insan üretkenliğini, yaratıcılığını ve yaşam kalitesini artırma” potansiyeline sahip olduğunu belirtti. bilimsel keşif.

Uygulamalar ve gelecekteki potansiyel

Meta Spirit LM, aşağıdakiler gibi çeşitli yöntemlerde yeni görevleri öğrenmek için tasarlanmıştır:

Otomatik Konuşma Tanıma (ASR): Konuşma dilini yazılı metne dönüştürmek.

Metinden Konuşmaya (TTS): Yazılı metinden konuşma dilinin oluşturulması.

Konuşma Sınıflandırması: Konuşmayı içeriğine veya duygusal tonuna göre tanımlama ve kategorilere ayırma.

Ruh LM Etkileyici mannequin, duygusal ipuçlarını konuşma oluşumuna dahil ederek bir adım daha ileri gidiyor.

Örneğin öfke, şaşkınlık veya neşe gibi duygusal durumları algılayıp çıktısına yansıtabiliyor ve böylece yapay zeka ile etkileşimi daha insani ve ilgi çekici hale getiriyor.

Bunun sanal asistanlar, müşteri hizmetleri botları ve daha incelikli ve anlamlı iletişimin gerekli olduğu diğer etkileşimli yapay zeka sistemleri gibi uygulamalar için önemli etkileri vardır.

Daha geniş bir çaba

Meta Spirit LM, Meta FAIR’in halka sunduğu daha geniş bir dizi araştırma aracı ve modelinin bir parçasıdır. Bu, tıbbi görüntüleme ve meteoroloji gibi disiplinlerde kullanılan görüntü ve video segmentasyonu için Meta’nın Her Şeyi Phase Modeli 2.1’e (SAM 2.1) yönelik bir güncellemeyi ve büyük dil modellerinin verimliliğini artırmaya yönelik araştırmaları içerir.

Meta’nın genel hedefi, hem güçlü hem de erişilebilir yapay zeka sistemleri geliştirmeye vurgu yaparak gelişmiş makine zekasına (AMI) ulaşmaktır.

FAIR ekibi, yapay zekayı yalnızca teknoloji topluluğuna değil, bir bütün olarak topluma fayda sağlayacak şekilde geliştirmeyi hedefleyerek araştırmalarını on yıldan fazla bir süredir paylaşıyor. Spirit LM, yapay zekanın doğal dil işlemede başarabileceklerinin sınırlarını zorlarken açık bilimi ve tekrarlanabilirliği destekleyen bu çabanın önemli bir bileşenidir.

Spirit LM için sırada ne var?

Meta Spirit LM’nin piyasaya sürülmesiyle Meta, konuşma ve metnin yapay zeka sistemlerine entegrasyonunda önemli bir adım atıyor.

Yapay zeka tarafından oluşturulan konuşmaya daha doğal ve etkileyici bir yaklaşım sunarak ve modeli açık kaynak haline getirerek Meta, daha geniş araştırma topluluğunun çok modlu yapay zeka uygulamaları için yeni olasılıkları keşfetmesine olanak tanıyor.

Spirit LM, ASR, TTS veya ötesinde olsun, yeni nesil daha insan benzeri yapay zeka etkileşimlerine güç sağlama potansiyeliyle makine öğrenimi alanında umut verici bir ilerlemeyi temsil ediyor.


Kaynak

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz