Ana Sayfa Teknoloji Microsoft’un Diferansiyel Transformatörü Yüksek Lisans’taki dikkat gürültüsünü iptal ediyor

Microsoft’un Diferansiyel Transformatörü Yüksek Lisans’taki dikkat gürültüsünü iptal ediyor

20
0

Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin


Anında bilgi alma konusunda büyük dil modellerinin (LLM’ler) yeteneklerinin geliştirilmesi, erişimle artırılmış nesil (RAG) ve bağlam içi öğrenme (ICL) gibi önemli uygulamaları etkileyebilecek aktif bir araştırma alanı olmayı sürdürüyor.

Microsoft Araştırması Ve Tsinghua Üniversitesi araştırmacılar tanıttı Diferansiyel Transformatör (Diff Transformer), gürültüyü filtrelerken ilgili bağlama dikkati artırarak performansı artıran yeni bir LLM mimarisi. Bir araştırma makalesinde yayınlanan bulguları, Diff Transformer’ın çeşitli ortamlarda klasik Transformer mimarisinden daha iyi performans gösterdiğini gösteriyor.

Transformatörler ve “ortada kaybolma” olgusu

Trafo mimarisi çoğu fashionable LLM’nin temelidir. Çıktı üretirken girdi dizisinin farklı bölümlerinin önemini tartmak için bir dikkat mekanizması kullanır. Dikkat mekanizması, bir değerler vektörünü olasılık dağılımına normalleştiren softmax fonksiyonunu kullanır. Transformers’ta softmax işlevi, giriş sırasındaki farklı belirteçlere dikkat puanları atar.

Ancak çalışmalar, Transformers’ın uzun bağlamlardan önemli bilgileri almakta zorlandığını gösterdi.

Microsoft Analysis İş Ortağı Araştırma Müdürü Furu Wei, VentureBeat’e şöyle konuştu: “‘Ortada kaybolma’ olarak adlandırılan fenomeni araştırarak başladık.” önceki araştırma bulguları Bu, LLM’lerin “uzun girdi bağlamlarında bilgileri sağlam bir şekilde kullanmadığını” ve “modellerin uzun bağlamların ortasında ilgili bilgilere erişmesi gerektiğinde performansın önemli ölçüde düştüğünü” gösterdi.

Wei ve meslektaşları ayrıca modelin ilgili bağlam bilgisine sahip olmasına rağmen yanlış çıktılar ürettiği bazı LLM halüsinasyonlarının sahte dikkat kalıplarıyla ilişkili olduğunu da gözlemledi.

Wei, “Örneğin, büyük dil modellerinin dikkati bağlam nedeniyle kolayca dağılıyor” dedi. “Dikkat kalıplarını analiz ettik ve Softmax darboğazından dolayı Transformer’ın dikkatinin alakasız bağlamlara aşırı odaklanma eğiliminde olduğunu gördük.”

Transformer’ın dikkat mekanizmasında kullanılan softmax işlevi, dikkat puanlarını görevle ilgili olmayanlar bile dahil olmak üzere tüm jetonlara dağıtma eğilimindedir. Bu, özellikle uzun bağlamlarda modelin girdinin en önemli kısımlarına odaklanmayı kaybetmesine neden olabilir.

Wei, “Önceki çalışmalar, softmax dikkatinin düşük frekanslı sinyalleri öğrenme konusunda bir önyargıya sahip olduğunu gösteriyor çünkü softmax dikkat puanları pozitif değerlerle sınırlı ve 1’e toplanması gerekiyor” dedi. “Teorik darboğaz [it] Öyle ki klasik Transformer seyrek dikkat dağılımlarını öğrenemez. Başka bir deyişle, dikkat puanları ilgili bağlama odaklanmak yerine düzleşme eğiliminde oluyor.”

Diferansiyel Transformatör

Diferansiyel Transformatör (kaynak: arXiv)

Bu sınırlamayı gidermek için araştırmacılar, Yüksek Lisans’lar için yeni bir temel mimarisi olan Diff Transformer’ı geliştirdiler. Temel fikir, gürültüyü ortadan kaldıran ve girdinin en alakalı kısımlarına verilen dikkati artıran bir “farklı dikkat” mekanizması kullanmaktır.

Transformer dikkati hesaplamak için üç vektör kullanır: sorgu, anahtar ve değer. Klasik dikkat mekanizması, sorgu ve anahtar vektörlerin tamamı üzerinde softmax işlevini gerçekleştirir.

Önerilen diferansiyel dikkat, sorguyu ve anahtar vektörleri iki gruba ayırarak ve iki ayrı softmax dikkat haritası hesaplayarak çalışır. Bu iki harita arasındaki fark daha sonra dikkat puanı olarak kullanılır. Bu süreç, genel gürültüyü ortadan kaldırarak modelin girdiyle ilgili bilgilere odaklanmasını teşvik eder.

Araştırmacılar, yaklaşımlarını, iki sinyal arasındaki farkın ortak mod gürültüsünü ortadan kaldırdığı elektrik mühendisliğindeki gürültü önleyici kulaklıklar veya diferansiyel amplifikatörlerle karşılaştırıyorlar.

Diff Transformer, klasik Transformer’a göre ek bir çıkarma işlemi içerirken, paralelleştirme ve optimizasyon teknikleri sayesinde verimliliği korur.

Wei, “Deney kurulumunda parametre sayısını ve FLOP’ları Transformatörlerle eşleştirdik” dedi. “Temel operatör hala softmax olduğundan, hızlandırma için yaygın olarak kullanılan FlashAttention cuda çekirdeklerinden de yararlanabilir.”

Geçmişe bakıldığında Diff Transformer’da kullanılan yöntem basit ve sezgisel bir çözüm gibi görünüyor. Wei bunu, çok derin sinir ağlarının eğitimini geliştirmek için “kalan bağlantıları” sunan popüler bir derin öğrenme mimarisi olan ResNet ile karşılaştırıyor. Artık bağlantılar geleneksel mimaride çok basit bir değişiklik yaptı ancak derin bir etki yarattı.

Wei, “Araştırmada önemli olan ‘doğru sorunun ne olduğunu’ bulmaktır” dedi. “Doğru soruyu sorabildiğimizde çözüm genellikle sezgiseldir. ResNet’e benzer şekilde, kalan bağlantı, Diff Transformer’daki çıkarmayla karşılaştırıldığında bir toplama işlemidir, bu nedenle araştırmacıların bu fikri önermesi hemen belli olmadı.”

Diferansiyel Transformatör iş başında

Araştırmacılar Diff Transformer’ı çeşitli dil modelleme görevlerinde değerlendirdiler ve mannequin boyutu (3 milyardan 13 milyar parametreye), eğitim belirteçleri ve bağlam uzunluğu (64.000 belirtece kadar) açısından ölçeklendirdiler.

Deneyleri, Diff Transformer’ın farklı kıyaslamalarda klasik Transformer mimarisinden sürekli olarak daha iyi performans gösterdiğini gösterdi. 1 trilyon token üzerinde eğitilen 3 milyar parametreli Diff Transformer, benzer boyutlu Transformer modellerine kıyasla birkaç yüzde puanlık tutarlı iyileştirmeler gösterdi.

Farklı mannequin boyutları ve eğitim veri seti boyutlarıyla yapılan ileri deneyler, Diff Transformer’ın ölçeklenebilirliğini doğruladı. Bulguları, Diff Transformer’ın genel olarak karşılaştırılabilir bir performans elde etmek için klasik bir Transformer’ın ihtiyaç duyduğu mannequin boyutunun veya eğitim belirteçlerinin yalnızca %65’ine ihtiyaç duyduğunu gösteriyor.

Diferansiyel Transformatör performansı
Diff Transformer, hem parametreler hem de tren jetonları açısından klasik Transformer’dan daha verimlidir (kaynak: arXiv)

Araştırmacılar ayrıca Diff Transformer’ın artan bağlam uzunluklarını kullanmada özellikle etkili olduğunu buldu. Önemli bilgilerin alınması, halüsinasyonun azaltılması ve bağlam içi öğrenmede önemli gelişmeler görüldü.

İlk sonuçlar umut verici olsa da hâlâ geliştirilecek noktalar var. Araştırma ekibi Diff Transformer’ı daha büyük mannequin boyutlarına ve eğitim veri kümelerine ölçeklendirmek için çalışıyor. Ayrıca bunu görüntü, ses, video ve çok modlu veriler dahil olmak üzere diğer yöntemlere de genişletmeyi planlıyorlar.

Araştırmacılar açıkladı Diferansiyel Transformatör kodufarklı dikkat ve optimizasyon mekanizmalarıyla uygulanır. Mimarinin çeşitli LLM uygulamalarında performansı artırmaya yardımcı olabileceğine inanıyorlar.

Wei, “Mannequin ilgili bağlama daha doğru bir şekilde katılabildiğinden, bu dil modellerinin bağlam bilgisini daha az bağlam içi halüsinasyonla daha iyi anlayabilmesi bekleniyor” dedi. “Örneğin, almayla zenginleştirilmiş oluşturma ayarları için (Bing Chat, Perplexity ve belirli alanlar veya sektörler için özelleştirilmiş modeller gibi), modeller, alınan belgeleri koşullandırarak daha doğru yanıtlar üretebilir.”


Kaynak

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz