Ana Sayfa Teknoloji DeepMind’ın Michelangelo karşılaştırması, uzun bağlamlı yüksek lisans eğitimlerinin sınırlamalarını ortaya koyuyor

DeepMind’ın Michelangelo karşılaştırması, uzun bağlamlı yüksek lisans eğitimlerinin sınırlamalarını ortaya koyuyor

25
0

Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin


Çok uzun bağlam pencerelerine sahip büyük dil modelleri (LLM’ler) son zamanlarda manşetlerde yer alıyor. Yüzbinlerce, hatta milyonlarca jetonu tek bir istemde sıkıştırma yeteneği, geliştiriciler için birçok olasılığın kilidini açar.

Ancak bu uzun bağlamlı Yüksek Lisans’lar aldıkları büyük miktardaki bilgiyi gerçekten ne kadar iyi anlıyor ve kullanıyor?

Araştırmacılar Google DeepMind tanıttım MichelangeloLLM’lerin uzun bağlam muhakeme yeteneklerini değerlendirmek için tasarlanmış yeni bir kıyaslama. Yeni bir araştırma makalesinde yayınlanan bulguları, mevcut sınır modellerinin büyük bağlam içi verilerden bilgi alma konusunda ilerleme kaydederken, hala veri yapısı üzerinde akıl yürütme gerektiren görevlerle uğraştıklarını gösteriyor.

Daha iyi uzun bağlam kıyaslamalarına duyulan ihtiyaç

128.000 ila 1 milyon token arasında değişen son derece uzun bağlam pencerelerine sahip LLM’lerin ortaya çıkışı, araştırmacıları yeteneklerini değerlendirmek için yeni kıyaslamalar geliştirmeye teşvik etti. Bununla birlikte, odak noktasının çoğu, modelin geniş bir bağlamda belirli bir bilgi parçasını bulma görevinin verildiği popüler “samanlıktaki iğne” değerlendirmesi gibi erişim görevleri üzerinde olmuştur.

Google DeepMind araştırma bilimcisi Kiran Vodrahalli, VentureBeat’e şunları söyledi: “Zamanla modeller uzun bağlam performansında çok daha yetenekli hale geldi.” “Örneğin, popüler samanlıkta iğne bulma değerlendirmesi artık son derece uzun bağlam uzunluklarına kadar doymuş durumda. Bu nedenle, daha zor görev modellerinin kısa bağlam rejimlerinde çözme yeteneğine sahip olup olmadığının, aynı zamanda uzun mesafelerde de çözülebilir olup olmadığının belirlenmesi önemli hale geldi.”

Geri getirme görevleri, bir modelin tüm bağlam boyunca akıl yürütme kapasitesini mutlaka yansıtmaz. Bir mannequin, metnin farklı bölümleri arasındaki ilişkileri anlamadan belirli bir gerçeği bulabilir. Bu arada, bir modelin uzun bağlamlar üzerinde akıl yürütme yeteneğini değerlendiren mevcut kriterlerin sınırlamaları vardır.

Vodrahalli, “Yalnızca erişim ve mannequin ağırlıklarında saklanan bilgilerin birleşimiyle çözülebilen uzun muhakeme değerlendirmeleri geliştirmek kolaydır, böylece modelin uzun bağlamı kullanma yeteneği testine ‘kısa devre yaptırılır'” dedi.

Michelangelo

Mevcut kriterlerin sınırlamalarını ele almak için araştırmacılar, “büyük dil modelleri için minimal, sentetik ve sızdırılmamış uzun bağlamlı akıl yürütme değerlendirmesi” olan Michelangelo’yu tanıttı.

Michelangelo, altta yatan yapıyı ortaya çıkarmak için alakasız mermer parçalarını kesen bir heykeltıraş benzetmesine dayanıyor. Kıyaslama, yalnızca yalıtılmış gerçekleri almak yerine, modelin kendi bağlam penceresi içindeki bilgilerin ilişkilerini ve yapısını anlama yeteneğini değerlendirmeye odaklanır.

Karşılaştırma üç temel görevden oluşur:

Gizli liste: Mannequin, bir Python listesinde gerçekleştirilen uzun bir işlem dizisini işlemeli, ilgisiz veya gereksiz ifadeleri filtrelemeli ve listenin son durumunu belirlemelidir. Araştırmacılar, “Gizli Liste, bir modelin, kod talimatları akışı boyunca gizli bir veri yapısının özelliklerini izleme yeteneğini ölçer” diye yazıyor.

Çok yönlü ortak referans çözünürlüğü (MRCR): Mannequin, kullanıcı ile Yüksek Lisans arasındaki uzun bir konuşmanın bölümlerini üretmelidir. Bu, konuşma kafa karıştırıcı veya dikkat dağıtıcı unsurlar içerse bile, modelin konuşmanın yapısını anlamasını ve önceki dönüşlere yapılan referansları çözümlemesini gerektirir. Araştırmacılar, “MRCR, modelin doğal metindeki sıralamayı anlama, benzer yazı taslakları arasında ayrım yapma ve zorlu sorgulara konu olan önceki bağlamın belirli bir parçasını yeniden üretme yeteneğini ölçer” diye yazıyor araştırmacılar.

“Bilmiyorum” (IDK): Modele uzun bir hikaye veriliyor ve bununla ilgili çoktan seçmeli soruları yanıtlaması isteniyor. Bazı sorular için bağlam cevabı içermiyor ve modelin bilgisinin sınırlarını tanıyabilmesi ve “Bilmiyorum” şeklinde yanıt verebilmesi gerekiyor. Araştırmacılar, “IDK, modelin sunulan bağlama göre bilmediğini bilip bilmediğini anlama yeteneğini ölçüyor” diye yazıyor.

Gizli Yapı Sorguları

Michelangelo’daki görevler Gizli Yapı Sorguları (LSQ) adı verilen yeni bir çerçeveye dayanmaktadır. LSQ, isteğe bağlı uzunluklara genişletilebilecek uzun bağlam muhakeme değerlendirmelerinin tasarlanması için genel bir yaklaşım sağlar. Ayrıca, basit gerçekleri almanın aksine modelin örtülü bilgiyi anlama becerisini de check edebilir. LSQ, check verilerinin eğitim külliyatına sızması gibi tuzaklardan kaçınmak için check verilerinin sentezlenmesine dayanır.

Araştırmacılar, “Modelin, anahtarlardan alınan değerlerden ziyade (samanlıklardan iğneler yerine mermerden heykeller) ziyade yapılardan bilgi çıkarmasını talep ederek, dil modeli bağlam anlayışını geri getirmenin ötesinde daha derinlemesine check edebiliriz” diye yazıyor.

LSQ’nun uzun bağlamlı LLM’leri değerlendirmeye yönelik diğer yaklaşımlardan üç temel farklılığı vardır. Birincisi, geri alma görevlerinin ötesine geçen değerlendirmelerde kısa devre kusurlarını önlemek için açıkça tasarlanmıştır. İkincisi, görev karmaşıklığını ve bağlam uzunluğunu bağımsız olarak artırmak için bir metodoloji belirtir. Ve son olarak, çok çeşitli muhakeme görevlerini kapsayacak kadar geneldir. Michelangelo’da kullanılan üç check, kodun yorumlanmasını ve gevşek bir şekilde yazılmış metin üzerinde akıl yürütmeyi kapsar.

Vodrahalli, “Amaç, LSQ takip edilerek uygulanan uzun bağlamlı muhakeme ötesi değerlendirmelerin, önerilen değerlendirmenin bir geri getirme görevinin çözümüne indirgendiği daha az senaryoya yol açmasıdır” dedi.

Michelangelo’daki sınır modellerinin değerlendirilmesi

Araştırmacılar, Gemini, GPT-4 ve 4o ve Claude’un farklı varyantları da dahil olmak üzere Michelangelo’daki on sınır yüksek lisans eğitimini değerlendirdi. Modelleri 1 milyon jetona kadar bağlamlarda check ettiler. Gemini modelleri MRCR’de en iyi performansı gösterdi, GPT modelleri Latent Listing’te öne çıktı ve Claude 3.5 Sonnet, IDK’da en yüksek puanları elde etti.

Bununla birlikte, tüm modeller, akıl yürütme görevlerinin karmaşıklığı arttıkça performansta önemli bir düşüş sergiledi; bu, çok uzun bağlam pencerelerinde bile mevcut LLM’lerin, büyük miktarlarda bilgi üzerinde akıl yürütme becerilerini geliştirme konusunda hala yeterli alana sahip olduğunu gösteriyor.

Frontier Yüksek Lisans’ları uzun bağlam pencerelerinde akıl yürütme konusunda zorluk çekiyor (kaynak: arxiv)

Vodrahalli, “Sınır modelleri, Michelangelo’da araştırdığımız tüm geri kazanımın ötesinde akıl yürütme ilkellerini (Gizli Liste, MRCR, IDK) geliştirmek için alana sahip” dedi. “Farklı sınır modellerinin farklı güçlü ve zayıf yönleri vardır; her sınıf, farklı bağlam aralıklarında ve farklı görevlerde iyi performans gösterir. Modeller arasında evrensel görünen şey, uzun muhakeme görevlerinde performanstaki ilk düşüştür.”

Michelangelo değerlendirmeleri, uzun bağlamlı akıl yürütme için gerekli olan temel ilkelleri yakalıyor ve bulguların kurumsal uygulamalar için önemli sonuçları olabilir. Örneğin, modelin ön eğitim bilgisine güvenemediği ve çok uzun bağlamlarda birçok farklı konum üzerinde çok atlamalı muhakeme yürütmesi gereken gerçek dünya uygulamalarında Vodrahalli, bağlam uzunluğu arttıkça performansın düşmesini bekliyor.

Vodrahalli, “Belgelerde eldeki görevle ilgisi olmayan çok fazla bilgi varsa bu özellikle doğrudur, bu da modelin hangi bilginin ilgili olup olmadığını anında ayırt etmesini zorlaştırır” dedi. “Aynı zamanda modellerin, bir soruyu yanıtlamaya yönelik tüm ilgili bilgilerin belgedeki genel bir noktada yer aldığı görevlerde de iyi performans göstermeye devam etmesi muhtemeldir.”

Araştırmacılar Michelangelo’ya daha fazla değerlendirme eklemeye devam edecek ve diğer araştırmacıların kendi modellerini bunlar üzerinde check edebilmesi için bunları doğrudan kullanıma sunmayı umuyorlar.


Kaynak

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz