Ana Sayfa Teknoloji Apple Mühendisleri Yapay Zeka ‘Akıl Yürütme’nin Ne Kadar Zayıf Olabildiğini Gösteriyor

Apple Mühendisleri Yapay Zeka ‘Akıl Yürütme’nin Ne Kadar Zayıf Olabildiğini Gösteriyor

25
0

Bir süredir OpenAI ve Google gibi şirketler gelişmiş “akıl yürütme” yeteneklerinin çığırtkanlığını yapıyor gibi bir sonraki büyük adım en son yapay zeka modellerinde. Ancak şimdi, altı Apple mühendisinin katıldığı yeni bir çalışma, gelişmiş büyük dil modellerinin sergilediği matematiksel “akıl yürütmenin”, ortak kıyaslama problemlerinde görünüşte önemsiz değişiklikler karşısında son derece kırılgan ve güvenilmez olabileceğini gösteriyor.

Bu yeni sonuçlarda vurgulanan kırılganlık, LLM’lerin olasılıksal mannequin eşleştirme kullanımında, gerçekten güvenilir matematiksel akıl yürütme yetenekleri için gerekli olan temel kavramların resmi anlayışının eksik olduğunu öne süren önceki araştırmaları desteklemeye yardımcı olmaktadır. Araştırmacılar bu sonuçlara dayanarak “Mevcut Yüksek Lisans’lar gerçek mantıksal akıl yürütme yeteneğine sahip değil” hipotezini öne sürüyorlar. “Bunun yerine, eğitim verilerinde gözlemlenen akıl yürütme adımlarını kopyalamaya çalışıyorlar.”

Karıştır

“GSM-Sembolik: Büyük Dil Modellerinde Matematiksel Akıl Yürütmenin Sınırlamalarını Anlamak” şu anda mevcut ön baskı kağıdı olarak—altı Apple araştırmacısı şöyle başlıyor: GSM8K’nin 8.000’den fazla ilkokul düzeyindeki standart matematiksel kelime problemi setihangisi genellikle referans olarak kullanılır trendy Yüksek Lisans’ın karmaşık muhakeme yetenekleri için. Daha sonra, belirli adları ve sayıları yeni değerlerle dinamik olarak değiştirmek için bu take a look at setinin bir kısmını değiştirmek gibi yeni bir yaklaşımı benimserler; böylece Sophie’nin GSM8K’de yeğeni için 31 yapı taşı almasıyla ilgili bir soru, Invoice’in 19 yapı taşı almasıyla ilgili bir soruya dönüşebilir. Kardeşi yeni GSM-Sembolik değerlendirmesinde.

Bu yaklaşım, statik GSM8K sorularının doğrudan yapay zeka modelinin eğitim verilerine beslenmesinden kaynaklanabilecek olası “veri kirliliğinin” önlenmesine yardımcı olur. Aynı zamanda, bu tesadüfi değişiklikler, matematiksel akıl yürütmenin gerçek zorluğunu hiçbir şekilde değiştirmez; bu, modellerin teorik olarak GSM-Sembolik üzerinde take a look at edildiğinde GSM8K kadar iyi performans göstermesi gerektiği anlamına gelir.

Bunun yerine, araştırmacılar GSM-Symmbolik üzerinde 20’den fazla son teknoloji LLM’yi take a look at ettiğinde, GSM8K ile karşılaştırıldığında genel olarak ortalama doğruluğun azaldığını ve modele bağlı olarak performansın yüzde 0,3 ila yüzde 9,2 arasında düştüğünü buldular. Sonuçlar aynı zamanda farklı advert ve değerlere sahip 50 ayrı GSM-Sembolik çalıştırma arasında da yüksek farklılıklar gösterdi. Tek bir modelde en iyi ve en kötü çalışmalar arasında yüzde 15’e varan doğruluk oranları yaygındı ve bazı nedenlerden dolayı sayıların değiştirilmesi, adların değiştirilmesinden daha kötü bir doğrulukla sonuçlanıyordu.

Hem farklı GSM-Sembolik çalışmalarda hem de GSM8K sonuçlarıyla karşılaştırıldığında bu tür bir farklılık biraz şaşırtıcıdır çünkü araştırmacıların belirttiği gibi “bir soruyu çözmek için gereken genel akıl yürütme adımları aynı kalır.” Bu kadar küçük değişikliklerin bu kadar değişken sonuçlara yol açması, araştırmacılara, bu modellerin herhangi bir “resmi” akıl yürütme yapmadığını, bunun yerine “bir deneme” olduğunu düşündürmektedir.[ing] Verilen soruları ve çözüm adımlarını eğitim verilerinde görülen benzerleriyle hizalayarak bir tür dağıtım içi mannequin eşleştirmesi gerçekleştirmek.”

Dikkatiniz dağılmasın

Yine de, GSM-Sembolik testler için gösterilen genel varyans, genel şemada genellikle nispeten küçüktü. Örneğin OpenAI’nin ChatGPT-4o’su GSM8K’da yüzde 95,2’lik doğruluktan GSM-Symmbolik’te hala etkileyici olan yüzde 94,9’a düştü. Bu, modelin perde arkasında “resmi” akıl yürütme kullanıp kullanmadığına bakılmaksızın, her iki kıyaslama kullanılarak da oldukça yüksek bir başarı oranıdır (her ne kadar araştırmacılar sorunlara yalnızca bir veya iki ek mantıksal adım eklediğinde birçok modelin toplam doğruluğu hızla düşse de) ).

Apple araştırmacıları GSM-Sembolik kriterini sorulara “görünüşte alakalı ama sonuçta önemsiz ifadeler” ekleyerek değiştirdiğinde, take a look at edilen LLM’ler çok daha kötü sonuçlar verdi. Bu “GSM-NoOp” kıyaslama seti için (“işlem yok” ifadesinin kısaltması), bir kişinin birden fazla gün boyunca kaç kivi seçtiğine ilişkin bir soru, “bunlardan beşi” şeklindeki tesadüfi ayrıntıyı içerecek şekilde değiştirilebilir. [the kiwis] ortalamadan biraz daha küçüktü.”

Bu kırmızı ringa balığı eklenmesi, araştırmacıların GSM8K ile karşılaştırıldığında doğrulukta “felaket performans düşüşleri” olarak adlandırdığı, take a look at edilen modele bağlı olarak yüzde 17,5’ten yüzde 65,7’ye kadar değişen oranlara yol açtı. Araştırmacılar, doğruluktaki bu büyük düşüşlerin, “anlamlarını gerçekten anlamadan ifadeleri işlemlere dönüştürmek” için basit “örüntü eşleştirme” kullanmanın doğasında var olan sınırları vurguladığını yazıyor.

Kaynak

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz