Ana Sayfa Teknoloji Hukuk Yüksek Lisansı 70’lerdeki bir teknikten daha iyi performans gösteremez ancak yine...

Hukuk Yüksek Lisansı 70’lerdeki bir teknikten daha iyi performans gösteremez ancak yine de kullanılmaya değerdir; işte nedeni

28
0

Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin


Bu yıl ekibimiz MIT Verilerinden Yapay Zeka Laboratuvarına Genellikle çok farklı makine öğrenimi araçlarına bırakılan bir görevi gerçekleştirmek için büyük dil modellerini (LLM’ler) kullanmayı denemeye karar verdi: zaman serisi verilerindeki anormallikleri tespit etmek. Bu, onlarca yıldır yaygın bir makine öğrenimi (ML) görevi olmuştur ve endüstride ağır makinelerle ilgili sorunları tahmin etmek ve bulmak için sıklıkla kullanılır. Yüksek Lisans’ları bu bağlamda kullanmak için bir çerçeve geliştirdik ve ardından performanslarını, en son teknolojiye sahip derin öğrenme araçlarından, 1970’lerde otoregresif entegre hareketli ortalama olarak adlandırılan basit bir yönteme kadar diğer 10 yöntemle karşılaştırdık (ARIMA). Sonunda, LLM’ler çoğu durumda diğer modellere, hatta toplam 11 veri kümesinden yedisinde ondan daha iyi performans gösteren eski tarz ARIMA’ya bile yenildiler.

Yüksek Lisans’ın tamamen evrensel bir drawback çözme teknolojisi olduğunu hayal edenler için bu bir yenilgi gibi görünebilir. Ve bu araçların mevcut sınırlarını keşfeden yapay zeka topluluğundaki pek çok kişi için bu muhtemelen şaşırtıcı değil. Ancak bulgularımızda bizi gerçekten şaşırtan iki unsur vardı. İlk olarak, Yüksek Lisans’ların bazı transformatör tabanlı derin öğrenme yöntemleri de dahil olmak üzere bazı modellerden daha iyi performans gösterme yeteneği bizi hazırlıksız yakaladı. İkinci ve belki de daha önemli sürpriz ise diğer modellerden farklı olarak LLM’lerin tüm bunları hiçbir ince ayar yapmadan yapmasıydı. GPT-3.5 ve Mistral LLM’leri kutudan çıktığı gibi kullandık ve hiçbir şekilde ayarlama yapmadık.

Yüksek Lisanslar birden fazla temel engeli aştı

Yüksek Lisans dışı yaklaşımlar için, anormallikleri tespit etmek istediğimiz sinyali kullanarak derin bir öğrenme modelini veya yukarıda bahsedilen 1970’lerin modelini eğitebiliriz. Temel olarak, modeli eğitmek ve “regular”in neye benzediğini anlaması için sinyalin geçmiş verilerini kullanırız. Daha sonra modeli konuşlandırarak sinyal için yeni değerleri gerçek zamanlı olarak işlemesine, normalden sapmaları tespit etmesine ve bunları anormallik olarak işaretlemesine olanak tanıyacağız.

Yüksek Lisans’ın daha önceki örneklere ihtiyacı yoktu

Ancak Yüksek Lisans’ları kullandığımızda, bu iki aşamalı süreci yapmadık; Yüksek Lisans’lara anormallikleri gerçek zamanlı olarak tespit etmek zorunda kalmadan önce sinyallerden “regular” olanı öğrenme fırsatı verilmedi. Biz buna sıfır atışlı öğrenme diyoruz. Bu mercekten bakıldığında bu inanılmaz bir başarıdır. LLM’lerin sıfır atışlı öğrenme gerçekleştirebilmesi (önceden herhangi bir örnek veya ince ayar yapmadan bu soruna atlamak) artık her bir sinyal veya belirli bir durum için belirli modelleri sıfırdan eğitmeden anormallikleri tespit edecek bir yola sahip olduğumuz anlamına geliyor. Bu çok büyük bir verimlilik kazancıdır, çünkü uydular gibi bazı ağır makine türleri binlerce sinyale sahip olabilirken, diğerleri belirli koşullar için eğitim gerektirebilir. Yüksek Lisans ile bu zaman alıcı adımlar tamamen atlanabilir.

Yüksek Lisans’lar doğrudan dağıtıma entegre edilebilir

Mevcut anormallik tespit yöntemlerinin ikinci ve belki de daha zorlu kısmı, bir ML modelinin eğitimi ve dağıtımı için kullanılan iki adımlı süreçtir. Dağıtım yeterince basit görünse de pratikte oldukça zordur. Eğitilmiş bir modeli dağıtmak, tüm kodu üretim ortamında çalışacak şekilde çevirmemizi gerektirir. Daha da önemlisi, son kullanıcıyı, bu durumda operatörü, modeli dağıtmamıza izin vermeye ikna etmeliyiz. Operatörlerin kendileri her zaman makine öğrenimi konusunda deneyime sahip değildir, bu nedenle genellikle bunun zaten aşırı yüklü iş akışlarına eklenen ek, kafa karıştırıcı bir öğe olduğunu düşünürler. “Ne sıklıkla yeniden eğitim alacaksınız”, “veriyi modele nasıl besleyeceğiz”, “bunu çeşitli sinyaller için nasıl kullanacağız ve şu anda odak noktamız olmayan diğerleri için nasıl kapatacağız” gibi sorular sorabilirler. ,” ve benzeri.

Bu aktarım genellikle sürtüşmeye neden olur ve sonuçta eğitimli bir modelin devreye alınamamasıyla sonuçlanır. LLM’lerde herhangi bir eğitim veya güncelleme gerekmediğinden kontrol operatörlerin elindedir. API’ler ile sorgulama yapabilir, anormallik tespit etmek istedikleri sinyalleri ekleyebilir, anormallik tespitine ihtiyaç duymadıkları sinyalleri kaldırabilir ve başka bir ekibe bağlı kalmadan hizmeti açıp kapatabilirler. Operatörlerin anormallik tespitini doğrudan kontrol edebilme yeteneği, dağıtımla ilgili zorlu dinamikleri değiştirecek ve bu araçların çok daha yaygın hale getirilmesine yardımcı olabilir.

Yüksek Lisans performansını geliştirirken temel avantajlarını da ortadan kaldırmamalıyız

Her ne kadar bizi anormallik tespitini temelde yeniden düşünmeye teşvik etseler de, LLM tabanlı teknikler henüz en son teknolojiye sahip derin öğrenme modelleri veya (7 veri seti için) 1970’lerdeki ARIMA modeli kadar iyi performans göstermedi. Bunun nedeni, MIT’deki ekibimin LLM’de hiçbir şekilde ince ayar yapmaması veya değiştirmemesi ya da özellikle zaman serileriyle kullanılması amaçlanan temel bir LLM oluşturmaması olabilir.

Tüm bu eylemler iğneyi ileriye doğru itse de, LLM’lerin bu alanda sağlayabileceği iki önemli faydadan ödün vermemek için bu ince ayarın nasıl gerçekleştiği konusunda dikkatli olmamız gerekiyor. (Sonuçta, yukarıdaki sorunlar gerçek olsa da çözülebilir.) Bunu aklımızda tutarak, Yüksek Lisans’ın anormallik tespit doğruluğunu iyileştirmek için yapamayacağımız şey şudur:

  • Belirli sinyaller için mevcut LLM’lere ince ayar yapın, çünkü bu onların “sıfır atış” doğasını ortadan kaldıracaktır.
  • Zaman serileriyle çalışmak için temel bir Yüksek Lisans eğitimi oluşturun ve her yeni makine türü için ince ayar katmanı ekleyin.

Bu iki adım, Yüksek Lisans kullanmanın amacını ortadan kaldıracak ve bizi başladığımız yere geri götürecektir: Her sinyal için bir mannequin yetiştirmek zorunda olmak ve dağıtımda zorluklarla karşılaşmak.

Yüksek Lisans’ların mevcut yaklaşımlarla (anormallik tespiti veya diğer makine öğrenimi görevleri) rekabet edebilmesi için ya bir görevi yerine getirmenin yeni bir yolunu etkinleştirmeleri ya da tamamen yeni bir olasılıklar dizisi açmaları gerekir. Eklenen katmanlarla Yüksek Lisans’ın yine de bir gelişme teşkil edeceğini kanıtlamak için yapay zeka topluluğunun, bazı alanlardaki iyileştirmelerin Yüksek Lisans’ın diğer avantajlarını ortadan kaldırmadığından emin olmak için yöntemler, prosedürler ve uygulamalar geliştirmesi gerekiyor.

Klasik makine öğrenimi için bugün güvendiğimiz eğitme, take a look at etme ve doğrulama uygulamasını oluşturmak neredeyse 20 yıl sürdü. Bu süreçte bile bir modelin take a look at ortamlarındaki performansının, dağıtıldığındaki gerçek performansıyla eşleşeceğinden her zaman emin olamayız. Etiket sızıntısı sorunları, eğitim sırasında veri önyargıları ve burada listelenemeyecek kadar çok başka sorunla karşılaşıyoruz.

Bu umut verici yeni yolu, bu özel korkuluklar olmadan çok ileri itersek, tekerleği yeniden icat etme yoluna gidebiliriz; belki de daha karmaşık bir süreç.

Kalyan Veeramachaneni, MIT Knowledge to AI Lab’ın direktörüdür. Aynı zamanda kurucu ortağıdır DataCebo.

Sarah Alnegheimish, MIT Knowledge to AI Lab’da araştırmacıdır.

Veri Karar Vericileri

VentureBeat topluluğuna hoş geldiniz!

DataDecisionMakers, veri çalışması yapan teknik kişiler de dahil olmak üzere uzmanların veriyle ilgili içgörüleri ve yenilikleri paylaşabileceği yerdir.

En son fikirleri ve güncel bilgileri, en iyi uygulamaları ve veri ile veri teknolojisinin geleceğini okumak istiyorsanız DataDecisionMakers’ta bize katılın.

Kendi makalenizle katkıda bulunmayı bile düşünebilirsiniz!

DataDecisionMakers’dan Daha Fazlasını Okuyun


Kaynak

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz