OpenAI Gizlilik Filtresi, aracı yığınları için yerel PII düzenlemesini pratik hale getiriyor
OpenAI'nin 22 Nisan tarihli Gizlilik Filtresi sürümünün bir niş güvenlik modeli olarak yanlış okunması kolaydır. Bundan daha faydalıdır. Gizlilik Filtresi, metin istemlerine, vektör indekslerine, günlüklere, QA inceleme sıralarına veya destek araçlarına akmadan önce geliştiricilere kişisel olarak tanımlanabilir bilgileri tespit etmek ve maskelemek için açık ağırlıklı, yerel öncelikli bir yol sağlar. Ajan ürünleri geliştiren ekipler için bu, gizlilik korumasının bir politika notundan ziyade somut bir çalışma zamanı kontrolüne benzemesini sağlar.
Bu yalnızca bir model sürümü değil, bir üretim hattı ilkelidir
OpenAI, Gizlilik Filtresini, metni tek geçişte etiketleyen ve 128.000'e kadar bağlam belirtecini destekleyen, çift yönlü bir belirteç sınıflandırma modeli olarak tanımlıyor. Yayınlanan model, 50 milyon aktif parametreyle toplam 1,5 milyar parametreye sahiptir, sekiz gizlilik kategorisini kapsar ve Hugging Face ve GitHub'da Apache 2.0 kapsamında mevcuttur. Ürünün önemli sonucu basittir: Ekipler artık veriler yığının geri kalanına taşınmadan önce şirket içinde veya cihazda PII maskelemeyi çalıştırabilir.
Bu önemli çünkü ajan sistemleri sıkıcı yerlere sızıntı yapıyor. Yalnızca nihai yanıtlar değil. Sızıntı genellikle istem günlüklerinde, hata izlerinde, değerlendirme veri kümelerinde, kopyalanan destek transkriptlerinde ve karmaşık dahili metinlerden oluşturulmuş erişim derlemlerinde ortaya çıkar. Regex'ler dar kalıplarda yardımcı olur, ancak bağlam ağırlıklı durumları gözden kaçırma veya genel bilgileri aşırı maskeleme eğilimindedirler. Gizlilik Filtresi, bu metinlerin başka bir yere yayılmasından veya saklanmasından önce ekiplere daha güçlü bir varsayılan katman sağlar.
Yerel redaksiyon mimari sohbetini değiştirir
Redaksiyon yerel olarak gerçekleştirilebildiğinde, tasarım sorusu "ham metni hangi bulut satıcısı görmeli?" şeklinde değişir. "boru hattının hangi kısımları ham metni hak ediyor?" Bu, kurumsal acente ürünleri için daha iyi bir çerçevedir. İnşaatçılar, metni özetleme, arama veya etiketleme sistemlerine aktarmadan önce adları, e-postaları, telefon numaralarını, hesap numaralarını, özel tarihleri ve sırları çıkarabilirler.
Bu özellikle halihazırda aksiyon ağırlıklı ajanlara dayanan ürünler için geçerlidir. Çalışma alanı aracıları, Codex kullanıma sunma programlarıve diğer iş akışı araçları daha fazla iz, onay ve inceleme yapısı oluşturmaya devam ediyor. Gizlilik Filtresi ekiplere daha temiz bir ön işleme katmanı sağlar, böylece operasyonel kayıtlar kazara veri tüketimine dönüşmez.
Bu neden belirteç ve inceleme verimliliği açısından da önemlidir?
Gizlilik koruması yalnızca bir uyumluluk hikayesi değildir. Yerel olarak düzeltmeler yapmak aynı zamanda aşağı yöndeki israfı da azaltabilir. Temiz yer tutucuların farklılaştırılması daha kolaydır, değerlendirme donanımlarına gönderilmesi daha güvenlidir ve hata ayıklama amacıyla saklanması daha az risklidir. Bu, QA, olay incelemesi veya ürün analitiği için yeniden kullanılmadan önce manuel olarak temizlenmesi gereken iş akışlarının sayısını azaltır.
İçin Token Robin Hood Okuyucular, pratik nokta şu: maliyet kontrolü yalnızca model yönlendirmesi değildir. Ayrıca sistemin pahalı bölümlerine hangi verinin hangi biçimde girmesi gerektiğine de karar veriyor.
Takımların bundan sonra ne yapması gerekiyor?
Ham metnin şu anda birden fazla sisteme yayıldığı bir temsilci iş akışını denetleyin. Günlüğe kaydetmeden, yerleştirmeden veya gerçek kişi tarafından incelemeden önce Gizlilik Filtresi veya eşdeğer bir yerel düzenleme adımı koyun. Ardından hangi hassas alanların yayılmasının durduğunu, manuel temizlemenin ne kadarının kaybolduğunu ve yer tutucularla alma veya hata ayıklamanın hâlâ işe yarayıp yaramadığını karşılaştırın. Bu size varsayılan olarak gizliliğin aslında yığınınızda mı çalıştığını yoksa yalnızca politika belgelerinizde mi açıklandığını söyleyecektir.