OpenAI गोपनीयता फ़िल्टर एजेंट स्टैक के लिए स्थानीय PII रिडक्शन को व्यावहारिक बनाता है
OpenAI की 22 अप्रैल की गोपनीयता फ़िल्टर रिलीज़ को एक विशिष्ट सुरक्षा मॉडल के रूप में गलत समझा जाना आसान है। यह उससे भी अधिक उपयोगी है. गोपनीयता फ़िल्टर बिल्डरों को प्रॉम्प्ट, वेक्टर इंडेक्स, लॉग, क्यूए समीक्षा कतार, या समर्थन टूलिंग में टेक्स्ट प्रवाहित होने से पहले व्यक्तिगत रूप से पहचाने जाने योग्य जानकारी का पता लगाने और छिपाने का एक खुला-वजन, स्थानीय-पहला तरीका देता है। एजेंट उत्पाद बनाने वाली टीमों के लिए, यह गोपनीयता सुरक्षा को पॉलिसी नोट की तरह कम और ठोस रनटाइम नियंत्रण की तरह अधिक बनाता है।
यह एक पाइपलाइन आदिम है, न कि केवल एक मॉडल रिलीज़
OpenAI गोपनीयता फ़िल्टर को एक द्विदिश टोकन-वर्गीकरण मॉडल के रूप में वर्णित करता है जो एक पास में पाठ को लेबल करता है और संदर्भ के 128,000 टोकन तक का समर्थन करता है। जारी किए गए मॉडल में 50M सक्रिय मापदंडों के साथ 1.5B कुल पैरामीटर हैं, आठ गोपनीयता श्रेणियां शामिल हैं, और Hugging Face और GitHub पर Apache 2.0 के तहत उपलब्ध है। महत्वपूर्ण उत्पाद निहितार्थ सरल है: डेटा को शेष स्टैक में ले जाने से पहले टीमें अब ऑन-प्रिमाइसेस या ऑन-डिवाइस पर पीआईआई मास्किंग चला सकती हैं।
यह मायने रखता है क्योंकि एजेंट सिस्टम उबाऊ स्थानों में लीक हो जाते हैं। केवल अंतिम उत्तर ही नहीं. रिसाव अक्सर त्वरित लॉग, विफलता के निशान, ईवल डेटासेट, कॉपी किए गए समर्थन प्रतिलेख और गंदे आंतरिक पाठ से निर्मित पुनर्प्राप्ति कॉर्पोरा में दिखाई देता है। रेगेक्स संकीर्ण पैटर्न पर मदद करते हैं, लेकिन वे संदर्भ-भारी मामलों को नजरअंदाज कर देते हैं या सार्वजनिक जानकारी को छिपा देते हैं। गोपनीयता फ़िल्टर उन पाठों को प्रचारित करने या कहीं और संग्रहीत करने से पहले टीमों को एक मजबूत डिफ़ॉल्ट परत देता है।
स्थानीय पुनर्निर्देशन वास्तुकला वार्तालाप को बदल देता है
एक बार जब रिडक्शन स्थानीय स्तर पर हो सकता है, तो डिज़ाइन प्रश्न "किस क्लाउड विक्रेता को कच्चा पाठ देखना चाहिए?" से बदल जाता है। "पाइपलाइन के कौन से हिस्से बिल्कुल कच्चे पाठ के लायक हैं?" यह एंटरप्राइज़ एजेंट उत्पादों के लिए बेहतर फ़्रेमिंग है। सारांश, खोज या लेबलिंग सिस्टम में टेक्स्ट भेजने से पहले बिल्डर्स नाम, ईमेल, फोन नंबर, खाता संख्या, निजी तिथियां और रहस्य हटा सकते हैं।
यह उन उत्पादों के लिए विशेष रूप से प्रासंगिक है जो पहले से ही एक्शन-हेवी एजेंटों पर निर्भर हैं। कार्यक्षेत्र एजेंट, Codex रोलआउट प्रोग्राम, और अन्य वर्कफ़्लो उपकरण अधिक ट्रेस, अनुमोदन और समीक्षा कलाकृतियाँ बनाते रहते हैं। गोपनीयता फ़िल्टर टीमों को एक साफ़ प्री-प्रोसेसिंग परत देता है ताकि वे परिचालन रिकॉर्ड आकस्मिक डेटा निकास न बनें।
यह टोकन और समीक्षा दक्षता के लिए भी क्यों मायने रखता है
गोपनीयता सुरक्षा केवल एक अनुपालन कहानी नहीं है। स्थानीय स्तर पर सुधार करने से डाउनस्ट्रीम अपशिष्ट को भी कम किया जा सकता है। स्वच्छ प्लेसहोल्डर्स को अलग करना आसान होता है, इवल हार्नेस में भेजना सुरक्षित होता है, और डिबगिंग के लिए बनाए रखना कम जोखिम भरा होता है। इससे उन वर्कफ़्लो की संख्या कम हो जाती है जिन्हें QA, घटना समीक्षा या उत्पाद विश्लेषण के लिए पुन: उपयोग करने से पहले मैन्युअल स्क्रबिंग की आवश्यकता होती है।
के लिए Token Robin Hood पाठकों, यह व्यावहारिक बिंदु है: लागत नियंत्रण केवल मॉडल रूटिंग नहीं है। यह यह भी तय कर रहा है कि कौन सा डेटा सिस्टम के महंगे हिस्सों में और किस रूप में दर्ज किया जाना चाहिए।
टीमों को आगे क्या करना चाहिए
एक एजेंट वर्कफ़्लो का ऑडिट करें जहां कच्चा पाठ वर्तमान में कई प्रणालियों में प्रसारित होता है। लॉगिंग, एम्बेडिंग या मानव समीक्षा से पहले गोपनीयता फ़िल्टर या समकक्ष स्थानीय संशोधन चरण डालें। फिर तुलना करें कि कौन से संवेदनशील फ़ील्ड प्रचार करना बंद कर देते हैं, कितना मैन्युअल क्लीन-अप गायब हो जाता है, और क्या पुनर्प्राप्ति या डिबगिंग अभी भी प्लेसहोल्डर्स के साथ काम करती है। यह आपको बताएगा कि गोपनीयता-बाय-डिफ़ॉल्ट वास्तव में आपके स्टैक में काम कर रही है या केवल आपके नीति दस्तावेज़ों में वर्णित है।