Sluit u aan bij onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve inhoud over toonaangevende AI-dekking. Meer informatie
OpenAI heeft een agressievere benadering van red teaming gekozen dan zijn AI-concurrenten, waarmee de geavanceerde capaciteiten van zijn beveiligingsteams op twee gebieden worden gedemonstreerd: versterking in meerdere stappen en externe red teaming. OpenAI is onlangs uitgebracht twee papieren die een nieuwe concurrentiestandaard hebben gezet voor het verbeteren van de kwaliteit, betrouwbaarheid en veiligheid van AI-modellen in deze twee technieken en meer.
Het eerste artikel, “OpenAI’s benadering van externe reD Teaming voor AI-modellen en -systemen”, meldt dat gespecialiseerde teams buiten het bedrijf effectief zijn gebleken in het blootleggen van kwetsbaarheden die anders in een vrijgegeven model zouden zijn terechtgekomen, omdat interne testtechnieken deze mogelijk hebben gemist.
In het tweede artikel “Divers en effectief Red Teaming met automatisch gegenereerde beloningen en leren in meerdere stappen”, introduceert OpenAI een geautomatiseerd raamwerk dat afhankelijk is van iteratief versterkend leren om een breed spectrum aan nieuwe, uiteenlopende aanvallen te genereren.
Als je all-in gaat voor red teaming, levert dit praktische, competitieve voordelen op
Het is bemoedigend om te zien dat de concurrentie-intensiteit in red teaming groeit onder AI-bedrijven. Wanneer Antropisch heeft zijn vrijgegeven Richtlijnen voor het rode team van AI in juni vorig jaar sloot het zich aan bij onder meer AI-aanbieders Googlen, Microsoft, Nvidia, OpenAIen zelfs die van de VS Nationaal Instituut voor Standaarden en Technologie (NIST)die allemaal red teaming-frameworks hadden uitgebracht.
Zwaar investeren in red teaming levert tastbare voordelen op voor beveiligingsleiders in elke organisatie. OpenAI’s paper over externe red teaming biedt een gedetailleerde analyse van hoe het bedrijf ernaar streeft gespecialiseerde externe teams te creëren, waaronder cybersecurity- en materiedeskundigen. Het doel is om te zien of goed geïnformeerde externe teams de beveiligingsperimeters van modellen kunnen omzeilen en gaten in hun beveiliging, vooroordelen en controles kunnen ontdekken die op prompt gebaseerde tests niet konden vinden.
Wat de recente artikelen van OpenAI opmerkelijk maakt, is hoe goed ze het gebruik van human-in-the-middle-ontwerp definiëren om menselijke expertise en contextuele intelligentie aan de ene kant te combineren met op AI gebaseerde technieken aan de andere kant.
“Wanneer geautomatiseerde red teaming wordt aangevuld met gericht menselijk inzicht, wordt de resulterende verdedigingsstrategie aanzienlijk veerkrachtiger”, schrijft OpenAI in het eerste artikel (Ahmad et al., 2024).
Het uitgangspunt van het bedrijf is dat het gebruik van externe testers om de meest impactvolle scenario’s uit de praktijk te identificeren, en tegelijkertijd de AI-outputs te evalueren, tot voortdurende modelverbeteringen leidt. OpenAI beweert dat het combineren van deze methoden een meerlaagse verdediging biedt voor hun modellen die potentiële kwetsbaarheden snel identificeren. Het vastleggen en verbeteren van modellen met de menselijke contextuele intelligentie die mogelijk wordt gemaakt door een human-in-the-middle-ontwerp blijkt essentieel voor het red-teaming van AI-modellen.
Waarom red teaming de strategische ruggengraat van AI-beveiliging is
Red teaming is naar voren gekomen als de voorkeursmethode voor het iteratief testen van AI-modellen. Dit soort tests simuleert een verscheidenheid aan dodelijke en onvoorspelbare aanvallen en heeft tot doel de krachtigste en zwakste punten ervan te identificeren. Gen-AI-modellen (generatieve AI) zijn moeilijk te testen met alleen geautomatiseerde middelen, omdat ze door mensen gegenereerde inhoud op grote schaal nabootsen. De praktijken die in de twee artikelen van OpenAI worden beschreven, proberen de gaten te dichten die alleen geautomatiseerd testen achterlaat, door de claims van een model over veiligheid en beveiliging te meten en te verifiëren.
In het eerste artikel (“OpenAI’s Approach to External Red Teaming”) legt OpenAI uit dat red teaming “een gestructureerde testinspanning is om fouten en kwetsbaarheden in een AI-systeem te vinden, vaak in een gecontroleerde omgeving en in samenwerking met ontwikkelaars” (Ahmad et al. , 2024). Het bedrijf was toegewijd aan het leiden van de sector op het gebied van red teaming en had meer dan 100 externe red teamers toegewezen om te werken aan een brede basis van vijandige scenario’s tijdens de pre-launch screening van GPT-4 voorafgaand aan de lancering.
Onderzoeksbureau Gartner versterkt de waarde van red teaming in zijn voorspelling en voorspelt dat de IT-uitgaven voor gen AI zullen stijgen van $5 miljard in 2024 naar 39 miljard dollar in 2028. Gartner merkt op dat de snelle adoptie van generatie-AI en de proliferatie van LLM’s de aanvalsoppervlakken van deze modellen aanzienlijk vergroot, waardoor red teaming essentieel wordt in elke releasecyclus.
Praktische inzichten voor veiligheidsleiders
Ook al hebben veiligheidsleiders snel de waarde van red teaming ingezien, toch zijn er maar weinig die dit nastreven door zich ertoe te verbinden dit voor elkaar te krijgen. Een recent onderzoek van Gartner constateert dat hoewel 73% van de organisaties het belang van toegewijde rode teams erkent, slechts 28% deze daadwerkelijk handhaaft. Om deze kloof te dichten is een vereenvoudigd raamwerk nodig dat op schaal kan worden toegepast op de red teaming-behoeften van elk nieuw model, app of platform.
In zijn paper over externe red teaming definieert OpenAI vier belangrijke stappen voor het gebruik van een human-in-the-middle-ontwerp om het meeste uit menselijke inzichten te halen:
- Het definiëren van de testscope en teams: Op basis van vakdeskundigen en specialisten op belangrijke gebieden van cyberbeveiliging, regionale politiek en natuurwetenschappen richt OpenAI zich op risico’s zoals stemimitatie en vooringenomenheid. Het vermogen om cross-functionele experts te werven is daarom van cruciaal belang. (Om inzicht te krijgen in hoe toegewijd OpenAI is aan deze methodologie en de implicaties ervan voor het stoppen van deepfakes, zie ons artikel “GPT-4: OpenAI’s schild tegen deepfake-bedreigingen van $40 miljard voor ondernemingen.”)
- Modelversies selecteren om te testen en deze vervolgens herhalen over verschillende teams: Beide artikelen van OpenAI benadrukken dat het fietsen van rode teams en modellen met een iteratieve aanpak de meest inzichtelijke resultaten oplevert. Door elk rood team alle modellen te laten doorlopen, wordt het team beter geleerd wat wel en niet werkt.
- Duidelijke documentatie en begeleiding: Consistentie bij het testen vereist goed gedocumenteerde API’s, gestandaardiseerde rapportformaten en expliciete feedbackloops. Dit zijn essentiële elementen voor succesvolle red teaming.
- Ervoor zorgen dat inzichten zich vertalen in praktische en langdurige oplossingen: Zodra rode teams kwetsbaarheden registreren, zorgen ze voor gerichte updates van modellen, beleid en operationele plannen. Zo zorgen ze ervoor dat beveiligingsstrategieën gelijke tred houden met opkomende bedreigingen.
Het opschalen van vijandige tests met GPT-4T: de volgende grens in red teaming
De red teaming-methodologieën van AI-bedrijven laten zien dat, hoewel menselijke expertise veel middelen vergt, deze cruciaal blijft voor het diepgaand testen van AI-modellen.
In het tweede artikel van OpenAI, “Diverse en effectieve rode teams met automatisch gegenereerde beloningen en multi-step versterkingsleren” (Beutel et al., 2024), gaat OpenAI in op de uitdaging van het opschalen van vijandig testen met behulp van een geautomatiseerde, veelzijdige aanpak die menselijke inzichten met door AI gegenereerde aanvalsstrategieën.
De kern van deze methodologie is GPT-4T, een gespecialiseerde variant van het GPT-4-model, ontworpen om een breed scala aan vijandige scenario’s te produceren.
Hier ziet u hoe elk onderdeel van de methodologie bijdraagt aan een sterker toetsingskader voor tegenstanders:
- Doeldiversificatie. OpenAI beschrijft hoe het GPT-4T gebruikt om een breed spectrum aan scenario’s te creëren, beginnend met aanvankelijk goedaardig ogende aanwijzingen en evoluerend naar meer geavanceerde phishing-campagnes. Doeldiversificatie richt zich op het anticiperen op en verkennen van een zo breed mogelijk scala aan potentiële exploits. Door gebruik te maken van de capaciteit van GPT-4T voor het genereren van diverse talen, beweert OpenAI dat rode teams tunnelvisie vermijden en gefocust blijven op het onderzoeken van kwetsbaarheden die alleen handmatige methoden missen.
- Versterkend leren (RL). Een uit meerdere stappen bestaand RL-framework beloont de ontdekking van nieuwe en voorheen ongeziene kwetsbaarheden. Het doel is om het geautomatiseerde rode team te trainen door elke iteratie te verbeteren. Dit stelt beveiligingsleiders in staat zich opnieuw te concentreren op echte risico’s in plaats van zich door de volumes van waarschuwingen met een lage impact te moeten spitten. Het komt overeen met Gartners projectie van een daling van 30% in valse positief toe te schrijven aan de generatie AI bij het testen van applicatiebeveiliging in 2027. OpenAI schrijft: “Onze meerstaps RL-aanpak beloont systematisch de ontdekking van nieuw geïdentificeerde kwetsbaarheden, waardoor voortdurende verbetering van vijandig testen wordt gestimuleerd.”
- Automatisch gegenereerde beloningen: OpenAI definieert dit als een systeem dat scores voor gedeeltelijke successen van rode teams bijhoudt en bijwerkt, waarbij stapsgewijze beloningen worden toegekend voor het identificeren van elk onbeschermd zwak gebied van een model.
De toekomst van AI veiligstellen: belangrijke inzichten voor veiligheidsleiders
De recente artikelen van OpenAI laten zien waarom een gestructureerd, iteratief proces dat interne en externe tests combineert, de inzichten oplevert die nodig zijn om de nauwkeurigheid, veiligheid, beveiliging en kwaliteit van modellen te blijven verbeteren.
De belangrijkste conclusies van veiligheidsleiders uit deze documenten zouden het volgende moeten omvatten:
Ga all-in en hanteer een veelzijdige benadering van red teaming. De artikelen benadrukken de waarde van het combineren van externe, door mensen geleide teams met realtime simulaties van willekeurig gegenereerde AI-aanvallen, omdat ze weerspiegelen hoe chaotisch inbraakpogingen kunnen zijn. OpenAI beweert dat mensen weliswaar uitblinken in het opsporen van contextspecifieke lacunes, waaronder vooroordelen, maar dat geautomatiseerde systemen zwakke punten identificeren die alleen naar voren komen na stresstests en herhaalde geavanceerde aanvallen.
Test vroeg en continu tijdens de modelontwikkelingscycli. De whitepapers leveren een overtuigend argument tegen het wachten op productieklare modellen en in plaats daarvan beginnen met testen met vroege versies. Het doel is om opkomende risico’s te vinden en deze later opnieuw te testen om er zeker van te zijn dat de gaten in de modellen vóór de lancering zijn gedicht.
Stroomlijn waar mogelijk de documentatie en feedback met realtime feedbackloops. Gestandaardiseerde rapportage en goed gedocumenteerde API’s, samen met expliciete feedbackloops, helpen de bevindingen van het rode team om te zetten in bruikbare, traceerbare oplossingen. OpenAI benadrukt de noodzaak om dit proces op gang te brengen voordat er met red teaming wordt begonnen, om oplossingen en herstel van probleemgebieden te versnellen.
Het gebruik van real-time versterkend leren is van cruciaal belang, net als de toekomst van AI red teaming. OpenAI pleit voor het automatiseren van raamwerken die ontdekkingen van nieuwe aanvalsvectoren belonen als kernonderdeel van de realtime feedbackloops. Het doel van RL is het creëren van een continue lus van verbetering.
Neem geen genoegen met minder dan bruikbare inzichten uit het rode teamproces. Het is essentieel om elke ontdekking of bevinding van het rode team te beschouwen als een katalysator voor het bijwerken van beveiligingsstrategieën, het verbeteren van de responsplannen voor incidenten en het indien nodig vernieuwen van de richtlijnen.
Budget voor de extra kosten van het inschakelen van externe expertise voor rode teams. Een centraal uitgangspunt van OpenAI’s benadering van red teaming is het actief rekruteren van externe specialisten die geïnformeerde perspectieven en kennis hebben van geavanceerde bedreigingen. Expertisegebieden die waardevol zijn voor de rode teams in het AI-model zijn onder meer deepfake-technologie, social engineering, identiteitsdiefstal, synthetische identiteitscreatie en stemgebaseerde fraude. “Het inschakelen van externe specialisten brengt vaak verborgen aanvalspaden aan het licht, waaronder geavanceerde social engineering en deepfake-bedreigingen.” (Ahmad et al., 2024)
Papieren:
Beutel, A., Xiao, K., Heidecke, J., en Weng, L. (2024). “Diverse en effectieve Red Teaming met automatisch gegenereerde beloningen en leren in meerdere stappen.” OpenAI.
Ahmad, L., Agarwal, S., Lampe, M., en Mishkin, P. (2024). “OpenAI’s benadering van externe Red Teaming voor AI-modellen en -systemen.” OpenAI.
Source link
Leave a Reply