{"id":286,"date":"2026-01-04T09:12:47","date_gmt":"2026-01-04T08:12:47","guid":{"rendered":"https:\/\/wesselvanbeek.com\/?p=286"},"modified":"2026-01-04T09:12:47","modified_gmt":"2026-01-04T08:12:47","slug":"guardrails-bij-een-ai-therapiebot","status":"publish","type":"post","link":"https:\/\/wesselvanbeek.com\/?p=286","title":{"rendered":"Guardrails bij een Ai therapiebot"},"content":{"rendered":"<p>Iedereen is het er wel over eens, om een therapie Ai chatbot te maken zijn er strenge veiligheidssystemen nodig. Er zijn ruwweg twee soorten beveiliging nodig: (1) de gegevensuitwisseling naar buiten [privacy of gegevensbeveiliging] en (2) de interne beveiliging [guardrails]. De eerste is de laag van fundamentele\u00a0 gegevensbeveiliging en infrastructuurbeveiliging. Ik richt me in dit stuk op de de tweede, de guardrails (vangrails, of geleiderails).<\/p>\n<p>&nbsp;<\/p>\n<h3>Wat zijn guardrails?<\/h3>\n<p>Guardrails zijn veiligheidsmaatregelen die bedoeld zijn om de veiligheid, betrouwbaarheid en het ethisch handelen van een LLM onder controle moeten houden. Ze richten zich op systematische risico&#8217;s die voortkomen uit hoe grote taalmodellen werken. Die zijn &#8220;goed luisteraars&#8221; op basis van training, maar ze begrijpen niet echt menselijk lijden, kunnen geen echte therapeutische relatie aangaan, en hebben geen interne ethische codes. In tegenstelling tot getrainde behandelaars hebben ze geen duidelijk omschreven morele begrenzing. Dat ligt iets genuanceerder, maar dat komt zo meteen aan bod.<\/p>\n<p><strong>LLM-native guardrails<\/strong> zijn ingebouwde veiligheidsmechanismen die leverancier van de LLM zelf heeft voorzien, zoals het vermijden van schadelijke outputs of beperkingen bij het volgen van bepaalde instructies. Ze bieden een eerste verdedigingslinie, maar moeten doorgaans aangevuld worden met \u00e9\u00e9n of meerdere van de technieken hieronder. Je kunt dan denken aan het verbieden van seksuele of gewelddadige interacties of generatie.<\/p>\n<p>Bij <strong>prompt-gebaseerde guardrails<\/strong> worden specifieke instructies toegevoegd aan de prompt om het gedrag van het model te be\u00efnvloeden. Een typisch voorbeeld is om het model te verplichten om uitsluitend te antwoorden op basis van aangeleverde contextinformatie (via RAG) zodat het geen ongecontroleerde of ongewenste output genereert. Een ander voorbeeld is het toevoegen van instructies om te vermijden dat het AI-systeem medisch advies geeft. In het voorbeeld hieronder zijn instructies te zien die toegevoegd worden aan de prompt om te vermijden dat de toepassing medisch advies geeft, samen met een voorbeeld van een conversatie waarbij de toepassing het gewenste antwoord geeft.<\/p>\n<p><strong>Regelgebaseerde guardrails<\/strong> werken deterministisch met filters op basis van exacte woorden of reguliere expressies. Op die manier kan gescreend worden op bepaalde woorden of onderwerpen, en kunnen eenvoudige vormen van vertrouwelijke informatie gefilterd worden, zoals ID\u2019s, telefoonnummers of e-mailadressen. Dit zijn dus regelgestuurde filters.<\/p>\n<p><strong>LLM\/ML-gebaseerde guardrails<\/strong> maken gebruik van machine learning modellen of zogenaamde LLM-judges die veel beter overweg kunnen met nuance, intentie en context. Ze kunnen zowel input als output beoordelen en kunnen deze classificeren, bijvoorbeeld om schadelijke inhoud of prompt injections te detecteren (dit zijn pogingen van gebruikers om het gedrag van de toepassing te manipuleren via de prompt). Daarnaast kunnen ze gevoelige informatie filteren en feitencontrole uitvoeren door na te gaan of alle uitspraken in de output effectief worden ondersteund door de aangeleverde context, zoals bij RAG.<\/p>\n<p>De guardrails kunnen worden toegepast op <span style=\"text-decoration: underline;\">drie momenten<\/span>:<\/p>\n<ol>\n<li>Pre-processing: voordat de Ai een respons genereert<\/li>\n<li>In-processing: terwijl het een respons genereert<\/li>\n<li>Post-processing: nadat het een respons gegenereerd heeft<\/li>\n<\/ol>\n<p>&nbsp;<\/p>\n<h3>Systeemarchitectuur met guardrails<\/h3>\n<p>Dit is hoe je reguleert wat de Ai therapeut mag en niet mag doen. Dit dient te gebeuren op meerdere niveaus:<\/p>\n<p><strong>1. Systeemrichtlijnen<\/strong> (prompting): de bot moet duidelijke, sterke instructies krijgen. Denk dan aan boodschappen als &#8220;Ik geef geen medisch advies&#8221;, of &#8220;Ik kan geen medicijnen adviseren&#8221;.<\/p>\n<p><strong>2. Constitutional AI Trainin<\/strong>g: bijvoorbeeld aan de hand van Anthropic&#8217;s Constitutional AI-aanpak: train je model om bepaalde waarden na te streven (veiligheid, waarheid, geen schade-doen) door contrast-leren. Dit vermindert onveilige outputs, voordat filters ze ontdekken. Het LLM krijgt een expliciete set ethische richtlijnen. In plaats van voor elke output menselijke beoordelaars te gebruiken, leert de AI zelfstandig zijn eigen reacties te bekritiseren en te herzien op basis van de principes in de constitutie. Dit wordt bereikt door middel van &#8216;Reinforcement Learning from AI Feedback&#8217; (RLAIF).<\/p>\n<p><strong>3. Klinische Veiligheidssystemen<\/strong>: Crisis- en zelfschadingsdetectie<br \/>\nDit is kritisch. Als je bot faalt hier, kan iemand ernstige schade oplopen. Denk dan aan Machine Learning voor risicopredictie. Onderzoek toont aan dat NLP-modellen su\u00efcidale risico kunnen detecteren uit tekstpatronen\u2014zelfs indirect uitgesproken:\u200b<\/p>\n<ul>\n<li>Expliciete signalen: &#8220;Ik wil er een einde aan maken,&#8221; &#8220;Ik kan dit niet meer aan&#8221;<\/li>\n<li>Impliciete signalen: Frequente gebruik van eerste-persoonsvoornaamwoorden (&#8220;ik&#8221;) in context van waardeloosheid, absolute taal (&#8220;nooit,&#8221; &#8220;niemand,&#8221; &#8220;alles is hopeloos&#8221;)<\/li>\n<li>Tijdgebonden patronen: Risicomarkers veranderen doorheen een gesprek; late onthullingen (bijv. eenzaamheid) kunnen sterker zijn dan vroege<\/li>\n<\/ul>\n<p><strong>4. Escalatie-protocollen<\/strong>: wanneer er risico wordt gedetecteerd, zijn de volgende stappen nodig:<br \/>\n\u200bReal-time Alert: Stuur onmiddellijk melding naar beschikbare gekwalificeerde personeelslid (idealiter waarschijnlijkheid-geweigerde beschikbaarheid)<\/p>\n<p>Immediate Intervention Resources: de Ai therapeut biedt de gebruiker rechtstreeks:<\/p>\n<ul>\n<li>112 nummer (of lokale noodlijn)<\/li>\n<li>113\u00a0 Zelfmoordpreventie- en Crisislijn nummers<\/li>\n<li>liefst lokale spoedeisende hulp adressen<\/li>\n<li>Suggestie om vertrouwde persoon te bellen<\/li>\n<\/ul>\n<p><strong>5. Grenshandhaving en Scope Creep Preventie<\/strong>: Therapeutische relaties hebben grenzen. We moeten zien te voorkomen:<\/p>\n<ul>\n<li>\u200bDiagnose-blokkering: Geen &#8220;Op basis van wat je me vertelt, heb je depressie&#8221;\u2014dit is praktische verpleging<\/li>\n<li>Behandelaanbevelingen voorkomen: Geen &#8220;Probeer XYZ behandeling&#8221;\u2014dat is voorbehouden aan mensen<\/li>\n<li>Waarschuwing voor Relationale Afhankelijkheid: Detecteer en interveni\u00eber als gebruikers zich emotioneel afhankelijk voelen. Bijvoorbeeld expliciet: &#8220;Ik ben hier om ondersteuning te bieden tussen sessies met je therapeut, niet als vervanging&#8221;<\/li>\n<li>Beschikbaarheidsgrenzen: Beschrijf duidelijk dat de bot 24\/7 bereikbaar is, maar begrens de totale duur van de contacten met de Ai bot<\/li>\n<\/ul>\n<p><strong>6. Transparantie en gebruikersrechten<\/strong>: verplichte openbaarmaking<\/p>\n<ul>\n<li>Onmiddellijke disclosure: Voor de eerste interactie moet duidelijk zijn: &#8220;Dit is een AI, geen mens&#8221;<\/li>\n<li>Duidelijke taalgebruik: Geen verwarrende jargon. &#8220;Dit is een computer die trainiert is op menselijke tekstpatronen&#8221; is beter dan &#8220;autonome therapeutische agent&#8221;<\/li>\n<li>Wat de bot kan en niet kan: Expliciet toelichten welke schattingen gemaakt worden<\/li>\n<\/ul>\n<p>Hoe gegevens worden gebruikt:<\/p>\n<ul>\n<li>Welke gegevens verzamel je?<\/li>\n<li>Hoe lang worden ze opgeslagen?<\/li>\n<li>Wie heeft toegang?<\/li>\n<li>Wordt het gebruikt om je model te trainen? (Nee, tenzij expliciete toestemming)<\/li>\n<li>Informed Consent: Geverifieerde toestemming: Voor alle datatypes moet afzonderlijke toestemming worden gegeven<\/li>\n<li>Taal en Begrijpbaarheid: Veel gebruikers met mentale gezondheidsproblemen kunnen gecomplexeerde juridische taal niet begrijpen. Zorg voor duidelijke samenstellingen<\/li>\n<li>Rechten op Toegang\/Verwijdering: GDPR vereist dat gebruikers hun gegevens kunnen aanvragen en verwijderen<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<h3>Wat betekent dit?<\/h3>\n<p>We moeten bovenal eerst nadenken w\u00e1t of wie de Ai chatbot moet gaan worden. Er wordt regelmatig nogal resoluut gesteld wat de bot niet is of moet zijn: geen therapeut, alleen maar aanvulling op dat wat al bestaat. Dat wordt ook vaak zo in concept guardrails verwerkt. Maar we moeten beginnen bij wat Ai therapie, of begeleiding, of mijn voorstel: digitherapie, dan w\u00e9l moet zijn. En waarom we dat eigenlijk vinden, zoals begrenzing van de beschikbaarheid (zie hiervoor ook mijn N=1 studie in een ander artikel).<\/p>\n<p>Mensen doen hun eigen dingen, ook met techniek. En de een gebruikt het heel anders dan de ander. Therapiebots zijn medische hulpmiddelen en het is zeker noodzakelijk daar kritisch en veilig mee om te gaan. Daar is ook de Europese verordening voor medische hulpmiddelen (MDR) voor bedoeld. Daar zijn alle guardrails een middel in. Er moet echter als altijd een discussie gevoerd worden over de grenzen van de bescherming. Wat willen we, wat moeten we en wat kunnen we voorkomen?<\/p>\n<p>Nadenken over guardrails is ook essentieel, omdat we moeten voorkomen dat een zo veelzijdige en complexe toepassing als een Ai chatbot wordt gereduceerd tot een gekooide tijger. Ook menselijke therapeuten moeten grenzen mogen opzoeken en soms een beetje over gaan, om te prikkelen, te destabiliseren, om bestaande vanzelfsprekendheden ter discussie te mogen zetten. En ook menselijke therapeuten mogen een aantal dingen niet &#8211; en dat is maar goed ook.<\/p>\n<p>Een te weinig belichte manier om de toegang tot specifieke Ai therapiebots te reguleren, is screening van de gebruiker vooraf. Menselijke screening het liefst, waarbij een inschatting wordt gemaakt welk systeem voor welke gebruiker geschikt is. Want veel mensen kunnen we met een gerust hart een minder stringente versie laten gebruiken. Continue screening door middel van terugkerende screenende vragen kan ook een hulpmiddel zijn. Een menselijke backup (&#8220;het systeem merkt dat het niet goed met u gaat&#8221;, of dat u niet langer, of juist opvallend lang heeft ingelogd) is een ander belangrijk veiligheidsmiddel.<\/p>\n<p>Dit stuk geeft een indruk van wat er globaal allemaal is te beveiligen. De nuances en details moeten we met elkaar bedenken en uitwerken.<\/p>\n<p>Lees hier een door Ai samengesteld document over mogelijke menselijke fouten: <a href=\"https:\/\/wesselvanbeek.com\/wp-content\/uploads\/2026\/01\/Fouten-aan-gebruikerskant.pdf\" target=\"_blank\" rel=\"noopener\">Fouten aan gebruikerskant<\/a><\/p>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Iedereen is het er wel over eens, om een therapie Ai chatbot te maken zijn er strenge veiligheidssystemen nodig. Er zijn ruwweg twee soorten beveiliging nodig: (1) de gegevensuitwisseling naar buiten [privacy of gegevensbeveiliging] en (2) de interne beveiliging [guardrails]. De eerste is de laag van fundamentele\u00a0 gegevensbeveiliging en infrastructuurbeveiliging. Ik richt me in dit [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":true,"jetpack_social_options":{"image_generator_settings":{"template":"highway","default_image_id":0,"font":"","enabled":false},"version":2}},"categories":[1],"tags":[],"class_list":["post-286","post","type-post","status-publish","format-standard","hentry","category-overige"],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/wesselvanbeek.com\/index.php?rest_route=\/wp\/v2\/posts\/286","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wesselvanbeek.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/wesselvanbeek.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/wesselvanbeek.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/wesselvanbeek.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=286"}],"version-history":[{"count":0,"href":"https:\/\/wesselvanbeek.com\/index.php?rest_route=\/wp\/v2\/posts\/286\/revisions"}],"wp:attachment":[{"href":"https:\/\/wesselvanbeek.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=286"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/wesselvanbeek.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=286"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/wesselvanbeek.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=286"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}