Mbrojtja e agjentëve të bazuar në LLM nga sulmet e prompt injection

Abstrakt Agjentët e kodimit të bazuar në Large Language Model (LLM), si Claude Code, OpenCode, Codex, Cursor, Aider, konsumojnë rregullisht përmbajtje nga interneti gjatë ekzekutimit të detyrave të zhvilluesit. Kjo përmbajtje, që mbërrin përmes veglave si WebFetch ose doc-search, mund të përmbajë edhe instruksione armiqësore të padallueshme nga instruksionet origjinale dhe qëllimmira të përdoruesit. Kjo qasje, tani më e njohur si “indirect prompt injection”, është klasifikuar nga Open Worldwide Application Security Project (OWASP) si rreziku i parë për aplikacionet e bazuara në LLM. Në këtë punim diplome është zhvilluar AgentShield, që paraqet një proxy, apo një man-in-the-middle (MITM) që analizon trafikun HTTP/HTTPS me një LLM të dytë para se përmbajtja të hyjë në kontekstin e agjentit. Arkitektura ndjek katër vendime kryesore. Proxy-i operon jashtë procesit të agjentit me praktika standarde (HTTP_PROXY, NODE_EXTRA_CA_CERTS), që e bën të ndashëm nga çdo agjent specifik. Analizuesi është LLM me kontekst krejt të ndarë nga ai i agjentit, që e mbron në nivel strukture nga vetë-komprometimi. Politika fail-open e shoqëruar me monitorim të dukshëm ruan përvojën e zhvilluesit. Kaskada me tre shtresa (normalizimi i fshehjeve, heuristikat regex, modeli LLM) balancon saktësinë me vonesën. Implementimi mbështet dy provider LLM (Anthropic Claude Haiku 4.5 dhe Google Gemini 2.5 Flash) me abstraksion të provider-it dhe skemë të përbashkët rezultatesh, shton një dashboard React për monitorim të plotë me ndarje vizuale të fail-open-it, dhe e dokumenton sjelljen përmes raporteve të strukturuara përmes një backend-i të ndërtuar me Fastify dhe PostgreSQL. Kontributi kryesor i kësaj teme të diplomës është se modeli proxy MITM përfaqëson kategori të re operacionale që zgjidhjet ekzistuese (Lakera Guard, Microsoft Prompt Shield, Meta Prompt Guard, Rebuff) nuk e mbulojnë: skanim automatik i trafikut nga veglat, pa modifikim te kodi i agjentit. Në punim, po ashtu, e kemi pranuar faktin që kufiri teorik në asnjë arkitekturë e ndërtuar mbi LLM nuk e zgjidh plotësisht problemin strukturor të rrjedhës së vetme të tokenëve, dhe mbrojtjen e propozuar e trajtojmë si defense-in-depth, jo si garanci kriptografike. Fjalë kyçe: prompt injection, LLM, agjent kodimi, proxy MITM, siguri kibernetike, defense-in-depth.

Found an issue? Give us feedback