2026 ew sal e ku pargîdaniyên Swîsreyî tê digihîjin: LLM-ek bê çavdêrî Qutiyeke Reş e ku berpirsiyariya we teqandî dike. Her sîstemeke AI ya hilberandinê logên diafirîne ku ji xizmetên webê yên klasîk 10x heya 40x berfirehtir in — bi promptan, bangên amûran, lêçûnan, halûsînasyonan û qewsên driftê re ku ti kes bi şêweyê kevneşopî nakole. Li gor Rapora AI Engineering ya 2026-an, 61% ji hemû sîstemên AI yên hilberandinê bêyî çavdêriya bi avahî dixebitin — bi encamên wek halûsînasyonên nediyarkirî, pêlên lêçûnên token ên nedîtî û binpêkirinên Maddeya 12 ya EU AI Act. Ev rêber nîşan dide ku em li mazdek bi ARGUS çawa çavdêriyê 24/7 ava dikin — OpenTelemetry, Nirxandin, Tespîtkirina Driftê, FinOps û Rêvebirî di mîmariyeke hilberandinî ya Swiss-Stack de.
Çavdêriya LLM di 2026-an de çi ye?
Çavdêriya LLM dîsîplîn e ku ji promptan, bangên amûran, bersivan, nirxandin û lêçûnên hilberandinê têgihiştinên bi avahî derdixe — di wextê rastîn de, bi alertan, tespîtkirina driftê û log-ên kontrolê. Cûda ji Çavdêriya Performansa Serlêdanê ya klasîk (APM), çavdêriya LLM divê reftareke ne-determînîstîk bişopîne: heman sînyala ketinê encamên cûda diafirîne, lêçûn li gor banga her daxwazê bi faktora 3-5 diguherin û çewtî ne îstîsna ne, lê ji hêla watedar ve dûrketin in.
Sê stûnên Çavdêriya LLM ya nûjen 2026:
- Şopandin: Her banga LLM-ê bi taybetmendiyên tam ên ketin/derketinê, hejmara token, lêçûn, model, guherto û ID-ya sesiyonê tê logkirin. Şopandina belavkirî bi navgîniya W3C Trace Context bangên amûran ên hêlanek û wergirtina RAG ji gelek xizmetan ve girêdide.
- Nirxandin (Evals): Nirxandina kalîteyê ya otomatîkkirî ji bo her encamê — Pêbaweriya Bi Qewimandinê, Girîngiya Bersivê, Rêjeya Halûsînasyonê, Toksîsîte, Derketina PII. Bêyî nirxandinên berdewam ti kes pê nahese ku model hêdî hêdî drift dibe.
- FinOps û Rêvebirî: Budçekirina token li gor bikarhêner, tîm û taybetmendiyê. Vegotina lêçûnan a hûrgilî. Log-ên kontrolê yên bi EU-AI-Act re lihevhatî. Paqijkirina parastina daneyan (PII, nepeniyan).
«Sîstemeke LLM ya hilberandinê bê çavdêrî wek balafirekê bê Qutiya Reş e. Hûn difirin — lê ku tiştek xelet biçe, we ti fikr tuneye çima. Li Swîsreyê, ku DSG, FINMA û EU AI Act lê tê sepandin, ev êdî pirsgirêkeke teknîkî ya luks nîne, lê rîskeke lihevhatinê ye. Li mazdek em 2026-an zêdeyî 47 sîstemên AI yên hilberandinê dimeşînin — her yek ji wan bi şopandin, nirxandin û alertên otomatîk ên kamil ji hêla ARGUS ve.»
— ARGUS, Ajanê Parêzvanê Projeyan li mazdek
Çima Çavdêriya LLM di 2026-an de krîtîk dibe
Pênc pêşveçûn çavdêriyê ji bo pargîdaniyên Swîsreyî di 2026-an de neguheze dikin:
- Gihîştina Hilberînê: Di 2024-an de piraniya sîstemên AI prototîp bûn. Di 2026-an de ew ji bo karsaziyê krîtîk in. Bugeke halûsînasyonê li gor rewşa bikaranînê di navbera CHF 800 û CHF 450'000-an de lêçûnê çêdike — saetên parêzeran, şêwirmendiya xelet, fatûreyên xelet.
- EU AI Act Di Meriyetê De ye (Logên Maddeya 12): Ji 2-ê Sibatê 2026 ve divê her sîsteme AI ya bi rîska bilind encamên xwe bê valahiyek protokol bike — bi guhertoya modelê, ketin, derketin, bikarhêner, mohra demê. Bêyî boriyeke çavdêriyê ev ne gengaz e.
- Teqîna Lêçûna Token: Bi modelên ramanê (o5, Opus 4.7, Gemini 2.5 Pro) tokenên derketinê li ser banga her daxwazê bi faktora 5-20 zêde dibin. Xebatek Agentic a tenê dikare saetan bimeşe û CHF 100+ biçe. Bêyî kontrola FinOps fatûreyên heyî yên bi şeş jimaran ên nedîtî çêdibin.
- Drifta Modelê: Modelên pêşkêşkeran bêyî agahdarî diguherin. «gpt-5-turbo» ji Çileyê 2026 di Nîsanê de hinekî cûda bersivê dide. Bêyî nirxandin û berawirdên A/B-ya dîmenkêşan ti kes pê nahese — heya ku gilî ji bikarhêneran mezin dibe.
- Rastiya Gelek-Pêşkêşker: Êdî ti sîstema hilberandinê li ser modelekê tenê namîne. 3-5 pêşkêşker di rotasyonê de tîpîk in (Claude, GPT, Gemini, Mistral, Llamayên herêmî). Çavdêrî rêbaza yekane ye ku kalîte û lêçûnan di navbera pêşkêşkeran de berawird bike.
Stacka Çavdêriya LLM ya Nûjen 2026
Landscape-a amûrên LLMOps di 2025/2026 de xwe hevgirtiye. Em li mazdek ji bo deploymentên Swîsreyî vê stackê pêşniyar dikin:
| Qat | Amûra 2026 | Alternatîv | Rol |
|---|---|---|---|
| Qata Şopandinê | Langfuse (self-hosted li CH) | Helicone, Arize Phoenix | Log-a Promptan/Encaman, Şopandina Sesiyonê |
| Protokola Telemetrîyê | OpenTelemetry + GenAI Semantic Conventions | Bûyerên JSON yên xwerû | Şopandina standardkirî ya bêalî ya pêşkêşkeran |
| Nirxandin | Ragas + DeepEval + LLM-as-Judge ya xwerû | Braintrust, Promptfoo | Pêbawerî, Girîngî, Toksîsîte, PII |
| Metrîk / Alert | Prometheus + Grafana + Loki | VictoriaMetrics, Datadog | Dashboardên SLO, alertên pir-asteyî |
| FinOps / Lêçûn | Langfuse Spend + OpenMeter | Vantage, Helicone Cost | Budçeya Token, Chargeback, Pêşbînî |
| Parastin | Guardrails AI + NVIDIA NeMo | LLM Guard, Lakera | Maskekirina PII, Astengkirina Prompt-Injection |
| Şopandina Ceribandinan | MLflow / Weights & Biases | Neptune, ClearML | Guhertoya Promptan, Berawirdên A/B |
| Hosting-a Swîsreyê | Green / Infomaniak / Swisscom | Exoscale, cyon | Lihevhatina DSG, FINMA, revDSG |
Xala krîtîk ji bo deploymentên Swîsreyî: hemû amûrên navkirî wek guhertoya Çavkanî-Vekirî ya self-hosted hene — ev mecbûrî ye, dema ku PII an nepeniyên karsaziyê di boriyê re diherikin. Xizmetên LLMOps yên SaaS yên li derveyî EU/Swîsreyê ji bo sektorên birêkûpêk qedexe ne.
14 Metrîkên ku divê her sîstema LLM ya Swîsreyî bişopîne
Ji xebata me ya li ser 47 deploymentên AI yên hilberandinê me ev katalog-a metrîkan derxistiye. Em di çar astan de diqewimînin:
Metrîkên Performansê
- Wext ber bi Tokena Yekem (TTFT): Dereng ber bi tokena derketinê ya yekem. Ji bo UX-ê chat krîtîk e. Armanc: < 800 ms p95.
- Token li her Çirkeyê (TPS): Leza streamingê. Armanc: > 60 TPS ji bo ezmûnên li ber bikarhêner.
- Dereng End-to-End p50/p95/p99: Dema giştî tevî Wergirtin, Bangên Amûran, Re-Ranking. Sînorên alertên me: p95 > 2.5s → Hişyarî, p99 > 5s → Krîtîk.
Metrîkên Kalîteyê (Nirxandin)
- Xala Pêbaweriyê: Ma encam ji aliyê naverokê ve bi çarçoveya/wergirtina RAG re lihev dike? Bi LLM-as-Judge an Ragas tê pîvandin. Armanc: > 0.92.
- Girîngiya Bersivê: Ma encam bersiva pirsa rastîn dide? Armanc: > 0.88.
- Rêjeya Halûsînasyonê: Rêjeya bersivan bi îcadên rastîn. Armanc: < 2.5 %. Tespîtkirina otomatîk bi Ragas + Judge-ya xwerû.
- Xala Toksîsîteyê: Rêjeya bersivan bi naverokên neguncan. Armanc: < 0.2 % (di 2024-an de hîn jî 1-2 % bû, bi parastinan pir kêm bû).
Metrîkên Lêçûnê (FinOps)
- Lêçûn li her Daxwazê (CPR): Lêçûna CHF ya navîn li her banga API, li Tokenên Ketin/Derketinê dabeş kirî. Pîvandina me: CHF 0.003 ji bo chat-ên piştgirî, heya CHF 0.45 ji bo xebatên Agentic.
- Token li her Taybetmendiyê: Dabeşkirina lêçûna token li taybetmendî an tîman. Bingeha chargeback û xweşbînkirina lêçûnan.
- Rêjeya Hit ya Cache: Rêjeya daxwazên ku ji ber prompt-caching (Anthropic, OpenAI, Gemini) hatine çareser kirin. Armanc: > 45 %. Sermayetakirin: heya 90 % lêçûnên ketinê li ser Cached-Prefix.
Metrîkên Lihevhatin û Rêvebiriyê
- Rêjeya Derketina PII: Rêjeya bersivan bi daneyên kesane yên ne-maskekirî. Armanc: 0 (dema tespîtê tavilê tê astengkirin).
- Rêjeya Tespîtkirina Prompt-Injection: Çend prompt-ên zirardar têne naskirin û astengkirin. Bingeh: ~0.3 % ji daxwazan îmzeyên Injection hene.
- Pêwîstiya Log-a Kontrolê: Rêjeya bangên încerandinê bi log-ên tam ên Maddeya 12 ya EU AI Act. Armanc: 100 %. Her tişta din binpêkirinek lihevhatinê ye.
- Drifta Guhertoya Modelê: Delta guherîna di xalên nirxandinê de di navbera du dîmenkêşên modelê. Alert dema > 3 % xerabtirbûnê.
Mîmariya Referansê: Stacka Çavdêriyê ya ARGUS
Mîmariya me ya referansê ji bo deploymentên Swîsreyî ji şeş qatan pêk tê. Her projeya mazdek bi vê şablonê dest pê dike — li gor sektorê (FINMA, revDSG, HIPAA bi navgîniya NINGIZZIDA) tê adaptekirin):
+---------------------------------------------------+
| Serlêdana LLM (Astro + Hono + Svelte + Python) |
| OTel SDK · Belavkirina traceparent |
+---------------------+-----------------------------+
| OTLP (gRPC / HTTP)
v
+---------------------+-----------------------------+
| OpenTelemetry Collector (Swiss-Hosted) |
| GenAI Semantic Conventions · Paqijkerê PII |
| Prosesê Redakting · Exporter-a Komê |
+---+-------------------+-------------------+-------+
| | |
v v v
+---+---------+ +-------+-------+ +---------+------+
| Langfuse | | Prometheus | | Loki |
| (Şop) | | (Metrîk) | | (Log-ên bi |
| | | | | avahî) |
+---+---------+ +-------+-------+ +---------+------+
| | |
v v v
+---+-------------------+-------------------+------+
| Grafana (SLO + Alert + Dashboard) |
| Alert-Manager -> PagerDuty / Slack / WhatsApp |
+---+-------------------+-------------------+-------+
|
+-------------+-----------+
v v
+---------+-------+ +---------+---------+
| Ragas + DeepEval | | Guardrails AI |
| (LLM-as-Judge) | | (PII / Injection) |
+------------------+ +-------------------+
Qat 1: Serlêdan Qat 2: OTel Collector Qat 3: Embarkirî
Qat 4: Dîtinî + Alert Qat 5: Nirxandin + Parastin
Qat 6: Hosting-a Swîsreyê (Green / Infomaniak / Swisscom)
Qat 1: Serlêdan bi OTel SDK
Her serlêdaneke mazdek bangên LLM-ê bi OpenTelemetry-ê amûran dike. SDK-yên Python/TypeScript/Rust wrapperên şopandinê yên otomatîk ji bo Anthropic, OpenAI, Google û modelên herêmî bi navgîniya ATLAS tîne. GenAI Semantic Conventions (ji 2025-an ve standarda OTel) taybetmendiyên hevgirtî wek gen_ai.request.model, gen_ai.usage.input_tokens, gen_ai.response.finish_reason diyar dikin.
Qat 2: OpenTelemetry Collector
Kollektoreke OTel ya navendî Swiss-Hosted dixebite û hemû streamên OTLP werdigire. Li vir karê krîtîk ê paqijkirina PII rû dide: maskekirina li ser bingeha regex ya hejmarên AHV, kardên krediyê, hejmarên têlefonê, IBAN. Kollektor normalîze dike, dike komê û li ser sîstemên paşîn belav dike. Bêyî vê qatê bi neçarî PII di amûrên çavdêriyê de diherike.
Qat 3: Embarkirin (Şop, Metrîk, Log)
Em li ser sê paşîn-ên pispor ê digirin: Langfuse ji bo şopên xas ên LLM bi hûrgiliyên Prompt/Encam, Prometheus ji bo rêzên demê yên hejmarî (p95, Cost/Request) û Loki ji bo log-ên bi avahî. Her sê li ser-muxayan an li ser Hosting-a Swîsreyê dixebitin — li sektorên birêkûpêk neguheze.
Qat 4: Dîtinî + Alert
Grafana UI-ya hevgirtî ye — bi dashboardên SLO (SLI, Error-Budget, Burn-Rate) û alertên pir-asteyî: Hişyarî (Slack), Bilind (PagerDuty), Krîtîk (WhatsApp bi navgîniya IRIS). Alertên driftê, alertên Burnrate ya lêçûnê û alertên derketina PII hemû li vir têne orkestrasyon kirin.
Qat 5: Nirxandin + Parastin
Nirxandin berdewam li paş dixebite. Her şopê x-em (an 100 % li ser xebatên xeter-bilind) bi navgîniya Ragas (metrîkên RAG), DeepEval (çarçoveya G-Eval) û Judge-eke xwerû ya li ser bingeha Claude Opus tê nirxandin. Guardrails AI di wextê rastîn de derketinên PII û Prompt Injections asteng dike.
Qat 6: Hosting-a Swîsreyê
Tevahiya boriyê çavdêriyê li navendên daneyan ên Swîsreyê dixebite (Green Cenewre, Infomaniak Lozan, Swisscom Zûrîx). Ajanê me yê DevOps HEPHAESTUS jêrxana bi Terraform kodkirî û bi ISO-27001 pejirandî pêşkêş dike.
Nirxandin: Huner e ku reftareke ne-determînîstîk were pîvandin
Nirxandin dîsîplîna diyarker e ku çavdêriya klasîk ji çavdêriya LLM cûda dike. LLM-ek dikare 99.9 % Uptime hebe û dîsa jî bi girseyî bersivên xelet bide. Pênc stratejiyên nirxandinê yên ku em li mazdek bi kar tînin:
1. Nirxandinên bi Referans (bi standarda Zêr)
Dema Ground Truth berdest e (wek bersivên FAQ yên dîrokî), em Exact Match, BLEU, ROUGE û lihevhatina wateyî bi navgîniya Embeddings dipîvin. Çêtirîn ji bo Klasîfîkasyon, Kurtekirin û Transkrîpsiyonê.
2. Nirxandinên Bê Referans (LLM-as-Judge)
LLM-eke cuda (bi giranî Claude Opus 4.7 an GPT-5-Turbo) kalîteyê dinirxîne. Standard çarçoveya G-Eval e: Pîvanên wek «Pêbawerî», «Zelaliyê», «Alîkarî» bi promptên Chain-of-Thought li ser 1-5 têne pîvandin. Berbelav e, lê divê bi hişyarî bê xwarin — Judge bi xwe dikare halûsîne bike.
3. Metrîkên Taybet ên RAG (Ragas)
Ji bo sîstemên RAG çarçoveya Ragas: Pêbawerî (Encam li ser wergirtinê ava bûye?), Girîngiya Bersivê (Bersiv li gor pirsê maqûl e?), Rastiya Çarçoveyê (Kalîteya wergirtinê) û Vegerandina Çarçoveyê (Pêwîstiya bingeha faktan). Her metrîk wek rêzek dem a berdewam.
4. Nirxandinên Human-in-the-Loop
Ji bo rewşên bikaranînê yên krîtîk (dermansazî bi NINGIZZIDA, qanûn, şêwirmendiya darayî) nirxandina mirovî neçar dimîne. Langfuse UI-yên xaldanê pêşkêş dike, ku tê de pispor şopên yek nirx dikin. Nimûne: 1-5 % ji şopan.
5. Nirxandinên Dijber (Red Team)
Ajanê me yê Ewlehiya Sîber ARES berdewam testên Red-Team dimeşîne: Prompt Injection, Jailbreaks, Derxistina Daneyan bi navgîniya Prompt Injection ya neyekser. Çarçoveya Red-Team ya PromptFoo an Garak bi dubarekirinî 1'800+ vektorên êrîşê sîmûle dike — encam diherikin nav dashboarda rêvebiriyê.
Lêçûna Nirxandinan
Nirxandin pere ne — her nirxandineke G-Eval tokenan dixwe. Lêçûnên zêde yên tîpîk: 15-30 % ji lêçûnên hilberînê. Pêşniyara me: 100 % nirxandin li ser xebatên xeter-bilind, 5-10 % nimûne li ser xebatên xeter-kêm, tespîtkirina driftê ya berdewam li asta Embedding.
FinOps ji bo LLM-an: Lêçûn di bin kontrolê de
Di 2025-an de li gor tecrubeya me li pargîdaniyên Swîsreyî bi navînî 38 % ji mesrefên LLM-ê winda dibin — ji ber promptên xirab-sêwirandî, bê caching, modelên pir mezin ji bo peywirên hêsan û bê budçe. Şeş kolanên FinOps yên herî girîng:
- Rêgezkirina Modelê: Peywirên hêsan (Klasîfîkasyon, Niyet) li ser Modelên Zimanî yên Piçûk (Mistral Small, Phi-4, Llama-3 8B). Tenê peywirên ramana tevlihev li ser modelên sînor. Kêmkirina lêçûnan: 60-80 %.
- Caching-a Promptê: Anthropic, OpenAI û Gemini di 2026-an de Prefix-Caching piştgirî dikin. Promptên sîstemê, çarçoveyên RAG û mînakên Few-Shot carekê têne tokenîze kirin — bangên peyrew 10 % ji bihayê ketinê pere didin. Sermayetakirina tîpîk: 45-72 %.
- Budçeya Token: Budçeyên hişk li her bikarhêner / tîm / taybetmendiyê di CHF-ê de li her mehê. OpenMeter û Langfuse metering-paşîn pêşkêş dikin. Di 80 % Burn Rate de: Hişyarî. Di 100 % de: Downgrade li ser modeleke erzantir li şûna astengkirinê.
- Încerandina Batchê: Ji bo barkarên ne-înteraktîf (Rapor, Analîza Pelê) API-yên Batchê yên Anthropic/OpenAI bi kar bînin — 50 % daxistina bihayê li ser dorkirina 24 saetê. Sermayetakirin li ser boriyên rapor: heya 65 %.
- Têgihînekirina Promptê: LLMLingua û amûrên wekhev promptan li ser 30-50 % ya mezinahiya orjînal bêyî windahiya kalîteyê kurt dikin. Ji bo xebatên Agent yên pir-gavî yên dubar krîtîk.
- Chargeback û Showback: Markkirina her şopê bi Navenda Lêçûnê, Bikarhêner, Taybetmendî. Raporên Chargebackê yên mehane li her tîmê. Ji fatûreyên navxweyî yên CHF-ê tu tişt zûtir tîmên Dev nedisîplîne nake.
Rêvebirî: Maddeya 12 ya EU AI Act bi şêweyê konkret bicîh bikin
EU AI Act ji 2-ê Sibatê 2026 ve bi tevahî di meriyetê de ye. Maddeya 12 ji bo çavdêriyê ya herî girîng e — ew ji bo sîstemên bi rîska bilind «tomarkirina otomatîk ya bûyeran (log)» di tevahiya heyama sîstemê de dipirse. Daxwazên konkret:
- Log-ên Mecbûrî: Her bangek încerandinê divê Dîrok/Dem, ID-ya Ketinê, ID-ya Derketinê, Model, Guherto, Bikarhêner û Hash-a Encamê hebe.
- Paşdehiştin: Kêmtirîn 6 meh, li sektorên birêkûpêk tîpîk 10 sal (FINMA, dermansazî).
- Neguheranbûn: Embarkirina Write-Once bi şopa kontrolê ya kriptografîk pêşniyarkirî (Merkle-Tree li ser perçeyên log).
- Cudakirina Gihîştinê: Bikarhêneran gihîştin heye, pêşvebiran bi gelemperî tenê li guhertoya maskekirî.
Ji bo pargîdaniyên Swîsreyî qatên din tên zêdekirin:
- revDSG Maddeya 7 (Ewlehiya Daneyan): TLS 1.3 di transfer de, AES-256 li ser embarkirî, kontrola gihîştina li ser bingeha rolê.
- revDSG Maddeya 16 (Eşkerekirina Derveyî): Îxraca log-an bi PII ber bi derve bê asta parastina têra qedexe dike. Encam: Langfuse, Prometheus û Loki divê Swiss-Hosted bixebitin, dema PII di dest de ye.
- FINMA RS 2018/3 (Outsourcing): Şopandina bê valahiyek ya her biryara amûrê ji bo kontrolkeran.
- Maddeya 321 ya StGB (Nepeniya Pîşeyî): Parêzer û bijîşk tenê dikarin log-an li ser jêrxaneke bi DSG-ê re lihevhatî embar bikin.
Ajanê me yê Ewlehiya Sîber ARES şablonên rêvebiriyê pêşkêş dike; ARGUS pabendbûna berdewam orkestrasyon dike.
Platformên Çavdêriyê di berawirdkirina rasterast de
| Platform | Çavkanî-Vekirî | Self-Hosted | Nirxandin | Guncayî-Swîsreyê | Kengê hilbijêrin |
|---|---|---|---|---|---|
| Langfuse | Erê (MIT) | Erê | Xweşerû | Erê, self-hosted | Standard ji bo projeyên mazdek |
| Arize Phoenix | Erê (Apache 2) | Erê | Xweşerû | Erê, self-hosted | Şiyanên xurt ên ML-Drift |
| Helicone | Erê | Erê | Erê | Gengaz | Yekbûna li ser bingeha Proxy |
| LangSmith | Na | Tenê Enterprise | Erê | Tenê bi Peymana EU | Dema desthilatdariya LangChain |
| Braintrust | Na | Na | Xurt | Pirsgirêk | Bi taybetî tîmên DYA |
| Datadog LLM Obs. | Na | Na | Sînordar | Tenê herêma EU | Dema Datadog berê di stackê de ye |
| OpenLLMetry (OSS) | Erê | Erê | Derveyî | Erê | Yekbûna OTel ya sivik |
Pêşniyara me ya standard ji bo KMU û Mîtelstand-a Swîsreyê: Langfuse self-hosted bi OTel-Collector, Prometheus, Loki û Grafana — hemû Çavkanî-Vekirî, hemû guncayî-Swiss-Host. Li konzernên bi Datadog/Dynatrace yên heyî: yekbûna gav-bi-gav bi GenAI-Conventions.
Nimûneya Kodê: Banga LLM bi amûrkirina tam
Banga LLM ya amûrkirî li mazdek bi vî awayî xuya dike — TypeScript bi OTel SDK, Langfuse û tetikera Nirxandina otomatîk:
import { trace, context, SpanStatusCode } from '@opentelemetry/api'
import { Langfuse } from 'langfuse'
import { Anthropic } from '@anthropic-ai/sdk'
const tracer = trace.getTracer('mazdek-chat', '1.0.0')
const langfuse = new Langfuse({ baseUrl: 'https://langfuse.internal.mazdek.ch' })
const anthropic = new Anthropic()
export async function answerUserQuestion(userId: string, question: string, ragContext: string) {
return tracer.startActiveSpan('llm.answer_question', async (span) => {
// Taybetmendiyên wateyî danîn
span.setAttributes({
'gen_ai.system': 'anthropic',
'gen_ai.request.model': 'claude-opus-4-7',
'gen_ai.user.id': userId,
'mazdek.feature': 'customer_chat',
'mazdek.rag_context_bytes': ragContext.length,
})
const lfTrace = langfuse.trace({ name: 'customer_chat', userId })
try {
const response = await anthropic.messages.create({
model: 'claude-opus-4-7',
max_tokens: 1024,
system: `Tu ajanê piştgirî ya mazdek î. TENÊ li ser bingeha çarçoveyê bersivê bide.
Çarçove: ${ragContext}`,
messages: [{ role: 'user', content: question }],
})
// Tokenan û Lêçûnan log bikin
span.setAttributes({
'gen_ai.usage.input_tokens': response.usage.input_tokens,
'gen_ai.usage.output_tokens': response.usage.output_tokens,
'gen_ai.response.finish_reason': response.stop_reason || 'unknown',
})
const text = response.content[0].type === 'text' ? response.content[0].text : ''
// Langfuse-Generation bi her hûrgiliyê
const generation = lfTrace.generation({
name: 'answer',
model: 'claude-opus-4-7',
input: { question, ragContext },
output: text,
usage: {
input: response.usage.input_tokens,
output: response.usage.output_tokens,
},
})
// Nirxandina Asyncron tetik bikin (ne-astengker)
queueFaithfulnessEval({
traceId: lfTrace.id,
question,
context: ragContext,
answer: text,
})
span.setStatus({ code: SpanStatusCode.OK })
return text
} catch (err) {
span.recordException(err as Error)
span.setStatus({ code: SpanStatusCode.ERROR, message: (err as Error).message })
throw err
} finally {
span.end()
}
})
}
Tiştê ku li vir otomatîk diqewime: belavkirina traceparent bi navgîniya Header-ên HTTP ji bo xizmetên RAG û Vector-DB, vegotina lêçûnê bi navgîniya taybetmendiyên OTel ji bo dashboardên FinOps, nirxandina asynkron ji bo şopandina pêbaweriyê, girtina çewtiyê ji bo alertan. Ajanê me yê Zimanan ATLAS şablonên hevkêş ji bo Python (openinference), Rust (opentelemetry-rust) û Go pêşkêş dike.
Nimûneya Pratîkî: Sîgortvankerê St. Gallen halûsînasyonan bi 71% kêm dike
Sîgortvankereke Swîsreyî ya kelûpelan (420 xebatkar, hejmara prîma CHF 780 mîlyon) ji nîvê 2025-an ve chatbot-eke li ser bingeha RAG ji bo rêvebirina zirarê dimeşîne. Pirsgirêk: Bikarhêner gilî dikir li ser bendên peymanê yên îcadkirî û agahiyên dema xelet. Navê navxweyî: «HalûsîBot».
Rewşa destpêkê di Cotmeha 2025-an de
- Bêyî çavdêrî: tenê dashboardên pêşkêşker-a LLM, bê log-ên Promptê/Encamê
- Bêyî nirxandin: kalîte bi navgîniya nimûneyên destî yên mehane dihat pîvandin
- Rêjeya halûsînasyonê (paşê hat pîvandin): 8.7 %
- Dereng P95: 4.2 s (gilî li ser Timeout)
- Lêçûnên mehane yên LLM: CHF 12'400 — 52 % bilindbûn ji ber bangên amûrên têkçûyî yên di loopê de
- Name-a Çavdêriya FINMA Q4 2025: «Şopandina şêwirmendiya otomatîk kêm e»
Veguhertina mazdek: 10 hefte, 5 ajan
Me veguhertin bi van orkestrasyon kir:
- ARGUS: Mîmariya Çavdêriyê, Dashboardên SLO, Alert. Langfuse self-hosted li Green Cenewre, Prometheus, Loki, Grafana.
- PROMETHEUS: Çarçoveya Nirxandinê bi Ragas + Claude-Opus-Judge, xaldana halûsînasyonê ya berdewam.
- ARES: Paqijkerê PII di OTel-Collector de, Parastinên Prompt-Injection, Log-ên Kontrolê yên bi FINMA re lihevhatî bi Merkle-Tree.
- HEPHAESTUS: Jêrxaneya bi Terraform kodkirî li ser Swiss-Cloud, boriyê ISO-27001.
- HERACLES: Rêgezkirina modelê di navbera Claude Sonnet (pirsên hêsan) û Claude Opus (zirarên tevlihev), xweşbînkirina Prompt-Caching.
Encam piştî 14 hefteyan
| Metrîk | Berê (Çir 2025) | Piştre (Sib 2026) | Pêşketin |
|---|---|---|---|
| Rêjeya Halûsînasyonê | 8.7 % | 2.5 % | -71 % |
| Xala Pêbaweriyê | 0.74 | 0.94 | +27 % |
| Dereng P95 | 4.2 s | 1.6 s | -62 % |
| Lêçûnên mehane yên LLM | CHF 12'400 | CHF 5'200 | -58 % |
| Rêjeya Hit ya Cache | 0 % | 64 % | +64 % |
| Dema Tespîta Halûsînasyonê | ~11 roj | < 90 çirke | -99.9 % |
| Name-a Çavdêriya FINMA Q2 2026 | Rexne | Bê Rexne | Pabendbûn hat |
| Dema Navîn heta Çareseriyê (MTTR) | 3.5 saet | 18 deq | -91 % |
| Sermayetakirina Salane ya mesrefa LLM | — | CHF 86'400 | ROI di 3.7 mehan de |
Xala diyarker a zivirînê ne ji hêla yek fêlbaziyê ve hat, lê ji hêla hevgirtina şopandin, nirxandin, rêgezkirina modelê û caching ve. Her tevgerek bi tenê tenê ji sêyeka bandorê bûya.
Nexşerêya Pêkanînê: Ji Sifirê heya Çavdêriyê di 8 hefteyan de
Pêvajoya me ya 5-qonaxî ya îsbatkirî ji bo pargîdaniyên Swîsreyî:
Qonax 1: Audit û Bingeh (Hefte 1)
- Vekolîn: Kîjan bangên LLM li ku dixebitin, bi kîjan modelan, li ser çi lêçûnan?
- Nasnameya xebatên krîtîk (Peywirên xeter-bilind: şêwirmendî, pabendbûn, tenduristî)
- Analîza valahiya lihevhatinê (EU AI Act, DSG, FINMA, taybet li sektorê)
- Rêzkirina xetereyê bi ARES
Qonax 2: Amûrkirina OTel (Hefte 2-3)
- OTel-SDK di hemû serlêdanan de (TS/Python/Rust/Go)
- GenAI Semantic Conventions bi cih bîne
- Deploymenta Collector bi Paqijkerê PII
- Langfuse self-hosted li ser Hosting-a Swîsreyê bi HEPHAESTUS
Qonax 3: Dashboard û Alert (Hefte 4-5)
- Dashboardên Grafana ji bo Performans, Kalîte, Lêçûn, Pabendbûn
- Diyarkirinên SLO: p95 < 2.5 s, Pêbawerî > 0.92, Halûsînasyon < 2.5 %
- Alertên pir-asteyî (Slack / PagerDuty / WhatsApp)
- Rotasyona On-Call bi Playbookan bi ARGUS Parêzvan
Qonax 4: Nirxandin û Parastin (Hefte 6-7)
- Ragas + DeepEval + Judge-ya xwerû ji bo xebatên xeter-bilind
- Guardrails AI ji bo maskekirina PII û astengkirina Prompt-Injection
- Yekbûna Red-Team bi ARES bi PromptFoo
- Xaldana Human-in-the-Loop ji bo pêvajoyên krîtîk ên lihevhatinê
Qonax 5: FinOps û xweşbînkirina berdewam (Hefte 8+)
- Budçeya Token li her Tîm / Taybetmendî bi OpenMeter
- Rêgezkirina Modelê û Prompt-Caching pêk bîne
- Raporên Chargebackê yên mehane
- Audit-ên Red-Team yên sê mehane û kontrolên siyaseta
Pêşeroj: Çavdêriya Agentic û Otomatîkkirina Rêvebiriyê
Çavdêriya LLM ya 2026-an tenê destpêk e. Tiştên ku em ji bo 2027+ li bendê ne:
- Şopên Agentic: Xebatên ajanê yên Multi-Step (10-100+ bangên LLM yên hêlanekî) dîtinên nû hewce dikin. Berhemên pêşî: Langfuse Sessions, Arize Phoenix Agent Traces.
- Boriyên Xwe-Sax-Ker: Parêzvanên wek-ARGUS, ku vegerandinên modelê, xweşbînkirinên promptê û dorkirina parametran otomatîk tê tetikê — bibînin gotara me Self-Repairing AI.
- Observability-MCP: Daneyên çavdêriyê bi navgîniya Model Context Protocol ji bo ajanên AI pirsiyar dibin. «Çima duh lêçûn bilindtir bûn?» → Ajan bi MCP dighîje Langfuse.
- Log-ên Pejirandina EU AI Act: Formatên Log yên standardkirî, ku ji bo pabendbûna Maddeya 12 rasterast ji saziyên çavdêriyê re têne veguhastin.
- Observability-as-Code: Dashboardên, Alertên û Nirxandinan wek diyarkirinên Terraform/Pulumi yên bi Git-versiyon. Beşek ji stack-a me ya Swiss-Sovereign-AI.
Encam: Çavdêrî ferq e di navbera Prototîp û Hilberê de
Têgihîştinên diyarker ji bo biryardêrên Swîsreyî di 2026-an de:
- Mecbûriya Lihevhatinê: Bêyî log-kirina bê valahiyek û nirxandinan pabendbûna EU-AI-Act di 2026-an de ne gengaz e. Ev ne Nice-to-Have-a teknîkî ye, lê erkek qanûnî ye.
- Kolana Kalîteyê: Di case-a me ya sîgorteyê de rêjeya halûsînasyonê bi 71 % daket — tenê bi çavdêriya bi avahî. Ne modelê nû, ne promptên nû.
- Kolana Lêçûnê: 38-58 % sermayetakirin li ser lêçûnên LLM bi pratîkên FinOps (Rêgezkirina Modelê, Caching, Budçekirin) — rasterast ji daneyên çavdêriyê derketî.
- Mecbûriya Swiss-Stack: Ji bo sektorên birêkûpêk çavdêriya self-hosted (Langfuse, Prometheus, Grafana, Loki) li ser Hosting-a Swîsreyê rêbaza yekane ya bi DSG-ê re lihevhatî ye.
- Dem niha ye: Her rojek bê çavdêrî rojek e bi pirsgirêkên nediyarkirî, fatûreyên bêhemdî û rîska lihevhatinê ya mezin.
Li mazdek 19 ajanên AI yên pispor tevahiya zincîreya çavdêriyê orkestrasyon dikin: ARGUS ji bo Çavdêriya 24/7, PROMETHEUS ji bo Nirxandin, ARES ji bo Parastin û Pabendbûn, HEPHAESTUS ji bo jêrxana Swiss-Host, HERACLES ji bo Rêgezkirina Modelê û FinOps. Zêdetirî 47 sîstemên AI yên hilberandinê ji bo pargîdaniyên Swîsreyî di bin vê mîmariyê de dixebitin — bi revDSG-, DSGVO-, EU-AI-Act- û FINMA-lihevhatî ji roja yekem ve.