Çavdêriya LLM çi ye û çima di 2026-an de krîtîk e?

Çavdêriya LLM dîsîplîn e ku ji promptan, encaman, nirxandinan û lêçûnên hilberandinê têgihîştinên wextê-rastîn ên bi avahî derdixe. Di 2026-an de krîtîk e, ji ber ku EU AI Act Maddeya 12 log-ên bê valahiyek ji bo sîstemên bi rîska bilind dipirse, modelên ramanê lêçûnan pêncê dikin û 61% ji sîstemên hilberandinê bê çavdêrî halûsînasyonên nediyarkirî diafirînin.

Kîjan metrîk divê her sîstema LLM ya Swîsreyî bişopîne?

Herî kêm 14 metrîk di çar kom de: Performans (TTFT, TPS, derengiya p50/p95/p99), Kalîte (Pêbawerî, Girîngiya Bersivê, Rêjeya Halûsînasyonê, Toksîsîte), Lêçûn (Lêçûn li her Daxwazê, Token li her Taybetmendiyê, Rêjeya Hit ya Cache) û Pabendbûn (Derketina PII, Tespîtkirina Prompt-Injection, Pêwîstiya Log-a Kontrolê, Drifta Guhertoya Modelê).

Kîjan platforma çavdêriyê ji bo pargîdaniyên Swîsreyî çêtirîn e?

Pêşniyara me ya standard: Langfuse self-hosted li ser Hosting-a Swîsreyê (Green, Infomaniak, Swisscom) bi Collector-a OpenTelemetry, Prometheus, Grafana û Loki ve girêdayî. Hemû pêkhate Çavkanî-Vekirî û bi DSG-, FINMA- û EU-AI-Act-ê re lihevhatî. Ji bo Arize Phoenix û Helicone jî self-hosted derbasdar e; LangSmith û Braintrust tenê bi Peymana EU û bi hişyarî.

Çavdêrî çiqas li ser lêçûnên LLM sermaye dike?

Tîpîk 38-58%. Kolanên: Rêgezkirina Modelê (peywirên tevlihev li ser sînor, hêsan li ser SLM-an, -60%), Caching-a Promptê (-45 heta -72% lêçûnên ketinê li ser Prefixên dubar), Budçeya Token bi Downgrade-a otomatîk, API-yên Batchê ji bo peywirên ne-înteraktîf (-50%) û Têgihînekirina Promptê bi LLMLingua. Di Case-a Xwendina mazdek de: CHF 86 400 sermayetakirina salane.

EU AI Act Maddeya 12 ji bo log-ên LLM çi dixwaze?

Ji 2-ê Sibatê 2026 ve divê her sîsteme bi rîska bilind otomatîk log bike: Dîrok/Dem, ID-ya Ketinê, ID-ya Derketinê, Model, Guherto, Bikarhêner, Hash-a Encamê. Paşdehiştin kêmtirîn 6 meh, li FINMA/dermansaziyê tîpîk 10 sal. Embarkirina Write-Once ya neguheran bi şopa kontrolê ya Merkle-Tree pêşniyarkirî. Cudakirina gihîştinê di navbera Bikarhêner û Pêşvebiran de mecbûrî.

Halûsînasyon çawa bi çavdêriyê têne kêmkirin?

Hevgirtina: (1) xaldana pêbaweriyê ya berdewam bi Ragas an LLM-as-Judge, (2) Alertên Driftê di xerabtirbûnê de, (3) Guardrails AI ji bo PII û Injection, (4) Nimûneya Human-in-the-Loop ya xebatên krîtîk. Di Case-a Sîgortvankerê St. Gallen de rêjeya halûsînasyonê ji 8.7% daket 2.5% (-71%) di 14 hefteyan de.

Çavdêriya LLM 2026: Çavdêrî & Rêvebirî Swîsre

2026 ew sal e ku pargîdaniyên Swîsreyî tê digihîjin: LLM-ek bê çavdêrî Qutiyeke Reş e ku berpirsiyariya we teqandî dike. Her sîstemeke AI ya hilberandinê logên diafirîne ku ji xizmetên webê yên klasîk 10x heya 40x berfirehtir in — bi promptan, bangên amûran, lêçûnan, halûsînasyonan û qewsên driftê re ku ti kes bi şêweyê kevneşopî nakole. Li gor Rapora AI Engineering ya 2026-an, 61% ji hemû sîstemên AI yên hilberandinê bêyî çavdêriya bi avahî dixebitin — bi encamên wek halûsînasyonên nediyarkirî, pêlên lêçûnên token ên nedîtî û binpêkirinên Maddeya 12 ya EU AI Act. Ev rêber nîşan dide ku em li mazdek bi ARGUS çawa çavdêriyê 24/7 ava dikin — OpenTelemetry, Nirxandin, Tespîtkirina Driftê, FinOps û Rêvebirî di mîmariyeke hilberandinî ya Swiss-Stack de.

Çavdêriya LLM di 2026-an de çi ye?

Çavdêriya LLM dîsîplîn e ku ji promptan, bangên amûran, bersivan, nirxandin û lêçûnên hilberandinê têgihiştinên bi avahî derdixe — di wextê rastîn de, bi alertan, tespîtkirina driftê û log-ên kontrolê. Cûda ji Çavdêriya Performansa Serlêdanê ya klasîk (APM), çavdêriya LLM divê reftareke ne-determînîstîk bişopîne: heman sînyala ketinê encamên cûda diafirîne, lêçûn li gor banga her daxwazê bi faktora 3-5 diguherin û çewtî ne îstîsna ne, lê ji hêla watedar ve dûrketin in.

Sê stûnên Çavdêriya LLM ya nûjen 2026:

Şopandin: Her banga LLM-ê bi taybetmendiyên tam ên ketin/derketinê, hejmara token, lêçûn, model, guherto û ID-ya sesiyonê tê logkirin. Şopandina belavkirî bi navgîniya W3C Trace Context bangên amûran ên hêlanek û wergirtina RAG ji gelek xizmetan ve girêdide.
Nirxandin (Evals): Nirxandina kalîteyê ya otomatîkkirî ji bo her encamê — Pêbaweriya Bi Qewimandinê, Girîngiya Bersivê, Rêjeya Halûsînasyonê, Toksîsîte, Derketina PII. Bêyî nirxandinên berdewam ti kes pê nahese ku model hêdî hêdî drift dibe.
FinOps û Rêvebirî: Budçekirina token li gor bikarhêner, tîm û taybetmendiyê. Vegotina lêçûnan a hûrgilî. Log-ên kontrolê yên bi EU-AI-Act re lihevhatî. Paqijkirina parastina daneyan (PII, nepeniyan).

«Sîstemeke LLM ya hilberandinê bê çavdêrî wek balafirekê bê Qutiya Reş e. Hûn difirin — lê ku tiştek xelet biçe, we ti fikr tuneye çima. Li Swîsreyê, ku DSG, FINMA û EU AI Act lê tê sepandin, ev êdî pirsgirêkeke teknîkî ya luks nîne, lê rîskeke lihevhatinê ye. Li mazdek em 2026-an zêdeyî 47 sîstemên AI yên hilberandinê dimeşînin — her yek ji wan bi şopandin, nirxandin û alertên otomatîk ên kamil ji hêla ARGUS ve.»
— ARGUS, Ajanê Parêzvanê Projeyan li mazdek

Çima Çavdêriya LLM di 2026-an de krîtîk dibe

Pênc pêşveçûn çavdêriyê ji bo pargîdaniyên Swîsreyî di 2026-an de neguheze dikin:

Gihîştina Hilberînê: Di 2024-an de piraniya sîstemên AI prototîp bûn. Di 2026-an de ew ji bo karsaziyê krîtîk in. Bugeke halûsînasyonê li gor rewşa bikaranînê di navbera CHF 800 û CHF 450'000-an de lêçûnê çêdike — saetên parêzeran, şêwirmendiya xelet, fatûreyên xelet.
EU AI Act Di Meriyetê De ye (Logên Maddeya 12): Ji 2-ê Sibatê 2026 ve divê her sîsteme AI ya bi rîska bilind encamên xwe bê valahiyek protokol bike — bi guhertoya modelê, ketin, derketin, bikarhêner, mohra demê. Bêyî boriyeke çavdêriyê ev ne gengaz e.
Teqîna Lêçûna Token: Bi modelên ramanê (o5, Opus 4.7, Gemini 2.5 Pro) tokenên derketinê li ser banga her daxwazê bi faktora 5-20 zêde dibin. Xebatek Agentic a tenê dikare saetan bimeşe û CHF 100+ biçe. Bêyî kontrola FinOps fatûreyên heyî yên bi şeş jimaran ên nedîtî çêdibin.
Drifta Modelê: Modelên pêşkêşkeran bêyî agahdarî diguherin. «gpt-5-turbo» ji Çileyê 2026 di Nîsanê de hinekî cûda bersivê dide. Bêyî nirxandin û berawirdên A/B-ya dîmenkêşan ti kes pê nahese — heya ku gilî ji bikarhêneran mezin dibe.
Rastiya Gelek-Pêşkêşker: Êdî ti sîstema hilberandinê li ser modelekê tenê namîne. 3-5 pêşkêşker di rotasyonê de tîpîk in (Claude, GPT, Gemini, Mistral, Llamayên herêmî). Çavdêrî rêbaza yekane ye ku kalîte û lêçûnan di navbera pêşkêşkeran de berawird bike.

Stacka Çavdêriya LLM ya Nûjen 2026

Landscape-a amûrên LLMOps di 2025/2026 de xwe hevgirtiye. Em li mazdek ji bo deploymentên Swîsreyî vê stackê pêşniyar dikin:

Qat	Amûra 2026	Alternatîv	Rol
Qata Şopandinê	Langfuse (self-hosted li CH)	Helicone, Arize Phoenix	Log-a Promptan/Encaman, Şopandina Sesiyonê
Protokola Telemetrîyê	OpenTelemetry + GenAI Semantic Conventions	Bûyerên JSON yên xwerû	Şopandina standardkirî ya bêalî ya pêşkêşkeran
Nirxandin	Ragas + DeepEval + LLM-as-Judge ya xwerû	Braintrust, Promptfoo	Pêbawerî, Girîngî, Toksîsîte, PII
Metrîk / Alert	Prometheus + Grafana + Loki	VictoriaMetrics, Datadog	Dashboardên SLO, alertên pir-asteyî
FinOps / Lêçûn	Langfuse Spend + OpenMeter	Vantage, Helicone Cost	Budçeya Token, Chargeback, Pêşbînî
Parastin	Guardrails AI + NVIDIA NeMo	LLM Guard, Lakera	Maskekirina PII, Astengkirina Prompt-Injection
Şopandina Ceribandinan	MLflow / Weights & Biases	Neptune, ClearML	Guhertoya Promptan, Berawirdên A/B
Hosting-a Swîsreyê	Green / Infomaniak / Swisscom	Exoscale, cyon	Lihevhatina DSG, FINMA, revDSG

Xala krîtîk ji bo deploymentên Swîsreyî: hemû amûrên navkirî wek guhertoya Çavkanî-Vekirî ya self-hosted hene — ev mecbûrî ye, dema ku PII an nepeniyên karsaziyê di boriyê re diherikin. Xizmetên LLMOps yên SaaS yên li derveyî EU/Swîsreyê ji bo sektorên birêkûpêk qedexe ne.

14 Metrîkên ku divê her sîstema LLM ya Swîsreyî bişopîne

Ji xebata me ya li ser 47 deploymentên AI yên hilberandinê me ev katalog-a metrîkan derxistiye. Em di çar astan de diqewimînin:

Metrîkên Performansê

Wext ber bi Tokena Yekem (TTFT): Dereng ber bi tokena derketinê ya yekem. Ji bo UX-ê chat krîtîk e. Armanc: < 800 ms p95.
Token li her Çirkeyê (TPS): Leza streamingê. Armanc: > 60 TPS ji bo ezmûnên li ber bikarhêner.
Dereng End-to-End p50/p95/p99: Dema giştî tevî Wergirtin, Bangên Amûran, Re-Ranking. Sînorên alertên me: p95 > 2.5s → Hişyarî, p99 > 5s → Krîtîk.

Metrîkên Kalîteyê (Nirxandin)

Xala Pêbaweriyê: Ma encam ji aliyê naverokê ve bi çarçoveya/wergirtina RAG re lihev dike? Bi LLM-as-Judge an Ragas tê pîvandin. Armanc: > 0.92.
Girîngiya Bersivê: Ma encam bersiva pirsa rastîn dide? Armanc: > 0.88.
Rêjeya Halûsînasyonê: Rêjeya bersivan bi îcadên rastîn. Armanc: < 2.5 %. Tespîtkirina otomatîk bi Ragas + Judge-ya xwerû.
Xala Toksîsîteyê: Rêjeya bersivan bi naverokên neguncan. Armanc: < 0.2 % (di 2024-an de hîn jî 1-2 % bû, bi parastinan pir kêm bû).

Metrîkên Lêçûnê (FinOps)

Lêçûn li her Daxwazê (CPR): Lêçûna CHF ya navîn li her banga API, li Tokenên Ketin/Derketinê dabeş kirî. Pîvandina me: CHF 0.003 ji bo chat-ên piştgirî, heya CHF 0.45 ji bo xebatên Agentic.
Token li her Taybetmendiyê: Dabeşkirina lêçûna token li taybetmendî an tîman. Bingeha chargeback û xweşbînkirina lêçûnan.
Rêjeya Hit ya Cache: Rêjeya daxwazên ku ji ber prompt-caching (Anthropic, OpenAI, Gemini) hatine çareser kirin. Armanc: > 45 %. Sermayetakirin: heya 90 % lêçûnên ketinê li ser Cached-Prefix.

Metrîkên Lihevhatin û Rêvebiriyê

Rêjeya Derketina PII: Rêjeya bersivan bi daneyên kesane yên ne-maskekirî. Armanc: 0 (dema tespîtê tavilê tê astengkirin).
Rêjeya Tespîtkirina Prompt-Injection: Çend prompt-ên zirardar têne naskirin û astengkirin. Bingeh: ~0.3 % ji daxwazan îmzeyên Injection hene.
Pêwîstiya Log-a Kontrolê: Rêjeya bangên încerandinê bi log-ên tam ên Maddeya 12 ya EU AI Act. Armanc: 100 %. Her tişta din binpêkirinek lihevhatinê ye.
Drifta Guhertoya Modelê: Delta guherîna di xalên nirxandinê de di navbera du dîmenkêşên modelê. Alert dema > 3 % xerabtirbûnê.

Mîmariya Referansê: Stacka Çavdêriyê ya ARGUS

Mîmariya me ya referansê ji bo deploymentên Swîsreyî ji şeş qatan pêk tê. Her projeya mazdek bi vê şablonê dest pê dike — li gor sektorê (FINMA, revDSG, HIPAA bi navgîniya NINGIZZIDA) tê adaptekirin):

+---------------------------------------------------+
|  Serlêdana LLM (Astro + Hono + Svelte + Python)   |
|  OTel SDK · Belavkirina traceparent               |
+---------------------+-----------------------------+
                      |  OTLP (gRPC / HTTP)
                      v
+---------------------+-----------------------------+
|  OpenTelemetry Collector (Swiss-Hosted)           |
|  GenAI Semantic Conventions · Paqijkerê PII       |
|  Prosesê Redakting · Exporter-a Komê              |
+---+-------------------+-------------------+-------+
    |                   |                   |
    v                   v                   v
+---+---------+ +-------+-------+ +---------+------+
| Langfuse    | | Prometheus    | | Loki           |
| (Şop)       | | (Metrîk)      | | (Log-ên bi    |
|             | |               | |  avahî)        |
+---+---------+ +-------+-------+ +---------+------+
    |                   |                   |
    v                   v                   v
+---+-------------------+-------------------+------+
|  Grafana (SLO + Alert + Dashboard)                |
|  Alert-Manager -> PagerDuty / Slack / WhatsApp    |
+---+-------------------+-------------------+-------+
                                            |
                              +-------------+-----------+
                              v                         v
                    +---------+-------+       +---------+---------+
                    | Ragas + DeepEval |       | Guardrails AI     |
                    | (LLM-as-Judge)   |       | (PII / Injection) |
                    +------------------+       +-------------------+

Qat 1: Serlêdan   Qat 2: OTel Collector   Qat 3: Embarkirî
Qat 4: Dîtinî + Alert                     Qat 5: Nirxandin + Parastin
Qat 6: Hosting-a Swîsreyê (Green / Infomaniak / Swisscom)

Qat 1: Serlêdan bi OTel SDK

Her serlêdaneke mazdek bangên LLM-ê bi OpenTelemetry-ê amûran dike. SDK-yên Python/TypeScript/Rust wrapperên şopandinê yên otomatîk ji bo Anthropic, OpenAI, Google û modelên herêmî bi navgîniya ATLAS tîne. GenAI Semantic Conventions (ji 2025-an ve standarda OTel) taybetmendiyên hevgirtî wek gen_ai.request.model, gen_ai.usage.input_tokens, gen_ai.response.finish_reason diyar dikin.

Qat 2: OpenTelemetry Collector

Kollektoreke OTel ya navendî Swiss-Hosted dixebite û hemû streamên OTLP werdigire. Li vir karê krîtîk ê paqijkirina PII rû dide: maskekirina li ser bingeha regex ya hejmarên AHV, kardên krediyê, hejmarên têlefonê, IBAN. Kollektor normalîze dike, dike komê û li ser sîstemên paşîn belav dike. Bêyî vê qatê bi neçarî PII di amûrên çavdêriyê de diherike.

Qat 3: Embarkirin (Şop, Metrîk, Log)

Em li ser sê paşîn-ên pispor ê digirin: Langfuse ji bo şopên xas ên LLM bi hûrgiliyên Prompt/Encam, Prometheus ji bo rêzên demê yên hejmarî (p95, Cost/Request) û Loki ji bo log-ên bi avahî. Her sê li ser-muxayan an li ser Hosting-a Swîsreyê dixebitin — li sektorên birêkûpêk neguheze.

Qat 4: Dîtinî + Alert

Grafana UI-ya hevgirtî ye — bi dashboardên SLO (SLI, Error-Budget, Burn-Rate) û alertên pir-asteyî: Hişyarî (Slack), Bilind (PagerDuty), Krîtîk (WhatsApp bi navgîniya IRIS). Alertên driftê, alertên Burnrate ya lêçûnê û alertên derketina PII hemû li vir têne orkestrasyon kirin.

Qat 5: Nirxandin + Parastin

Nirxandin berdewam li paş dixebite. Her şopê x-em (an 100 % li ser xebatên xeter-bilind) bi navgîniya Ragas (metrîkên RAG), DeepEval (çarçoveya G-Eval) û Judge-eke xwerû ya li ser bingeha Claude Opus tê nirxandin. Guardrails AI di wextê rastîn de derketinên PII û Prompt Injections asteng dike.

Qat 6: Hosting-a Swîsreyê

Tevahiya boriyê çavdêriyê li navendên daneyan ên Swîsreyê dixebite (Green Cenewre, Infomaniak Lozan, Swisscom Zûrîx). Ajanê me yê DevOps HEPHAESTUS jêrxana bi Terraform kodkirî û bi ISO-27001 pejirandî pêşkêş dike.

Nirxandin: Huner e ku reftareke ne-determînîstîk were pîvandin

Nirxandin dîsîplîna diyarker e ku çavdêriya klasîk ji çavdêriya LLM cûda dike. LLM-ek dikare 99.9 % Uptime hebe û dîsa jî bi girseyî bersivên xelet bide. Pênc stratejiyên nirxandinê yên ku em li mazdek bi kar tînin:

1. Nirxandinên bi Referans (bi standarda Zêr)

Dema Ground Truth berdest e (wek bersivên FAQ yên dîrokî), em Exact Match, BLEU, ROUGE û lihevhatina wateyî bi navgîniya Embeddings dipîvin. Çêtirîn ji bo Klasîfîkasyon, Kurtekirin û Transkrîpsiyonê.

2. Nirxandinên Bê Referans (LLM-as-Judge)

LLM-eke cuda (bi giranî Claude Opus 4.7 an GPT-5-Turbo) kalîteyê dinirxîne. Standard çarçoveya G-Eval e: Pîvanên wek «Pêbawerî», «Zelaliyê», «Alîkarî» bi promptên Chain-of-Thought li ser 1-5 têne pîvandin. Berbelav e, lê divê bi hişyarî bê xwarin — Judge bi xwe dikare halûsîne bike.

3. Metrîkên Taybet ên RAG (Ragas)

Ji bo sîstemên RAG çarçoveya Ragas: Pêbawerî (Encam li ser wergirtinê ava bûye?), Girîngiya Bersivê (Bersiv li gor pirsê maqûl e?), Rastiya Çarçoveyê (Kalîteya wergirtinê) û Vegerandina Çarçoveyê (Pêwîstiya bingeha faktan). Her metrîk wek rêzek dem a berdewam.

4. Nirxandinên Human-in-the-Loop

Ji bo rewşên bikaranînê yên krîtîk (dermansazî bi NINGIZZIDA, qanûn, şêwirmendiya darayî) nirxandina mirovî neçar dimîne. Langfuse UI-yên xaldanê pêşkêş dike, ku tê de pispor şopên yek nirx dikin. Nimûne: 1-5 % ji şopan.

5. Nirxandinên Dijber (Red Team)

Ajanê me yê Ewlehiya Sîber ARES berdewam testên Red-Team dimeşîne: Prompt Injection, Jailbreaks, Derxistina Daneyan bi navgîniya Prompt Injection ya neyekser. Çarçoveya Red-Team ya PromptFoo an Garak bi dubarekirinî 1'800+ vektorên êrîşê sîmûle dike — encam diherikin nav dashboarda rêvebiriyê.

Lêçûna Nirxandinan

Nirxandin pere ne — her nirxandineke G-Eval tokenan dixwe. Lêçûnên zêde yên tîpîk: 15-30 % ji lêçûnên hilberînê. Pêşniyara me: 100 % nirxandin li ser xebatên xeter-bilind, 5-10 % nimûne li ser xebatên xeter-kêm, tespîtkirina driftê ya berdewam li asta Embedding.

FinOps ji bo LLM-an: Lêçûn di bin kontrolê de

Di 2025-an de li gor tecrubeya me li pargîdaniyên Swîsreyî bi navînî 38 % ji mesrefên LLM-ê winda dibin — ji ber promptên xirab-sêwirandî, bê caching, modelên pir mezin ji bo peywirên hêsan û bê budçe. Şeş kolanên FinOps yên herî girîng:

Rêgezkirina Modelê: Peywirên hêsan (Klasîfîkasyon, Niyet) li ser Modelên Zimanî yên Piçûk (Mistral Small, Phi-4, Llama-3 8B). Tenê peywirên ramana tevlihev li ser modelên sînor. Kêmkirina lêçûnan: 60-80 %.
Caching-a Promptê: Anthropic, OpenAI û Gemini di 2026-an de Prefix-Caching piştgirî dikin. Promptên sîstemê, çarçoveyên RAG û mînakên Few-Shot carekê têne tokenîze kirin — bangên peyrew 10 % ji bihayê ketinê pere didin. Sermayetakirina tîpîk: 45-72 %.
Budçeya Token: Budçeyên hişk li her bikarhêner / tîm / taybetmendiyê di CHF-ê de li her mehê. OpenMeter û Langfuse metering-paşîn pêşkêş dikin. Di 80 % Burn Rate de: Hişyarî. Di 100 % de: Downgrade li ser modeleke erzantir li şûna astengkirinê.
Încerandina Batchê: Ji bo barkarên ne-înteraktîf (Rapor, Analîza Pelê) API-yên Batchê yên Anthropic/OpenAI bi kar bînin — 50 % daxistina bihayê li ser dorkirina 24 saetê. Sermayetakirin li ser boriyên rapor: heya 65 %.
Têgihînekirina Promptê: LLMLingua û amûrên wekhev promptan li ser 30-50 % ya mezinahiya orjînal bêyî windahiya kalîteyê kurt dikin. Ji bo xebatên Agent yên pir-gavî yên dubar krîtîk.
Chargeback û Showback: Markkirina her şopê bi Navenda Lêçûnê, Bikarhêner, Taybetmendî. Raporên Chargebackê yên mehane li her tîmê. Ji fatûreyên navxweyî yên CHF-ê tu tişt zûtir tîmên Dev nedisîplîne nake.

Rêvebirî: Maddeya 12 ya EU AI Act bi şêweyê konkret bicîh bikin

EU AI Act ji 2-ê Sibatê 2026 ve bi tevahî di meriyetê de ye. Maddeya 12 ji bo çavdêriyê ya herî girîng e — ew ji bo sîstemên bi rîska bilind «tomarkirina otomatîk ya bûyeran (log)» di tevahiya heyama sîstemê de dipirse. Daxwazên konkret:

Log-ên Mecbûrî: Her bangek încerandinê divê Dîrok/Dem, ID-ya Ketinê, ID-ya Derketinê, Model, Guherto, Bikarhêner û Hash-a Encamê hebe.
Paşdehiştin: Kêmtirîn 6 meh, li sektorên birêkûpêk tîpîk 10 sal (FINMA, dermansazî).
Neguheranbûn: Embarkirina Write-Once bi şopa kontrolê ya kriptografîk pêşniyarkirî (Merkle-Tree li ser perçeyên log).
Cudakirina Gihîştinê: Bikarhêneran gihîştin heye, pêşvebiran bi gelemperî tenê li guhertoya maskekirî.

Ji bo pargîdaniyên Swîsreyî qatên din tên zêdekirin:

revDSG Maddeya 7 (Ewlehiya Daneyan): TLS 1.3 di transfer de, AES-256 li ser embarkirî, kontrola gihîştina li ser bingeha rolê.
revDSG Maddeya 16 (Eşkerekirina Derveyî): Îxraca log-an bi PII ber bi derve bê asta parastina têra qedexe dike. Encam: Langfuse, Prometheus û Loki divê Swiss-Hosted bixebitin, dema PII di dest de ye.
FINMA RS 2018/3 (Outsourcing): Şopandina bê valahiyek ya her biryara amûrê ji bo kontrolkeran.
Maddeya 321 ya StGB (Nepeniya Pîşeyî): Parêzer û bijîşk tenê dikarin log-an li ser jêrxaneke bi DSG-ê re lihevhatî embar bikin.

Ajanê me yê Ewlehiya Sîber ARES şablonên rêvebiriyê pêşkêş dike; ARGUS pabendbûna berdewam orkestrasyon dike.

Platformên Çavdêriyê di berawirdkirina rasterast de

Platform	Çavkanî-Vekirî	Self-Hosted	Nirxandin	Guncayî-Swîsreyê	Kengê hilbijêrin
Langfuse	Erê (MIT)	Erê	Xweşerû	Erê, self-hosted	Standard ji bo projeyên mazdek
Arize Phoenix	Erê (Apache 2)	Erê	Xweşerû	Erê, self-hosted	Şiyanên xurt ên ML-Drift
Helicone	Erê	Erê	Erê	Gengaz	Yekbûna li ser bingeha Proxy
LangSmith	Na	Tenê Enterprise	Erê	Tenê bi Peymana EU	Dema desthilatdariya LangChain
Braintrust	Na	Na	Xurt	Pirsgirêk	Bi taybetî tîmên DYA
Datadog LLM Obs.	Na	Na	Sînordar	Tenê herêma EU	Dema Datadog berê di stackê de ye
OpenLLMetry (OSS)	Erê	Erê	Derveyî	Erê	Yekbûna OTel ya sivik

Pêşniyara me ya standard ji bo KMU û Mîtelstand-a Swîsreyê: Langfuse self-hosted bi OTel-Collector, Prometheus, Loki û Grafana — hemû Çavkanî-Vekirî, hemû guncayî-Swiss-Host. Li konzernên bi Datadog/Dynatrace yên heyî: yekbûna gav-bi-gav bi GenAI-Conventions.

Nimûneya Kodê: Banga LLM bi amûrkirina tam

Banga LLM ya amûrkirî li mazdek bi vî awayî xuya dike — TypeScript bi OTel SDK, Langfuse û tetikera Nirxandina otomatîk:

import { trace, context, SpanStatusCode } from '@opentelemetry/api'
import { Langfuse } from 'langfuse'
import { Anthropic } from '@anthropic-ai/sdk'

const tracer = trace.getTracer('mazdek-chat', '1.0.0')
const langfuse = new Langfuse({ baseUrl: 'https://langfuse.internal.mazdek.ch' })
const anthropic = new Anthropic()

export async function answerUserQuestion(userId: string, question: string, ragContext: string) {
  return tracer.startActiveSpan('llm.answer_question', async (span) => {
    // Taybetmendiyên wateyî danîn
    span.setAttributes({
      'gen_ai.system': 'anthropic',
      'gen_ai.request.model': 'claude-opus-4-7',
      'gen_ai.user.id': userId,
      'mazdek.feature': 'customer_chat',
      'mazdek.rag_context_bytes': ragContext.length,
    })

    const lfTrace = langfuse.trace({ name: 'customer_chat', userId })

    try {
      const response = await anthropic.messages.create({
        model: 'claude-opus-4-7',
        max_tokens: 1024,
        system: `Tu ajanê piştgirî ya mazdek î. TENÊ li ser bingeha çarçoveyê bersivê bide.
Çarçove: ${ragContext}`,
        messages: [{ role: 'user', content: question }],
      })

      // Tokenan û Lêçûnan log bikin
      span.setAttributes({
        'gen_ai.usage.input_tokens': response.usage.input_tokens,
        'gen_ai.usage.output_tokens': response.usage.output_tokens,
        'gen_ai.response.finish_reason': response.stop_reason || 'unknown',
      })

      const text = response.content[0].type === 'text' ? response.content[0].text : ''

      // Langfuse-Generation bi her hûrgiliyê
      const generation = lfTrace.generation({
        name: 'answer',
        model: 'claude-opus-4-7',
        input: { question, ragContext },
        output: text,
        usage: {
          input: response.usage.input_tokens,
          output: response.usage.output_tokens,
        },
      })

      // Nirxandina Asyncron tetik bikin (ne-astengker)
      queueFaithfulnessEval({
        traceId: lfTrace.id,
        question,
        context: ragContext,
        answer: text,
      })

      span.setStatus({ code: SpanStatusCode.OK })
      return text
    } catch (err) {
      span.recordException(err as Error)
      span.setStatus({ code: SpanStatusCode.ERROR, message: (err as Error).message })
      throw err
    } finally {
      span.end()
    }
  })
}

Tiştê ku li vir otomatîk diqewime: belavkirina traceparent bi navgîniya Header-ên HTTP ji bo xizmetên RAG û Vector-DB, vegotina lêçûnê bi navgîniya taybetmendiyên OTel ji bo dashboardên FinOps, nirxandina asynkron ji bo şopandina pêbaweriyê, girtina çewtiyê ji bo alertan. Ajanê me yê Zimanan ATLAS şablonên hevkêş ji bo Python (openinference), Rust (opentelemetry-rust) û Go pêşkêş dike.

Nimûneya Pratîkî: Sîgortvankerê St. Gallen halûsînasyonan bi 71% kêm dike

Sîgortvankereke Swîsreyî ya kelûpelan (420 xebatkar, hejmara prîma CHF 780 mîlyon) ji nîvê 2025-an ve chatbot-eke li ser bingeha RAG ji bo rêvebirina zirarê dimeşîne. Pirsgirêk: Bikarhêner gilî dikir li ser bendên peymanê yên îcadkirî û agahiyên dema xelet. Navê navxweyî: «HalûsîBot».

Rewşa destpêkê di Cotmeha 2025-an de

Bêyî çavdêrî: tenê dashboardên pêşkêşker-a LLM, bê log-ên Promptê/Encamê
Bêyî nirxandin: kalîte bi navgîniya nimûneyên destî yên mehane dihat pîvandin
Rêjeya halûsînasyonê (paşê hat pîvandin): 8.7 %
Dereng P95: 4.2 s (gilî li ser Timeout)
Lêçûnên mehane yên LLM: CHF 12'400 — 52 % bilindbûn ji ber bangên amûrên têkçûyî yên di loopê de
Name-a Çavdêriya FINMA Q4 2025: «Şopandina şêwirmendiya otomatîk kêm e»

Veguhertina mazdek: 10 hefte, 5 ajan

Me veguhertin bi van orkestrasyon kir:

ARGUS: Mîmariya Çavdêriyê, Dashboardên SLO, Alert. Langfuse self-hosted li Green Cenewre, Prometheus, Loki, Grafana.
PROMETHEUS: Çarçoveya Nirxandinê bi Ragas + Claude-Opus-Judge, xaldana halûsînasyonê ya berdewam.
ARES: Paqijkerê PII di OTel-Collector de, Parastinên Prompt-Injection, Log-ên Kontrolê yên bi FINMA re lihevhatî bi Merkle-Tree.
HEPHAESTUS: Jêrxaneya bi Terraform kodkirî li ser Swiss-Cloud, boriyê ISO-27001.
HERACLES: Rêgezkirina modelê di navbera Claude Sonnet (pirsên hêsan) û Claude Opus (zirarên tevlihev), xweşbînkirina Prompt-Caching.

Encam piştî 14 hefteyan

Metrîk	Berê (Çir 2025)	Piştre (Sib 2026)	Pêşketin
Rêjeya Halûsînasyonê	8.7 %	2.5 %	-71 %
Xala Pêbaweriyê	0.74	0.94	+27 %
Dereng P95	4.2 s	1.6 s	-62 %
Lêçûnên mehane yên LLM	CHF 12'400	CHF 5'200	-58 %
Rêjeya Hit ya Cache	0 %	64 %	+64 %
Dema Tespîta Halûsînasyonê	~11 roj	< 90 çirke	-99.9 %
Name-a Çavdêriya FINMA Q2 2026	Rexne	Bê Rexne	Pabendbûn hat
Dema Navîn heta Çareseriyê (MTTR)	3.5 saet	18 deq	-91 %
Sermayetakirina Salane ya mesrefa LLM	—	CHF 86'400	ROI di 3.7 mehan de

Xala diyarker a zivirînê ne ji hêla yek fêlbaziyê ve hat, lê ji hêla hevgirtina şopandin, nirxandin, rêgezkirina modelê û caching ve. Her tevgerek bi tenê tenê ji sêyeka bandorê bûya.

Nexşerêya Pêkanînê: Ji Sifirê heya Çavdêriyê di 8 hefteyan de

Pêvajoya me ya 5-qonaxî ya îsbatkirî ji bo pargîdaniyên Swîsreyî:

Qonax 1: Audit û Bingeh (Hefte 1)

Vekolîn: Kîjan bangên LLM li ku dixebitin, bi kîjan modelan, li ser çi lêçûnan?
Nasnameya xebatên krîtîk (Peywirên xeter-bilind: şêwirmendî, pabendbûn, tenduristî)
Analîza valahiya lihevhatinê (EU AI Act, DSG, FINMA, taybet li sektorê)
Rêzkirina xetereyê bi ARES

Qonax 2: Amûrkirina OTel (Hefte 2-3)

OTel-SDK di hemû serlêdanan de (TS/Python/Rust/Go)
GenAI Semantic Conventions bi cih bîne
Deploymenta Collector bi Paqijkerê PII
Langfuse self-hosted li ser Hosting-a Swîsreyê bi HEPHAESTUS

Qonax 3: Dashboard û Alert (Hefte 4-5)

Dashboardên Grafana ji bo Performans, Kalîte, Lêçûn, Pabendbûn
Diyarkirinên SLO: p95 < 2.5 s, Pêbawerî > 0.92, Halûsînasyon < 2.5 %
Alertên pir-asteyî (Slack / PagerDuty / WhatsApp)
Rotasyona On-Call bi Playbookan bi ARGUS Parêzvan

Qonax 4: Nirxandin û Parastin (Hefte 6-7)

Ragas + DeepEval + Judge-ya xwerû ji bo xebatên xeter-bilind
Guardrails AI ji bo maskekirina PII û astengkirina Prompt-Injection
Yekbûna Red-Team bi ARES bi PromptFoo
Xaldana Human-in-the-Loop ji bo pêvajoyên krîtîk ên lihevhatinê

Qonax 5: FinOps û xweşbînkirina berdewam (Hefte 8+)

Budçeya Token li her Tîm / Taybetmendî bi OpenMeter
Rêgezkirina Modelê û Prompt-Caching pêk bîne
Raporên Chargebackê yên mehane
Audit-ên Red-Team yên sê mehane û kontrolên siyaseta

Pêşeroj: Çavdêriya Agentic û Otomatîkkirina Rêvebiriyê

Çavdêriya LLM ya 2026-an tenê destpêk e. Tiştên ku em ji bo 2027+ li bendê ne:

Şopên Agentic: Xebatên ajanê yên Multi-Step (10-100+ bangên LLM yên hêlanekî) dîtinên nû hewce dikin. Berhemên pêşî: Langfuse Sessions, Arize Phoenix Agent Traces.
Boriyên Xwe-Sax-Ker: Parêzvanên wek-ARGUS, ku vegerandinên modelê, xweşbînkirinên promptê û dorkirina parametran otomatîk tê tetikê — bibînin gotara me Self-Repairing AI.
Observability-MCP: Daneyên çavdêriyê bi navgîniya Model Context Protocol ji bo ajanên AI pirsiyar dibin. «Çima duh lêçûn bilindtir bûn?» → Ajan bi MCP dighîje Langfuse.
Log-ên Pejirandina EU AI Act: Formatên Log yên standardkirî, ku ji bo pabendbûna Maddeya 12 rasterast ji saziyên çavdêriyê re têne veguhastin.
Observability-as-Code: Dashboardên, Alertên û Nirxandinan wek diyarkirinên Terraform/Pulumi yên bi Git-versiyon. Beşek ji stack-a me ya Swiss-Sovereign-AI.

Encam: Çavdêrî ferq e di navbera Prototîp û Hilberê de

Têgihîştinên diyarker ji bo biryardêrên Swîsreyî di 2026-an de:

Mecbûriya Lihevhatinê: Bêyî log-kirina bê valahiyek û nirxandinan pabendbûna EU-AI-Act di 2026-an de ne gengaz e. Ev ne Nice-to-Have-a teknîkî ye, lê erkek qanûnî ye.
Kolana Kalîteyê: Di case-a me ya sîgorteyê de rêjeya halûsînasyonê bi 71 % daket — tenê bi çavdêriya bi avahî. Ne modelê nû, ne promptên nû.
Kolana Lêçûnê: 38-58 % sermayetakirin li ser lêçûnên LLM bi pratîkên FinOps (Rêgezkirina Modelê, Caching, Budçekirin) — rasterast ji daneyên çavdêriyê derketî.
Mecbûriya Swiss-Stack: Ji bo sektorên birêkûpêk çavdêriya self-hosted (Langfuse, Prometheus, Grafana, Loki) li ser Hosting-a Swîsreyê rêbaza yekane ya bi DSG-ê re lihevhatî ye.
Dem niha ye: Her rojek bê çavdêrî rojek e bi pirsgirêkên nediyarkirî, fatûreyên bêhemdî û rîska lihevhatinê ya mezin.

Li mazdek 19 ajanên AI yên pispor tevahiya zincîreya çavdêriyê orkestrasyon dikin: ARGUS ji bo Çavdêriya 24/7, PROMETHEUS ji bo Nirxandin, ARES ji bo Parastin û Pabendbûn, HEPHAESTUS ji bo jêrxana Swiss-Host, HERACLES ji bo Rêgezkirina Modelê û FinOps. Zêdetirî 47 sîstemên AI yên hilberandinê ji bo pargîdaniyên Swîsreyî di bin vê mîmariyê de dixebitin — bi revDSG-, DSGVO-, EU-AI-Act- û FINMA-lihevhatî ji roja yekem ve.

Web & E-Commerce

KI & Automatisierung

19 KI-Agenten

Nach Unternehmensgrösse

Spezialisierungen

Bis zu 70% günstiger

Lernen

Unternehmen

Neueste Artikel

Entwicklung

KI & Cloud

Enterprise

Spezialisiert

Çavdêriya LLM 2026: Çavdêrî, Nirxandin û Rêvebirî ji bo Sîstemên AI yên Hilberandinê li Swîsreyê

Lassen Sie sich diesen Artikel von einer KI zusammenfassen