Nyelvek és formátumok

A bemenet minősége dönt

A nyelvi modellek nem emberként olvasnak: tokenizálnak, mintázatot keresnek, és a bemenet nyelve valamint formátuma közvetlenül befolyásolja a pontosságot, a figyelmet és a költséget. Sok drága hiba nem a rossz instrukcióból, hanem a rosszul strukturált adatbevitelből jön.

Nyelv számít

Az angol sokszor stabilabb logikai munkahely.

Formátum számít

Markdown gyakran tisztább, mint nyers PDF vagy JSON.

Optimalizálható

A jó bemenet olcsóbb és pontosabb.

Természetes nyelvek

Az angol gyakran precízebb, a magyar gyakran drágább.

Angol előny

A modellek képzési adatainak nagy része angol, ezért komplex logikai feladatoknál — technikai, jogi, kódolási — az angol gyakran stabilabb és következetesebb.

Magyar felár

A magyar agglutináló nyelv, így egy szó több tokenre bomolhat. Ez növeli a költséget és gyorsabban terheli a kontextusablakot.

Gyakorlati tipp – hibrid workflow

Hosszú magyar dokumentumnál kérd, hogy az elemzés és hibakeresés angolul történjen, a végső összefoglaló pedig magyarul.

"Olvasd el az alábbi magyar szöveget. Az elemzést és a logikai dedukciót végezd angolul, majd a végső vezetői összefoglalót fordítsd le és add vissza magyarul."

Programozási nyelvek

Az AI sok nyelven ír kódot, de nem mindegyikben egyformán erős.

A training adatokban rengeteg forráskód van, ezért az AI természetesen otthon van a kódban. A Python és a JavaScript/TypeScript általában a legstabilabb választás, ha megbízható kimenetet szeretnél.

Ha nem vagy fejlesztő, és belső automatizációs scriptet kérsz, általában kérd Pythonban. Egyszerűbb, kevesebb a platformfüggő rész, és könnyebb hibakeresni.

⚠️Fontos: Az AI által generált kódot mindig ellenőrizd futtatás előtt! Különösen igaz ez C/C++ és Rust esetén, ahol a memóriakezelési hibák súlyos biztonsági kockázatot jelenthetnek.

Formátumok harca

Markdown vs JSON vs nyers PDF/Word – hol nyer a pontosság?

A formátum nem díszítés: a modell ebből is olvas. A jó struktúra segíti a figyelmet, a rossz strukturálás viszont zajt visz a kontextusba. Chat-alapú munkában a Markdown gyakran a legjobb alapértelmezett.

Markdown

Tiszta tagolás, fejlécek és listák. Embernek olvasható, modelleknek jól követhető.

JSON (chatben)

Sok szintaktikai zaj, nehezebb szemmel követni. Később viszont hasznos automatizálásnál és API-knál.

Nyers PDF / Word

Láthatatlan formázási törmelék, széteső táblázatok. Érdemes előbb tisztítani, majd Markdownra váltani.

Ugyanaz az adat, jobb olvashatósággal

JSON (chatben gyakran zajos)

{
  "employees": [
    { "name": "Kovács Péter", "department": "Marketing", "salary": 850000 },
    { "name": "Nagy Anna", "department": "IT", "salary": 1200000 }
  ]
}

Markdown (chatben tisztább)

| Név | Osztály | Fizetés |
|-----|---------|---------|
| Kovács Péter | Marketing | 850 000 |
| Nagy Anna | IT | 1 200 000 |

Gyakorlati tipp 1

Ha ###, ** és - jeleket látsz, az nem hiba — ez a Markdown struktúra része.

Gyakorlati tipp 2

Tudásbázis vagy projektmemória feltöltésénél a tiszta Markdown sokszor jobb kiindulópont, mint a tördelt PDF vagy DOCX.

XML és YAML

Strukturált promptolás: az utasítás és az adat szétválasztása.

Ha egy hosszú promptba csak beömleszted az utasításokat és az adatokat, a modell könnyen összekeveri, mi a szabály és mi a nyers tartalom. A strukturált jelölés segíti a szétválasztást — de önmagában nem garancia a biztonságra.

XML

Az XML tagek (pl. <context>, <task>, <data>) éles határt adnak, így csökken az összekeverés kockázata és javul a kontroll. Nem védelmi fal, de erős struktúra.

YAML

Behúzásos, hierarchikus szabályrendszerekhez és konfigurációkhoz ideális. Jól olvasható, tiszta logika.

XML-t használj

Ha hosszú dokumentumot, interjút vagy hírlevelet illesztesz a promptba.

YAML-t használj

Ha szabályrendszert, agent viselkedést vagy konfigurációt írsz le.

Multimodalitás

Nem minden bemenet egyformán megbízható.

A bemenet típusa erősen befolyásolja a pontosságot, a költséget és a kontrollt. A tiszta szöveg és strukturált adat általában megbízhatóbb, mint a nyers média.

📝

Szöveg

Natív – ez az AI fő területe. Markdown, TXT, kód.

Kiváló
🖼️

Kép

Multimodális modellek (GPT-5.2, Gemini 3.1, Claude) értik és elemzik.

📄

PDF

Feldolgozza, de a formázás elveszhet. Jobb: konvertáld Markdown-ra (Marker, MinerU).

Közepes
📊

CSV / Excel

Táblázatos adatokat jól elemez. Excelből CSV-t csinálj a feltöltés előtt.

💻

Kód

Natív – olvas, ír, javít, refaktorál. Python és JS a legjobb.

Kiváló
🎵

Hang / Videó

Whisper (OpenAI) átírja szöveggé, utána az LLM feldolgozza.

Közvetett

Audio / videó tipp

Hosszú hang- vagy videóanyaghoz előbb készíts transcriptet, és csak utána elemeztess. Így pontosabb, olcsóbb és jobban kontrollálható workflow-t kapsz.

Mikor mit használj?

Gyors döntéstámogatás nyelvhez, formátumhoz és bemenethez.

Hosszú tudásanyagMarkdown
Szigorú mezős output / automationJSON
Hosszú dokumentum promptba ágyazásaXML
Konfiguráció / agent szabályrendszerYAML
Bonyolult magyar elemzésAngol reasoning + magyar végső output
Táblázatos adatCSV / tisztított export
Hosszú audio / videóTranscript először
NyelvAI tudás
🐍PythonNatív
📜JavaScript / TypeScriptNatív
🗄️SQLNatív
🌐HTML / CSSNatív
JavaErős
🔷C# / .NETErős
C / C++Erős
🦀Rust
🔵Go
🐘PHP
💎RubyMegfelelő
📊R
🖥️Shell / Bash
🍎SwiftMegfelelő
🤖KotlinMegfelelő

Zárás

A jó bemenet kevesebb költség, több pontosság.

Ha tudod, mikor mely nyelvet és formátumot érdemes használni, kevesebb tokent pazarolsz, pontosabb választ kapsz, és a modellek is követhetőbben dolgoznak. A struktúra nem extra — a minőség alapja.