🛠 VITS Magyar TTS – Munkafolyamat Összefoglaló

1. A környezet felépítése

  • Docker kontĂ©ner: vits_magyar_training (Coqui TTS alapĂş).
  • Mappaszerkezet: * /ai_training/mentesek/: Ide kerĂĽlnek a checkpointok (.pth fájlok) Ă©s a config.json.
    • /ai_training/adatok/: Itt tároljuk a kimeneti .wav fájlokat.
    • /Adatok/: A Windows által is látott megosztott mappa.

2. A „78 vs 79” karakter-hiba elhárĂ­tása

A modell és a szoftver közötti verziókülönbség miatt a config.json fájlt manuálisan korrigálni kell, különben a generálás RuntimeError (size mismatch) hibával leáll.

  • A megoldás: A num_chars Ă©rtĂ©kĂ©t 79-re kell Ă­rni, Ă©s a characters listát ki kell egĂ©szĂ­teni egy extra karakterrel (pl. β), hogy a szoftver belsĹ‘ számlálĂłja is 79-et mutasson.

3. Hanggenerálás (Inferencia)

Mivel a gyári tts parancs néha érzékeny a konfigurációra, a legbiztosabb módszer a konténeren belüli Python-alapú indítás.

  • A folyamat: 1. A config.json Ă©s a legfrissebb checkpoint_XXXXX.pth betöltĂ©se. 2. A szöveg tokenizálása (betűk számokká alakĂ­tása). 3. A modell inference vagy forward metĂłdusának meghĂ­vása. 4. A kapott hullámforma (tensor) mentĂ©se .wav fájlba az AudioProcessor segĂ­tsĂ©gĂ©vel.

4. A modell fejlődési szakaszai

  • ~15.000 lĂ©pĂ©s: A hangszĂ­n már felismerhetĹ‘ (a „te hangod”), de a beszĂ©d mĂ©g kásás, nehezen Ă©rthetĹ‘ „motyogás”.
  • ~50.000 lĂ©pĂ©s: A kiejtĂ©s kitisztul, a szavak felismerhetĹ‘vĂ© válnak, de a hangsĂşlyozás mĂ©g robotos lehet.
  • 100.000+ lĂ©pĂ©s: Folyamatos, tiszta beszĂ©d, termĂ©szetesebb hanglejtĂ©ssel.

🚀 Hogyan folytatjuk legközelebb?

Amikor Ăşj ablakot nyitsz, csak ennyit kell mondanod:

„Folytassuk a VITS magyar tanĂ­tást. A 14.800-as checkpointnál tartunk. A config.json már 79 karakterre van állĂ­tva. IndĂ­tsuk el a tanĂ­tást!”

🛠️ VITS Magyar Training – MentĂ©si jegyzĹ‘könyv (2026.04.28.)

  • LegutolsĂł stabil állapot: checkpoint_14800.pth (VisszaállĂ­tva a /appdata/vits_samples/model.pth mentĂ©sbĹ‘l).
  • Aktuális munkakönyvtár: /ai_training/mentesek/vits_magyar_v1-RECOVERY/
  • Kritikus Docker Ăştvonalak (Mountok):
    • Adatok: /ai_training/adatok -> /root/adatok
    • MentĂ©sek: /ai_training/mentesek -> /root/mentesek
  • MűködĹ‘ indĂ­tĂłparancs:Bashdocker run -it --name vits_magyar_training \ --entrypoint python3 \ -v /ai_training/adatok:/root/adatok \ -v /ai_training/mentesek:/root/mentesek \ ghcr.io/coqui-ai/tts:latest \ -m TTS.bin.train_tts --continue_path /root/mentesek/vits_magyar_v1-RECOVERY/
  • KonfiguráciĂłs javĂ­tás: A config.json-ben a text_cleaner fixen phoneme_cleaners-re van állĂ­tva a magyar nyelvhez.

SzeretnĂ©d, hogy a következĹ‘ alkalommal, amikor elindulunk, automatikusan ezt a „RECOVERY” mappát tekintsem az alapĂ©rtelmezettnek?

“đź›  VITS Magyar TTS – Munkafolyamat Ă–sszefoglalĂł” bejegyzĂ©shez 3 hozzászĂłlás

Szólj hozzá!