Zonos Text-zu-Sprache

Ein führendes Open-Weight Text-zu-Sprache-Modell, trainiert mit über 200.000 Stunden vielfältiger mehrsprachiger Sprache, das Ausdruckskraft und Qualität auf Augenhöhe mit - oder sogar über - führenden TTS-Anbietern liefert.

Hauptfunktionen

•Zero-Shot TTS mit Stimmklonierung
•Mehrsprachige Unterstützung (EN, JP, CN, FR, DE)
•Audioqualität und Emotionskontrolle
•Echtzeit-Generierung (2x Geschwindigkeit auf RTX 4090)

🎁 Erleben Sie die Zukunft der Text-zu-Sprache-Technologie

Voice Playground

Erleben Sie die Kraft von Zonos TTS Text-zu-Sprache direkt in Ihrem Browser. Probieren Sie verschiedene Stimmen aus, testen Sie Stimmklonen und generieren Sie sofort hochwertige Sprache.

~1 Credits

00:0000:00

Was ist Zonos

Zonos-v0.1 ist ein führendes Open-Weight Text-zu-Sprache-Modell, trainiert mit über 200.000 Stunden vielfältiger mehrsprachiger Sprache, das Ausdruckskraft und Qualität auf Augenhöhe mit - oder sogar über - führenden TTS-Anbietern liefert.

Zero-Shot TTS mit Stimmklonierung
Geben Sie gewünschten Text und eine 10-30s Sprecherprobe ein, um hochwertige TTS-Ausgabe mit genauen Stimmklonierungsfähigkeiten zu generieren.
Audio-Präfix-Eingaben
Fügen Sie Text plus ein Audio-Präfix hinzu für noch reichere Sprecherübereinstimmung und Verhaltensweisen wie Flüstern, die schwer zu replizieren sind.
Feinkörnige Kontrolle
Kontrollieren Sie Sprechgeschwindigkeit, Tonhöhenvariation, Audioqualität und Emotionen wie Glück, Angst, Traurigkeit und Wut.

Vorteile

Warum Zonos wählen

Erhalten Sie alles, was Sie für hochwertige Text-zu-Sprache-Generierung mit fortschrittlicher Stimmklonierung und Emotionskontrolle benötigen.

Generieren Sie hochgradig natürliche Sprache mit nur wenigen Sekunden Referenzaudio und erreichen Sie professionelle Stimmklonierungsqualität.

Was macht Zonos besonders

Zonos ist ein führendes Open-Weight Text-zu-Sprache-Modell, das hohe Qualität, Flexibilität und Benutzerfreundlichkeit kombiniert.

Zero-Shot TTS mit Stimmklonierung

Geben Sie gewünschten Text und eine 10-30s Sprecherprobe ein, um hochwertige TTS-Ausgabe zu generieren

Audio-Präfix-Eingaben

Fügen Sie Text plus ein Audio-Präfix hinzu für noch reichere Sprecherübereinstimmung. Audio-Präfixe können verwendet werden, um Verhaltensweisen wie Flüstern hervorzurufen

Mehrsprachige Unterstützung

Zonos-v0.1 unterstützt Englisch, Japanisch, Chinesisch, Französisch und Deutsch

Audioqualität und Emotionskontrolle

Feinkörnige Kontrolle vieler Aspekte einschließlich Sprechgeschwindigkeit, Tonhöhe, maximale Frequenz, Audioqualität und verschiedene Emotionen

Schnelle Generierung

Unser Modell läuft mit einem Echtzeit-Faktor von ~2x auf einem RTX 4090 (generiert 2 Sekunden Audio pro 1 Sekunde Rechenzeit)

Einfache Installation und Bereitstellung

Zonos kommt mit einer benutzerfreundlichen Gradio-Oberfläche geliefert und kann einfach mit Docker installiert und bereitgestellt werden

Testimonial

Was Menschen sagen

Sehen Sie, was die Community über Zonos denkt.

Wow that's very impressive

Zonos is a 100% open source AI model that can clone any voice 🤯

You can basically run it anywhere as it's only 1.6B parameters.

Link belowpic.twitter.com/yztyL46NvN
— Paul Couvert (@itsPaulAi) February 10, 2025

自分の声質でテキストから音声を瞬時に複製できる「Zonos-v0.1」が公開。話す速度や喜怒哀楽を含めた感情も調整可能。つまり音声クローンを創り上げることが出来る。オーディオファイルで学習するので、結論自分の声質以外も学習可能なので、悪用厳禁。詳細はリプ欄へ。 pic.twitter.com/VixYXJXrAG
— みるぼん@スモビジ (@milbon_) February 11, 2025

新发布的最强开源语音模型 Zonos

语音生成质量非常高，而且这次有中文

- 两种1.6B 模型，transformer 和 SSM
- 用5到30秒的语音进行高保真语音克隆
- 可以调节速度，音高，音频质量和情绪
- 添加文本和音频前缀，实现更丰富的说话人匹配效果
-在 RTX 4090 显卡上运行时，实时率约为 2 倍 pic.twitter.com/hF6qa9JqKW
— 歸藏(guizang.ai) (@op7418) February 11, 2025

This is not being talked about enough

Zonos is a new open-source voice AI model that clones any voice in under 10 seconds.

Here is how I made a voice clone of @mreflow ! pic.twitter.com/SDEkAH1HOJ
— AP (@angrypenguinPNG) February 14, 2025

Run ZONOS Locally

ZONOS, the new SOTA Open Source Voice Cloning TTS, is here.

I've managed to write a 1-click launcher for Zonos that works on Mac, Windows, and Linux (ALL platforms!)

Here's me cloning Peter Griffin's voice on my Mac. https://t.co/XLB6NEU8gE pic.twitter.com/nQcVtXE4P
— cocktail peanut (@cocktailpeanut) February 15, 2025

What the heck, this is an AI-generated voice and open source too under Apache 2.0 license. Damn! 🔥🔥

Zonos Beta is a new open-source highly expressive TTS model with high-fidelity voice cloning from @ZyphraAI

Try it here 👇pic.twitter.com/GGn877CzGp
— AshutoshShrivastava (@ai_for_success) February 10, 2025

FAQ

Häufig gestellte Fragen zu Zonos

Haben Sie eine andere Frage? Kontaktieren Sie uns per E-Mail.

Was sind die Systemanforderungen?

Zonos benötigt Linux (vorzugsweise Ubuntu 22.04/24.04) oder macOS und eine GPU mit 6GB+ VRAM. Das Hybrid-Modell benötigt zusätzlich eine 3000er-Serie oder neuere Nvidia GPU. Zonos kann auch auf CPU laufen, wird aber deutlich langsamer sein.

Kann ich Zonos unter Windows ausführen?

Für experimentelle Windows-Unterstützung schauen Sie sich den Windows-Fork von Zonos an. Linux oder macOS wird jedoch für die beste Erfahrung empfohlen.

Wie beginne ich mit Zonos?

Sie können Zonos direkt in Ihrem Browser mit unserer Online-Demo testen oder es lokal mit pip oder docker installieren. Schauen Sie sich unsere Dokumentation für detaillierte Installations- und Verwendungsanweisungen an.

Welche Sprachen unterstützt Zonos?

Zonos unterstützt derzeit Englisch, Japanisch, Chinesisch, Französisch und Deutsch. Wir arbeiten kontinuierlich daran, Unterstützung für weitere Sprachen hinzuzufügen.

Wie funktioniert Stimmklonierung?

Zonos kann eine Stimme aus nur wenigen Sekunden Audio (10-30s empfohlen) klonen. Geben Sie einfach ein Referenz-Audio-Clip zusammen mit Ihrem Text an, und Zonos generiert Sprache in dieser Stimme.

Bereit, Zonos zu testen?

Erleben Sie die Kraft von Open-Source-Text-zu-Sprache.