Qiu Xipeng的开源苔藓团队

如果您不想观看内容,请尝试聆听推送! 。当前的文本到语音模型(TTS)对发言单句或孤立的段落的影响进行了惊人的发展,即使是在真实的人级别附近,合成语音的自然性,清晰度和表达也得到了显着改善。但是,由于缺乏整体对话情况,这些TTS模型仍然使综合声音失败,并具有高质量的对话声音。现在,历史的时刻到了!上海Chuangzhi学院,Fudan大学和Muse Intelligent的OpenMoss团队共同启动了革命性的成就-Moss -TTSD!这是第一次,基于数百万音频训练时间,它成功打破了AI播客的“黑社会山谷”的诅咒。 MOSS-TTSD-V0是新发布的,具有Ti权权和识别代码,这些代码是完全开放的资源,可以访问商业应用程序!项目地址:https://github.com/opeNMOSS/MOSS-TTSD在线体验:https://huggingface.co/spaces/fnlp/moss-ttsd与传统的TTS模型不同。 Moss-TTSD可以基于完整的多人对话文本直接生成高质量的对话声音,并准确地获得对话中语调的节奏变化和属性,从而意识到具有高拟人化的逼真的语音综合。接下来,聆听实际的测试结果,并将听力差异与其他TTS模型进行比较。中国样本播客团队将Doubao Podcast生成(商业产品)与MOSSD播客生成的开源与“前沿信号研究系统”的每日推文以及Moss-TTSD流量的开源源。众所周知,这两者的执行能力与许多维度相当。如果这是情感的丰富,语气的自然性或一般表达方式,莫斯-TTSD作为开放的资源模型,已经显示出与商业解决方案。形成如下:注意:由于Dubao无法控制博客文本的内容,因此两者的内容将无法控制,并且团队从MOSSD-TTSD稳定能力中组装了更多的音频样本,这是Mahusay在情感表达中的表现,自然和普遍的流动性的进一步验证。 G.E.M.,Jay Chou,Pan Changjiang,Gazi Speed XQC更长的播客:根据推动“心灵的上下文”环境,使用播客Genshin Impact Game生成的开源Podcast Generfling Genshin Game对Genshin游戏的播客影响的讨论。接下来,让我们更深入地了解Moss-TTSD的技术核心。 MOSSD-TTSD模型的技术分析基于QWEN3-1.7B-BANG ASE模型继续训练,并采用了一种离散的遵循语音的方法。该团队培训了将近100万小时的单扬声器语音数据和400个,000小时的对话语音数据以获得双语中文和英语合成功能。模型结构的概述:基于QWEN3-1.7B基本模型的实践,使用八层RVQ Codebook使用了离散化peech,使用沿延迟模式的自动降低延迟模式使用语音令牌生成,最后,使用Tokenizer dododer返回语音令牌。 XY-Sokenizer的崩溃更改Moss-TTSD主要更改在于XY-Sokenizer-专门设计的语音离散编码器。这个8层RVQ音频编解码器可以同时建模并编码语义语音和声学信息,从而以1kbps的形式压缩比特率,从而使大型语言模型能够有效地学习音频序列和详细声学特征的模型。如下图所示,XY-Sokenizer采用了多任务研究的双重阶段进行培训。第一阶段(上半场)在GASR的工作和重建,这允许编码器在编码语义信息时维护粗粒的声学信息。第二阶段(下半部分)安排了编码器的部分和零件的体积,仅是解码器零件。生成模型的能力用于通过重建GAN损失和损失来增加细粒度信息。 XY-Sokenizer使用多任务研究的两个阶段进行培训。多亏了超低比特率编解码器,Moss-TTSD支持音频生成长达960秒,并且可以立即产生超长的声音,避免在拼接的语音夹之间进行不自然的移动。它使Moss-TTSD专门适用于播客,电影和电视配音,长期访谈,人类数字对话和其他应用程序场景。数据工程:处理高质量数据的大规模实际数据挑战。这是出色的TTSD模型的基础。该团队设计了一个良好的数据处理管道,该管道可以准确过滤单个PE如下图所示,RSON语音和语音多人对话,并使用内部工具模型进行标记。清洁Moss-TTSD管道的概述。该团队首先将内部扬声器的隔离模型用于说话者的语音细分和注释,该模型超出了开放的Pyannote-Speakeer-Diarization-3.1源及其商业版本的性能。接下来,使用DNSMOS标记来检查语音的质量,并保留了标记≥2.8的高质量语音夹。下面的表达表显示了不同数据集中说话者分离模型的DER(诊断错误率)(较少,更好)。 Moss-TTSD使用的工具在所有四个测试集中均达到了最佳性能。对于多人对话的声音,团队还对自发对话ASR模型进行了培训,以执行精细的扬声器注释和文本转录,这是解决现有的ASR模型无法准确转录OV的问题erlap发音。实验结果:实现行业的领先水平,以客观地和全面评估Moss-TTSD的出色表现,该团队仔细地建立了一个质量测试集,其中包含近500次中文和英语对话。在评估过程中,团队首先使用MMS-FA模型(Meta s napamlingual语音强制对齐)将输入文本与单词级别的生成音频对齐,并将其分为标点符号段。每个段的扬声器标签由输入文本直接定义。为了确定密封件克隆的忠诚度和准确性,将其稳定器simamresnet100用作插入器嵌入式模型以进行审查。该模型可以立即计算每个生成的剪辑与两个扬声器之间的音调的均匀性,并确定与当前夹子扬声器的相似性增加。这样,可以移动每个声音音调的准确性和平均均匀性的扬声器是鳍盟友获得了。该团队将其与开放的月球播放模型进行了比较,并通过中文指标取得了重大领先的结果。另外,MOSS-TTSD的发音和自然性优于基线模型。有关更多演示比较,请参见:https://www.open-moss.com/cn/moss-ttsd/note:本文显示的音频仅用于演示,并且不表示团队的观点和位置。