
FUZZ是由Riffusion推出的一款全新的AI音乐生成模型,基于扩散模型(Diffusion Model)开发。该工具能够通过“想象”生成音频的声谱图(Spectrogram),然后将其转换为音频。你可以输入描述性提示(例如音乐类型、乐器、情绪等),模型就会根据提示生成对应风格的声谱图并输出音乐。
FUZZ主要功能:
音频生成:FUZZ能够生成高质量的音频,用户只需输入简单的文本提示,模型便能根据这些提示生成对应风格的声谱图并输出音乐。
声谱图处理:FUZZ模型通过生成声谱图来实现音频的可视化,这为音频的进一步处理和分析提供了便利。
永久免费使用:Riffusion表示,只要其GPU资源能够支持,FUZZ将会永久免费开放给用户使用。
SenseVoice,一款阿里通义实验室发布的FunAudioLLM框架多语言音频基础模型,enseVoice专注于高精度多语言语音识别、语音情感识别和音频事件检测,具有多语种、混合语言、音色和情感控制能力,在零样本语音生成、跨语言语音克隆和指令跟踪方面的能力表现优秀。