炉米Lumi,字节跳动推出的ai绘画模型分享社区,炉米Lumi集成了多种功能,包括ai模型的上传与分享、Workflow的搭建以及LoRA(Low-Rank Adaptation)训练技术的支持,目的在于为AI爱好者、研究人员和开发者打造一个融合模型分享、工作流搭建和模型训练的综合性平台。炉米Lumi与Liblib和Civitai等平台在功能定位上颇为相似,剑指Liblib与CIvitai风格,不知道它怎么追赶两者庞大的模型库。
PDF2Audio是一个开源项目,旨在将 PDF 文件转换为音频格式,例如播客、讲座或摘要。该项目使用 Openai 的 GPT 模型进行文本生成和文本到语音 (TTS) 转换。用户可以上传多个PDF文件并根据不同的模板生成音频内容(例如播客、讲座、摘要)
SenseVoice,一款阿里通义实验室发布的FunAudioLLM框架多语言音频基础模型,enseVoice专注于高精度多语言语音识别、语音情感识别和音频事件检测,具有多语种、混合语言、音色和情感控制能力,在零样本语音生成、跨语言语音克隆和指令跟踪方面的能力表现优秀。
ToucanTTS,一套用于最先进语音合成的工具包,由斯图加特大学自然语言处理研究所(IMS)开发的超全文本转语音(Text-to-Speech, TTS)模型。ToucanTTS覆盖超过7,000种语言的大型多语言模型。
Moshi 是一个多流实时语音生成 Transformer 模型,支持全双工语音对话。其主要特点是同时语音输入和输出(全双工),以及处理复杂对话场景的能力,包括重叠语音、中断和情绪表达等非语言信息。
YuE是一个全新的多模态音乐开源模型,YuE具有从歌词生成高质量音乐的能力。能够生成长达5分钟的完整音乐作品,包括人声和伴奏,支持多种语言生成,如英语、中文、日语和韩语,YuE模型适用于音乐创作、歌词生成和多语言音乐制作等领域。
Goku是香港大学与字节跳动联合研发的多模态视频生成模型,基于校正流Transformer架构(Rectified Flow Transformer) ,专为图像与视频的联合生成优化
快手发布的全新文本到视频生成框架,是大连理工大学、香港中文大学和快手科技联合发布的一款全新3D感知和可控的文本到视频生成框架。CineMaster能让用户媲美专业电影导演的创作能力,能够精确放置场景中的物体,在3D空间中自由操控物体与摄像机,并直观地设计每一帧的布局,被誉为视频版本的ControlNet。
StereoCrafter是一个由腾讯ai实验室开发的能将普通的2D视频转换为沉浸式的立体3D视频的开源框架。
阿里Tora视频是阿里巴巴推出的ai视频生成框架,基于轨迹导向的扩散变换器(DiT)技术,能够将文本、视觉和轨迹条件融合,生成高质量且符合物理世界的动态视频。
炉米Lumi,字节跳动推出的ai绘画模型分享社区,炉米Lumi集成了多种功能,包括ai模型的上传与分享、Workflow的搭建以及LoRA(Low-Rank Adaptation)训练技术的支持,目的在于为AI爱好者、研究人员和开发者打造一个融合模型分享、工作流搭建和模型训练的综合性平台。炉米Lumi与Liblib和Civitai等平台在功能定位上颇为相似,剑指Liblib与CIvitai风格,不知道它怎么追赶两者庞大的模型库。