AI应用上丫先知yaxianzhi.cn，ai写作，ai音频，ai视频，ai图文，ai编程，ai模型，ai教育，ai翻译，ai设计，ai炒股，ai搜索，办公，教程

炉米Lumi，字节跳动推出的ai绘画模型分享社区，炉米Lumi集成了多种功能，包括ai模型的上传与分享、Workflow的搭建以及LoRA（Low-Rank Adaptation）训练技术的支持，目的在于为AI爱好者、研究人员和开发者打造一个融合模型分享、工作流搭建和模型训练的综合性平台。炉米Lumi与Liblib和Civitai等平台在功能定位上颇为相似，剑指Liblib与CIvitai风格，不知道它怎么追赶两者庞大的模型库。

PDF2Audio

PDF2Audio是一个开源项目，旨在将 PDF 文件转换为音频格式，例如播客、讲座或摘要。该项目使用 Openai 的 GPT 模型进行文本生成和文本到语音 (TTS) 转换。用户可以上传多个PDF文件并根据不同的模板生成音频内容（例如播客、讲座、摘要）

SenseVoice

SenseVoice，一款阿里通义实验室发布的FunAudioLLM框架多语言音频基础模型，enseVoice专注于高精度多语言语音识别、语音情感识别和音频事件检测，具有多语种、混合语言、音色和情感控制能力，在零样本语音生成、跨语言语音克隆和指令跟踪方面的能力表现优秀。

ToucanTTS

ToucanTTS，一套用于最先进语音合成的工具包，由斯图加特大学自然语言处理研究所（IMS）开发的超全文本转语音（Text-to-Speech, TTS）模型。ToucanTTS覆盖超过7,000种语言的大型多语言模型。

Moshi

Moshi 是一个多流实时语音生成 Transformer 模型，支持全双工语音对话。其主要特点是同时语音输入和输出（全双工），以及处理复杂对话场景的能力，包括重叠语音、中断和情绪表达等非语言信息。

YuE

YuE是一个全新的多模态音乐开源模型，YuE具有从歌词生成高质量音乐的能力。能够生成长达5分钟的完整音乐作品，包括人声和伴奏，支持多种语言生成，如英语、中文、日语和韩语，YuE模型适用于音乐创作、歌词生成和多语言音乐制作等领域。

Goku

Goku是香港大学与字节跳动联合研发的多模态视频生成模型，基于校正流Transformer架构（Rectified Flow Transformer），专为图像与视频的联合生成优化

CineMaster

快手发布的全新文本到视频生成框架，是大连理工大学、香港中文大学和快手科技联合发布的一款全新3D感知和可控的文本到视频生成框架。CineMaster能让用户媲美专业电影导演的创作能力，能够精确放置场景中的物体，在3D空间中自由操控物体与摄像机，并直观地设计每一帧的布局，被誉为视频版本的ControlNet。

Tora

阿里Tora视频是阿里巴巴推出的ai视频生成框架，基于轨迹导向的扩散变换器（DiT）技术，能够将文本、视觉和轨迹条件融合，生成高质量且符合物理世界的动态视频。

AI模型