V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  Moear  ›  全部回复第 1 页 / 共 2 页
回复总数  21
1  2  
@IvenWang 感谢支持🥰
@ccc00 不是😋
@xiaoshouchen
对于背景音乐 人工使用 minimax 的音乐模型(类似 suno)生成的 现在这种音乐模型已经很成熟了
对于音效 cc/codex 有 agent 功能,让他自己上网搜 游戏 音效 免费 开源 他会自己爬下来 当时我给的提示词是"开个 subagent 找找有没有免费 sfx 音效网站 我要补齐一下音效 如果你能抓取的话那就自动帮我抓" 他找到了 Mixkit 这个网站写脚本自己爬的
对于素材 通常是简单的 css + 一些的 svg 矢量图,这种给个图片+需求给强多模态的 ai(比如 gemini 3.1pro 大概花个 8 分像) 而后面 codex 支持了 gpt image 2 就尝试使用了一下来绘制 png 图片作为一些游戏角色的皮肤使用
@iamnottsh 因为这相当于要整套重写前端 ui 代码了 不过你要是有精力的话可以考虑让 llm vibe 一个 Python Flet 版本的出来
@iamnottsh 那没有,做不了一点
@iamnottsh 为什么要有网页版.....pyside6+nuikta 编译后的性能比网页端好太多了
@yeqizhang
i 站哪有字幕下载....
@Hansah cosyvoice 最长大概 20s 左右吧 单句过长了会自动截断分成若干个任务,然后分开跑,当然你也可以自行截断(在文本编辑页面换行 然后丢到计划任务里面去), 程序在最后提供了 FFmpeg 一键合成音频的方式,此时从理论上来说无限长度 控制符可以看一下 23 楼的那个回答
@Hansah 那玩意阿里巴巴没开源😭只开源了 0.5b 参数量的版本
@MindMindMax 苹果大带宽的内存跑 ai 啥的还是挺香的😂
@MindMindMax 我自己的显卡是 4070m(笔记本 当做 4060ti 8gb 版本就行了) rtf(Real-Time Factor ,实时因子)大致在 0.8~1.6(越低越好 说明推理数值越快 rtf 是 1 的话就说明显卡花 1s 的算力可以推理出 1s 的音频来) 纯靠 cpu 的话我用 q1hy(13900hk es)的 rtf 大概是 10,30s 时间能推理出 3s 的音频来
@Xhack 可以自行找一段 Moss 的 3s 到 10s 的无底噪的音频截取下来,来源可以是在 b 站搜一下[ [流浪地球①] MOSS/550W 语录/语音集 (自存)] 作为参考音频推理使用 现在的 tts 模型基本都支持了这种无训练方式复刻音色的功能了
@Frankcox 官方的暂时没有😂他只给了一个训练的 train.py 脚本,就是得自己改代码了
@Bantes 仁者见仁智者见智 可能是你对 tts 不感兴趣吧
@Frankcox 不知道 建议问问别人 gptsovits 没咋用过
@noming 零样本复刻模式/修复模式下必须要填参考文本+参考音频(参考文本一定得是参考音频的完整文字部分) 指令模式/精细控制下必须要填参考音频
@noming 不用找额外的示例文件 只需要使用指令模式 然后在后面的指令文本框里面输入使用方言(四川话 粤语 东北话之类的)就能输出方言了
@root71370 可以考虑一下[FunASR]( https://github.com/modelscope/FunASR) 里面带了很多 asr 模型可以直接导入使用,正好昨天新出了一个 FunASR nano 模型来着 做中文识别很不错,可惜暂时还不支持时间戳功能
1  2  
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2994 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms · UTC 05:04 · PVG 13:04 · LAX 22:04 · JFK 01:04
♥ Do have faith in what you're doing.