V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
iorilu
V2EX  ›  分享创造

最强 AI 字幕软件来了, V2sub - AI 字幕机(原创软件)

  •  
  •   iorilu · 2023-04-09 10:42:40 +08:00 · 17794 次点击
    这是一个创建于 604 天前的主题,其中的信息可能已经有所发展或是发生改变。

    V2sub 是基于最新 ASR (自动语音识别)技术开发的一款 AI 智能字幕生成软件, 可将任意视频 转换为各种语言的字幕, 软件操作简单, 任何人可以轻松一键生成。 从此看剧不用愁 支持十几种语言, 支持 GPU 加速, 基于 OpenAI 技术构建

    V2sub

    V2sub - AI 字幕机

    软件主要功能:

    1. 一键生成字幕
    2. 支持多语言
    3. 支持各种视频格式
    4. 支持 CPU ,GPU 进行 AI 计算
    5. 使用 GPU 可获得 CPU 的 8-10 倍性能
    6. 支持批处理, 可将一个目录所有视频一键生成字幕

    B 站视频

    B 站 V2sub 视频

    联系:

    邮箱: [email protected] 微信:aizimuji QQ 群:157222123

    软件下载

    第 1 条附言  ·  2023-04-09 11:33:44 +08:00
    阿里云盘好像不支持大压缩包分享

    请先到其他两个盘下载
    87 条回复    2023-08-29 13:22:22 +08:00
    Microi
        1
    Microi  
       2023-04-09 10:46:35 +08:00   ❤️ 1
    优秀,支持。
    dawe
        2
    dawe  
       2023-04-09 11:05:35 +08:00 via iPhone   ❤️ 11
    这个是只是把 whisper 用 gui 包装了一下还是有什么改进?
    closedevice
        3
    closedevice  
       2023-04-09 11:10:05 +08:00
    自己训练的模型?
    sytao
        4
    sytao  
       2023-04-09 11:12:48 +08:00 via iPhone
    下载试试!
    renmu
        5
    renmu  
       2023-04-09 11:19:01 +08:00 via Android
    盲猜 whisper 包装了一下,然后用 chatgpt 进行翻译😂
    imicksoft
        6
    imicksoft  
       2023-04-09 11:23:59 +08:00
    前几天用 subtitle-edit 生成字幕,6 分钟中文影片生成字幕用了半天时间
    而同事用剪影就很快,可惜我的电脑 aero 效果不能开了,无法用剪影
    iorilu
        7
    iorilu  
    OP
       2023-04-09 11:34:28 +08:00
    @imicksoft 这个软件大概只需要 30 秒
    iorilu
        8
    iorilu  
    OP
       2023-04-09 11:35:28 +08:00
    @dawe 模型是用 whisper , 后面可能会有优化, 另外加上翻译功能

    whisper 本身不支持翻译
    Wenbobobo
        9
    Wenbobobo  
       2023-04-09 11:37:18 +08:00 via Android   ❤️ 1
    不是,whipser.cpp 有 GPU 版本的 gui 吖
    Const-me/Whisper: High-performance GPGPU inference of OpenAI's Whisper…https://github.com/Const-me/Whisper
    iorilu
        10
    iorilu  
    OP
       2023-04-09 11:47:50 +08:00
    @Wenbobobo 我这不是光套个壳子, 关键是能翻译成多种语言字幕

    如果只是套个壳子我也懒得折腾了
    CRipple
        11
    CRipple  
       2023-04-09 11:59:33 +08:00
    支持,下载试一试
    xzheng
        12
    xzheng  
       2023-04-09 12:01:38 +08:00
    不支持 OSX ?
    iorilu
        13
    iorilu  
    OP
       2023-04-09 12:02:24 +08:00
    @xzheng 暂不支持, 毕竟 macos 也不支持 GPU 加速, 只能弄个 CPU 版

    暂时没时间, 也没机器
    makelove
        14
    makelove  
       2023-04-09 12:06:40 +08:00
    之前看过一个 whisper 评测 https://blog.lopp.net/openai-whisper-transcription-testing/
    cpu 的性能几乎不能忍,gpu 的性能几十倍于 cpu
    xzheng
        15
    xzheng  
       2023-04-09 12:06:48 +08:00
    CPU 版能打包个 OSX 版本吗? V2EX 社区 OSX 用户可能比较主流。
    vokins
        16
    vokins  
       2023-04-09 12:07:06 +08:00 via iPhone
    很高级收藏了
    iorilu
        17
    iorilu  
    OP
       2023-04-09 12:13:06 +08:00
    @xzheng 后续可能会安排

    不过我得先买机器, 我有个 macbook air 2017 , 但这个我估计现在做开发也不够了把
    shiqueb
        18
    shiqueb  
       2023-04-09 12:15:51 +08:00 via Android   ❤️ 7
    https://github.com/abdeladim-s/subsai
    同样的功能,GPL 开源
    iorilu
        19
    iorilu  
    OP
       2023-04-09 12:19:11 +08:00   ❤️ 2
    @shiqueb 这种东西开源不少得, 但得懂点技术才能玩

    我是想搞一个任何人都能玩得东西, 毕竟用户体验很重要
    loli
        20
    loli  
       2023-04-09 12:31:50 +08:00
    用过 whisper,效果不错
    但有个很严重的问题,时长较久的视频会产生大量重复的内容
    甚至会从某个时间段完全重复到结尾
    以下 issues 也提到了
    https://github.com/Const-me/Whisper/issues/26

    想了一些方法但都是用户侧的,最后还是决定等待更新
    不知道 up 作为开发有什么解决方案没
    yunyuyuan
        21
    yunyuyuan  
       2023-04-09 12:32:20 +08:00
    闭源产品?那和字节的剪映相比有什么优势吗,剪映还不需要自己的 GPU
    javaluo
        22
    javaluo  
       2023-04-09 12:34:33 +08:00
    可以设置为中英双语么
    中英两行放在一起
    guoyan
        23
    guoyan  
       2023-04-09 12:57:02 +08:00
    这么厉害。太棒了。
    Wpaengd
        24
    Wpaengd  
       2023-04-09 13:14:44 +08:00
    优秀
    imicksoft
        25
    imicksoft  
       2023-04-09 13:15:25 +08:00
    @iorilu
    界面用什么开发的?这个需要 win 几?需要哪些支持库?
    iorilu
        26
    iorilu  
    OP
       2023-04-09 13:22:25 +08:00 via Android
    @yunyuyuan 一来本地执行,不是什么视频都适合上传

    二来剪影只支持中英文把, 这个支持十几种语言

    三剪影只是转录字幕,并不支持翻译
    iorilu
        27
    iorilu  
    OP
       2023-04-09 13:26:09 +08:00 via Android
    @loli 是的,目前还有重复, 或者模型自己幻想出来都有,就是其实视频是杂音非人声,但模型有产出

    我看了一些资料,目前据我所知没有很完善的方案

    我最近想先发布一个初始版本

    后面会关注这些问题,有合适方案会更新的
    iorilu
        28
    iorilu  
    OP
       2023-04-09 13:26:54 +08:00 via Android
    @imicksoft 界面用了 pyqt6

    随便搞了个,qt 我也是现学的
    iorilu
        29
    iorilu  
    OP
       2023-04-09 13:28:36 +08:00 via Android
    @javaluo 目前不支持, 不过已经产出两个字幕,你在播放器加下就行

    或者找个视频软件把两个字幕嵌入就行

    可以看我 b 站视频演示
    Death
        30
    Death  
       2023-04-09 14:09:10 +08:00   ❤️ 1
    KasonKwok
        31
    KasonKwok  
       2023-04-09 14:41:47 +08:00   ❤️ 1
    可以尝试下 [buzz]( https://github.com/chidiwilliams/buzz) 跨平台,支持在线 api 和离线模型转换,可以导出字幕,如果是影片的话可以用 ffmpeg 先取音频
    iorilu
        32
    iorilu  
    OP
       2023-04-09 14:45:15 +08:00
    @KasonKwok 这些东西可能对老外有点用, 因为 whisper 只能翻译为英语
    luckyswag
        33
    luckyswag  
       2023-04-09 15:12:54 +08:00
    感觉最近搭配 whisper + 翻译会有不少产品出现
    JCZ2MkKb5S8ZX9pq
        34
    JCZ2MkKb5S8ZX9pq  
       2023-04-09 15:51:37 +08:00
    @loli #20
    同遇到过这个问题,大段重复,发生原因不详。
    XiaoBaiYa
        35
    XiaoBaiYa  
       2023-04-09 17:11:39 +08:00
    大段重复解决了吗,这个解决了基本就可以商用了
    KasonKwok
        36
    KasonKwok  
       2023-04-09 17:54:27 +08:00
    @iorilu 并不是,可以选择自动识别语言,也可以手动选择语言
    iorilu
        37
    iorilu  
    OP
       2023-04-09 17:56:46 +08:00
    @KasonKwok whisper 本身只是转录字幕, 视频是什么语言, 字幕就是什么语言

    并不能把日语视频, 生成中文字幕
    hanguofu
        38
    hanguofu  
       2023-04-09 20:31:47 +08:00
    有没有人试过用哪个 离线的 ASR (自动语音识别)技术对普通话 有比较高的识别率 ?
    KousukeSakurako
        39
    KousukeSakurako  
       2023-04-09 20:34:31 +08:00
    居然不支持 mp3
    iorilu
        40
    iorilu  
    OP
       2023-04-09 21:02:27 +08:00   ❤️ 1
    @hanguofu 这个就可以啊, 普通话识别率我认为还是很高的, 我发的 B 站视频就是这个软件识别得
    ViolaH
        41
    ViolaH  
       2023-04-09 21:11:49 +08:00 via iPhone
    个人目前做字幕(日-英&中)的方案是在 colab 上面跑 whisper ,然后将生成的日语字幕文件在本地进行内容和时间轴校对( whisper 的时间轴有时候会很错乱,以及上面提到的重复问题,但是内容识别准确度还是极其高的,基本不用改),校对后再用 ChatGPT 翻译
    iorilu
        42
    iorilu  
    OP
       2023-04-09 21:13:10 +08:00
    @ViolaH 大佬能说说看怎么进行校对, 有软件或库操作吗
    ViolaH
        43
    ViolaH  
       2023-04-09 21:15:02 +08:00 via iPhone
    @iorilu 校对没办法啊,纯靠人工,whisper 的时间轴真不太靠谱
    iorilu
        44
    iorilu  
    OP
       2023-04-09 21:16:00 +08:00
    chatgpt 翻译字幕有个对齐得问题

    我前段时间本来想把 chatgpt 翻译器加上, 后来发现没解决这个对齐问题

    比如说我发十句话, 希望 chatgpt 返回十句话, 不要自行进行合并处理

    找了下没看到好的方案, 后来暂时搁置了

    除非一句一句发, 但效率太低
    iorilu
        45
    iorilu  
    OP
       2023-04-09 21:26:06 +08:00
    @ViolaH 你 chatgpt 解决对齐问题了吗, 可能一次发很多句, 然后确保返回同样行吗
    lemonda
        46
    lemonda  
       2023-04-10 00:25:42 +08:00
    可以转音频么?
    因为我做视频时直接录音总是脑子有点转不过来,后期配音从容些。
    能根据字幕生成 ffmpeg 裁剪命令么?
    能的话可以一定程度替代 descript 了
    mayq0422
        47
    mayq0422  
       2023-04-10 02:40:31 +08:00 via Android
    @iorilu 可以用括号呀
    比如 admin:翻译括号{{}}中内容到中文,不要跳过任何内容。无法翻译的输出空括号{{}}。
    user: {{hello}}{{world}}
    EndDream
        48
    EndDream  
       2023-04-10 08:05:54 +08:00
    我试了一下,和 buzz 一样,识别出来的的时间轴有问题,有时候会强行连在一起,明明就一句话,中间还有一段时间不说话,但是时间轴却一直延伸到下一句话,我问了 buzz 那边的作者是说是模型问题
    lylmydear
        49
    lylmydear  
       2023-04-10 08:51:33 +08:00
    试了一下,后期可以考虑加入简英 繁英和 ass 效果这些, NAS 党是很需要的,很多片源都没有对应的字幕.
    NeedforV2
        50
    NeedforV2  
       2023-04-10 09:07:45 +08:00
    先试试效果
    witcherhope
        51
    witcherhope  
       2023-04-10 10:14:21 +08:00
    你在 i2ex 论坛不支持 macOS ,推广有点困难哈哈
    muchenlou
        52
    muchenlou  
       2023-04-10 10:39:15 +08:00
    很酷
    iorilu
        53
    iorilu  
    OP
       2023-04-10 10:58:31 +08:00
    @witcherhope 暂没, 会尽快搞一个看看
    有人试过如果用老 macbook ,intel 芯片的, 编译打包软件, 能在新 macbook m1 ,m2 用吗

    我有个老 macbook ,intel 芯片的
    snowish
        54
    snowish  
       2023-04-10 11:05:46 +08:00
    不错不错,当年我学习英语的时候很想要一个这样的软件。后来我的英语听力上去了,就直接看美剧了,美其名曰啃生肉。
    iorilu
        55
    iorilu  
    OP
       2023-04-10 11:16:55 +08:00
    @mayq0422 不错啊, 我回头试试看
    zcf0508
        56
    zcf0508  
       2023-04-10 11:49:13 +08:00 via Android
    iorilu
        57
    iorilu  
    OP
       2023-04-10 12:05:53 +08:00
    @lemonda 音频后面会加上

    你说的根据字幕生成 ffmpeg 裁剪命令我不是很清楚什么意思

    应该是比较专业制作视频的人才需要把

    我目标还是做一个简单好用的字幕生成软件, 一键完成就行
    ColoThor
        58
    ColoThor  
       2023-04-10 12:31:50 +08:00
    免费版只支持前 10 分钟。。
    Andim
        59
    Andim  
       2023-04-10 12:39:26 +08:00 via iPhone
    @EndDream 这个好像就是在 Buzz 的基础上增加了翻译功能吧 字幕翻译也有开源的
    shaojz2005
        60
    shaojz2005  
       2023-04-10 14:00:08 +08:00
    如何收费呢
    iorilu
        61
    iorilu  
    OP
       2023-04-10 14:03:19 +08:00
    @shaojz2005 网盘里的 v2sub.pdf 有详细说明, 有兴趣可以看看

    5.8 元半个月
    9.8 一个月, 其他可以看 v2sub.pdf
    sunyang
        62
    sunyang  
       2023-04-10 16:42:46 +08:00
    @iorilu 收费的话建议改个名字,顶着 V2 的名字可能有商业上的风险。
    ungrown
        63
    ungrown  
       2023-04-10 16:55:30 +08:00
    @loli #20 听起来像是上下文缓冲区溢出了?
    lamquan
        64
    lamquan  
       2023-04-11 02:12:27 +08:00
    已经文稿了,能实现自动打轴功能吗
    fenglingyu
        65
    fenglingyu  
       2023-04-11 09:07:05 +08:00
    @mayq0422 这个也不行,试了下,30 行字幕,合并成 25 行,有时候加的限制多了,chatgpt 为了保证行数,直接变成复读机,重复输出几行。
    zky001
        66
    zky001  
       2023-04-11 14:19:11 +08:00
    我自己也做了一个自用 代码基本上是 gpt 生成的,我调试了一下 主要用在看岛国的爱情片上 效果挺不错的 也是 whisper+gpt api
    iorilu
        67
    iorilu  
    OP
       2023-04-11 14:28:43 +08:00
    @zky001 gpt 翻译对齐问题怎么解决呢, 还是一行一行发的
    elonmask
        68
    elonmask  
       2023-04-12 10:24:56 +08:00
    @iorilu mac 有 gpu 加速的,把模型转成 coreML 就行了
    iorilu
        69
    iorilu  
    OP
       2023-04-12 18:06:14 +08:00
    @elonmask 还没了解 , 不过看了可以在 mac 上用 whisper.cpp , 应该性能提升了一些, 可以用了

    我后面会考虑出个用 whisper.cpp 的 mac 版本
    iorilu
        70
    iorilu  
    OP
       2023-04-14 16:37:29 +08:00
    V2sub - AI 字幕机 新版本 0.4.0 发布
    文件已上传至网盘

    该版本新增若干功能, 具体如下

    - 增加音频处理 , 可处理 mp3 ,wav 等众多格式 (专业版独享)
    - 增加单独字幕翻译功能(专业版独享)
    - 增加双语字幕生成功能
    - 增加双语字幕设置, 可控制源语言在上或在下
    - 增加智能跳过已生成字幕功能, 避免重复劳动

    网盘也有升级包下载, 请各位根据自己版本进行升级, 也有完整完整包
    fengtalk
        71
    fengtalk  
       2023-04-18 15:50:25 +08:00
    看了 B 站演示视频,效果不错。
    iorilu
        72
    iorilu  
    OP
       2023-04-24 18:40:45 +08:00
    V2sub - AI 字幕机 0.5.0 发布文档 发布时间:
    ### 发布时间:2023-04-21

    ### 该版本新增若干功能, 具体如下

    - 主窗口支持文件拖拽
    - 翻译增加语言设置, 设定中文输出为简体中文或繁体中文
    - 翻译器换为 google 翻译, 翻译更稳定, 速度大幅提高
    - 语言支持增加印地语, 乌克兰语
    iorilu
        73
    iorilu  
    OP
       2023-05-14 08:22:40 +08:00
    V2sub - AI 字幕机 0.6.0 发布文档
    发布时间:2023-05-13
    AI 字幕机官网已上线
    AI 字幕机产品网站 ( https://www.aizimuji.com)
    AI 字幕机注册码销售网站 ( https://buy.aizimuji.com)
    该版本有重大更新, 具体如下
    模型计算框架更换, 实现更快转录速度, 更少显存占用
    CPU 版, GPU 版速度提升 30-50%
    GPU 版显存占用大幅降低, 中模型仅需不到 4G 显存, 大模型仅需不到 6G 显存
    转录准确性也有相应提高, 但还有优化空间
    修复部分 Bug
    因该版本变化巨大, 和老版本不兼容, 故不提供升级包, 请大家下载完整包使
    用, 注册码有效期内可在新版本重新注册, 不影响
    重大提示
    该版本模型也完全更新, 和旧模型不兼容, 请重新下载新模型使用, 安装方法也有部分变化

    ## 软件下载
    - 百度盘 ( https://pan.baidu.com/s/1Btn3shMcs_5Z-zYh7P4c9w?pwd=3ev6
    提取码:3ev6 )
    - 123 网盘 ( https://www.123pan.com/s/toZZVv-b7TGA)
    iorilu
        74
    iorilu  
    OP
       2023-05-17 18:19:47 +08:00
    macOS 版开发完成, 已经上传了

    - AI 字幕机产品网站 ([https://www.aizimuji.com]( https://www.aizimuji.com))
    - AI 字幕机注册码销售网站 ([https://buy.aizimuji.com]( https://buy.aizimuji.com))

    软件下载
    百度盘 ( https://pan.baidu.com/s/1Btn3shMcs_5Z-zYh7P4c9w?pwd=3ev6 提取码:3ev6 )
    123 网盘 ( https://www.123pan.com/s/toZZVv-b7TGA
    wujunze
        75
    wujunze  
       2023-05-29 16:59:32 +08:00
    @iorilu 你好 Mac 版本打不开, 你试一下看看, 是不是因为 APP 签名的问题
    iorilu
        76
    iorilu  
    OP
       2023-05-29 21:01:04 +08:00 via Android
    XiaoBaiYa
        77
    XiaoBaiYa  
       2023-06-07 16:09:52 +08:00
    LZ 重复的问题解决了吗?
    iorilu
        78
    iorilu  
    OP
       2023-06-07 17:23:58 +08:00
    V2sub - AI 字幕机 0.7.0 发布文档
    ### 发布时间:2023-06-05

    ### 该版本有重大更新, 具体如下

    功能更新:
    - 增加 ChatGPT 翻译器, 以及翻译配置菜单功能 (仅供专业版)
    - 增加 cpu 全速模式开关, 使用 cpu 计算时可以提高 30%-50%性能, 主要针对没有 GPU 的用户(仅供专业版)
    - 翻译增加中途保存功能, 便于发生错误后继续上次进度
    - 优化模型转录字幕方式, 很好提升了生成字幕的时间轴准确性, 可用程度大幅提高, 已基本接近人工做的字幕
    - 使用新的打包方式, 体积大幅减小
    - 合并 CPU 和 GPU 版, 以后 Windows 只发布一个版本, 方便用户使用, 软件自动判断系统是否支持 GPU , 会优先使用 GPU , 没有 GPU 自动使用 CPU
    - 增加注册码过期后, 可以继续使用免费版功能, 避免重新安装

    Bug 修复:
    - 修复模型不支持中文路径 bug , 现在软件可以随便放置在中文或英文目录
    iorilu
        79
    iorilu  
    OP
       2023-06-07 17:25:17 +08:00
    @XiaoBaiYa 你说的重复问题有部分改善把, 可能没有 100%解决
    XiaoBaiYa
        80
    XiaoBaiYa  
       2023-06-08 08:38:15 +08:00 via iPhone
    @iorilu 嗯,已经买了一个月试试
    wujunze
        81
    wujunze  
       2023-06-12 22:45:29 +08:00
    @iorilu 你好 安装成功了, 谢谢, 可以加一个批量选中文件夹的功能吗, 一个文件一个文件拖进去 太麻烦了
    iorilu
        82
    iorilu  
    OP
       2023-06-12 23:35:58 +08:00 via Android
    @wujunze 专业版支持选择文件夹批量处理功能
    jsshwqz
        83
    jsshwqz  
       2023-07-04 00:05:13 +08:00
    支持直接转中文发音不?网上有款,但收费太高,
    iorilu
        84
    iorilu  
    OP
       2023-07-04 11:13:31 +08:00
    @jsshwqz 语音合成功能开发中, 后面会上线
    Rrrrrr
        85
    Rrrrrr  
       2023-07-16 11:27:08 +08:00
    我觉得卖给视频播放软件会好很多,这样使用太麻烦
    qqjt
        86
    qqjt  
       2023-07-17 15:13:58 +08:00
    厉害,实践出真钱
    mstephenses9531
        87
    mstephenses9531  
       2023-08-29 13:22:22 +08:00
    没看懂
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4880 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 03:59 · PVG 11:59 · LAX 19:59 · JFK 22:59
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.