a13.gif

ivy

给海南鸡饭大佬的汉化音声whisper微调模型配了个colab懒人包


有人私信说要想要海南鸡饭大佬的3500小时whisper微调模型的colab懒人包
就粗浅地改了一个。
仅供个人AI学习使用, 请勿用于商业用途  

用法就是首先下载海南鸡饭提供的文件到本地,然后上传其中的模型文件夹(叫model的那个)到google drive里,然后转存这个notebook文件到相同位置,启动,免费版就连接T4,如果pro就可以用V100,L4啊什么的。然后在对应位置修改参数,挨个运行就行


按说明操作就行,就是要提前上传音声文件放到设置的输入文件夹,运行一遍notebook,最后去输出文件夹下载处理好的lrc。

除了第一次操作需要修改参数,后续就只需要运行完整个notebook就行了.

*:捉个虫,之前没考虑到超过一小时的长音频,whisper会生成为 【小时:分钟:秒数】格式时间戳。但lrc并不是为超过一小时的长音频设计的,所以并不支持【小时:分钟:秒数】而是继续以【分钟:秒数】的格式累加60以上分钟数。原来会导致一小时后的字幕无法识别,现在已经修正。重新保存一下新版colab notebook即可。运行方式不变。

**:捉个临时虫,根据反馈说-依赖的一个主要库更新出现兼容问题,等待库修复前请手动在第一栏代码中添加一行:
复制代码
  1. !pip install ctranslate2==4.4

来暂时修复。


*新增了在全部翻译完后自动断开colab连接时的一个开关。用来节省colab额度。

此帖售价 0 SP币,已有 533 人购买
若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!

mnwb020


none.gif

meizhiliu


none.gif

73e0d915


none.gif

TANGENT


732307.jpg

88a8ed15

B5F  2024-07-03 15:04
(幸運興)
看不明白@@

none.gif

艾斯克yin

上传模型文件夹里的那个最大的bin文件(model.bin文件)的时候,显示是个红色的圈,没任何进度是咋回事。

none.gif

艾斯克yin

试了下,还是这个问题,不知道怎么解决。

none.gif

西红柿炒番茄

很好用谢谢老哥,不过就是通顺度不如电脑跑的,但是速度很快

754479.jpg

逆回十六夜

B9F  2024-07-17 09:34
(fenglianshang)
    

9.png

茶道赛高

B10F  2024-07-17 16:18
([sell=0] 出售内容 [/sell])
感觉漏翻好严重啊,VAD检测阈值得调很低才行,试了0.5和0.45只翻了前几分钟然后就没了,直接跳过后面的部分   

none.gif

gtr50k

牛的回家试试

9.png

污龙乱码

B12F  2024-07-17 18:18
(25zzz)

回 楼主(ivy) 的帖子

有考虑做个kaggle懒人包吗?kaggle免费用双倍T4显卡跑.

none.gif

掌竟朝阳

回 10楼(茶道赛高) 的帖子

他这个会翻译为中文字幕嘛

2026138.jpg

みゆか様

B14F  2024-08-08 01:34
(这里什么都没有哦)
和本地跑的时间轴对比了下 发现用colab跑的时间轴整体会比本地的要偏长,只有切换到下一句的时候时间轴才会结束,不知道能不能改进一下(之前用的N46whsiper好像也是这个问题)

735430.jpg

欧沃萨蒙

    

none.gif

f9799e8c

谢谢大佬,能增加一个自定义输入输出格式的功能吗,谢谢

951141.jpg

吳明

B17F  2024-08-19 23:56
(可帮代下115、dmm 月额 原档片子)
相同的模型在colab上运行的精准度和本地运行相比也太拉垮了,明明colab上使用的t4显卡芯片TU104比我本地使用的拉基1050ti的GP107先进多了,怎会出现这种反差结果