输入示例
已确认文稿 + 最终配音音频,进入这个发布工作流
工作流指南
强制对齐是 TimedSubs 把完成的文稿和配音转换成带时间字幕文件的方式。它不是转写音频去猜文字,而是拿你已经批准的文字,找到每个词在音频中的位置。
输入示例
已确认文稿 + 最终配音音频,进入这个发布工作流
输出资产示例
SRT/VTT 字幕资产和质量备注,用于下游上传或编辑器交付
常见复核点
后期旁白改动会让字幕时间相对已确认文稿发生漂移。
决策点
强制对齐接收文本输入和音频文件,在音频流中定位每个词并赋予精确时间戳。输出是带时间的字幕文件,每一行都来自你的文稿,而不是转写猜测。
普通自动字幕从音频出发,反推文字——意味着语音识别错误、名字拼写错误和被改动的产品术语都会进入字幕文件。强制对齐从你的文字出发,向前推时间,所以文字从一开始就是锁定的。
当你已经有批准过的文稿、TTS 生成配音、产品演示旁白或课程内容,且文字已经确认时,强制对齐是正确选择。如果文稿还在编辑中,等文稿定稿后再用文稿 + 音频工作流。
实际工作流
准备好已批准的文稿文本(TXT、MD 或纯文本)。
将文稿和匹配配音音频上传到 TimedSubs。
审核对齐结果,解决质量问题,导出 SRT、VTT 或其他支持格式。
产品边界
强制对齐需要同时有文稿和匹配音频。如果只有音频,TimedSubs 不是合适的工具——请先用转写服务。
FAQ
转写从音频出发,用语音识别生成文字,可能悄悄改动文字。强制对齐从已批准文字出发,只用音频做时间定位。字幕文件里的文字就是你提交的文字——不是模型从录音里猜的。
TimedSubs 把不匹配标记为复核提示,而不是悄悄修改文稿。你可以看到哪些行有时间可信度问题,检查那段音频,再决定是否重录、调整文稿或接受偏差。原始文稿文字保持不变,除非你主动修改。