ZON
2026-01-20·产品 / 全栈 / 音乐教育 / 音频AI·公开资料调研 + 复刻路线(不含登录后深度实测)
Research Playbook

Songscription(AI扒谱/自动转谱):怎么用、怎么实现、能做什么、如何复刻

从公开信息还原能力边界与技术路线,并给出可复刻的开源栈

Songscription 是把音频/YouTube 链接自动转成乐谱、MIDI、钢琴卷帘与(吉他)TAB 的服务(强项在单乐器,尤其钢琴)。 独立评测给出 2/5 分:音高检测不错,但节奏/拍号与“可读谱面”仍需大量人工编辑。复刻时最关键的 crux 是把“音符识别”与“排版编辑”分成两层。

音乐AI转谱FreemiumMIDI/MusicXML版权风险复刻路线

要点

  • 官网:https://songscription.ai/(可上传音频或 YouTube 链接自动转谱,支持导出 PDF/MIDI/MusicXML/GuitarPro,并提供钢琴卷帘可视化)。
  • 官方定位:“Shazam for sheet music”,核心是单乐器转录 + 在线编辑;官方声明支持钢琴/原声吉他/Bass/长笛/小提琴/小号,并可做任意歌曲的钢琴编配(piano arrangement)。
  • 独立评价(MusicRadar):评分 2/5;优点是音高检测(含装饰音/复杂和弦)较强;主要短板在节奏/拍号不稳定、谱面需要大量再排版,且多乐器音频更难。
  • 规模与资金(MBW):2025-11 报道其完成 $5M 融资,并称上线 5 个月吸引 15 万用户、覆盖 150 个国家
  • 复刻的关键变量:要做“能听出音符”不难;要做“可读可练的谱”(拍号、连音线、分组、指法/和弦标记等)需要额外的编辑层(heuristics + UI + 人在回路)

官网地址 / 能力清单(可验证)

内容 来源 备注
官网 https://songscription.ai/ 官方首页 支持上传音频/YouTube 链接
输出物 Sheet music / Piano roll / Guitar tabs;导出 PDF、MIDI、MusicXML、GuitarPro 官方首页 GuitarPro 导出对“吉他教学/二次编辑”很关键
支持乐器(官方声明) piano、acoustic guitar、bass guitar、flute、violin、trumpet 官方首页 “direct transcription” 试图仅抽取所选乐器
免费额度(官方声明) 每月最多 10 次 3 分钟转录 + 无限次 30 秒转录;可升级 Plus/Pro 官方首页 第三方报道提到 Pro 为 $29.99/月(需以 pricing/实测为准)
页面一致性提示(为什么“支持乐器”会出现差异)
  • 官方首页列出的“direct transcription 支持乐器”与第三方报道(如 Music Ally/RouteNote)列出的更长乐器清单存在差异;可能原因包括: ① 登录后/实验性功能 ② “编配/减法分离”支持更多目标 ③ 报道误读/版本变化。
  • 做复刻时建议:先按“官方明确 + 可复现实测”的最小集合设计,再逐步扩展。

能做什么(从用户任务拆解)

学习/演奏

  • 把喜欢的歌变成可打印谱(PDF)或可导入谱软件(MusicXML)。
  • 对不擅长读谱的人提供钢琴卷帘(piano roll)作为替代表示。
  • 吉他场景提供Tab + GuitarPro,更贴近真实练习路径。

创作/制作

  • 把即兴/录音快速转成MIDI,进入 DAW 做编曲/分轨/配器。
  • 将复杂作品做钢琴编配(piano arrangement)(官方宣称可对任意歌曲生成)。
  • 在线编辑后导出,作为“半自动记谱软件”加速工作流。

怎么用(新手可复现的操作路径)

网页端(官方描述)

  1. 打开 songscription.ai,选择上传音频或粘贴 YouTube 链接。
  2. 选择目标:direct transcription(指定乐器)或 piano arrangement(钢琴编配)。
  3. 等待生成(通常几分钟),在网页内预览 sheet / piano roll / tabs。
  4. 按需要在线编辑(节奏/拍号/分组/错音修正)。
  5. 导出:PDF(打印)、MusicXML(谱软件)、MIDI(DAW)、GuitarPro(吉他)。

版权/权限(媒体报道)

  • 媒体报道强调:上传时需要勾选确认“拥有或获得转录所需权利”。
  • 如用于教学/练习/个人用途,法律灰区仍需关注(TechCrunch/RouteNote/Music Ally 均有讨论)。

怎么实现(基于公开信息的还原)

公开披露的技术线索(更可信)

  • 模型形态:官方 blog 声称是自研 Transformer-based 架构;MIDI.org 也描述其“in-house AI”与“两个核心模型”。
  • 训练数据:TechCrunch 报道包含三类:向音乐人购买/获取的演奏+谱面、公共领域谱面、以及占比很高的合成数据(把谱面合成音频并加噪声/混响)。
  • 产品栈:招聘信息提到 React/React Native/Next.js/Tailwind、Supabase、AWS(推测为 web app + 云端推理/队列)。

为什么“节奏/拍号”是短板(与评测一致)

  • 多数学术/工业模型更擅长“音高 + onset”,但要把连贯演奏映射到离散小节网格需要更强的节拍/拍号建模与后处理。
  • 可读谱面还涉及连音线、分组、装饰音、声部划分与版面(engraving rules),通常需要“编辑层”。

谁最懂这个问题?他们会怎么拆解

Simon Dixon · MIR / AMT

  • Thesis:自动转谱的瓶颈不在“能不能听到音”,而在“节奏/分声部/可读性”。
  • Arguments:先定义任务与评测(solo vs mix;notes vs score);把数据集与指标对齐再谈“准确”。
  • Limits:离线 demo 易高估效果;真实用户上传音频分布更脏、更复杂。

Spotify Basic Pitch 团队 · 工程化

  • Thesis:先用稳健的 audio→MIDI baseline 跑通产品闭环,再逐步抬高“谱面级”质量。
  • Arguments:把推理做成可复用组件(批处理、分段、置信度);输出先满足 DAW/练习场景。
  • Limits:没有“分离/选择乐器”,多乐器音频的用户体验会显著下滑。

专业记谱编辑视角 · Engraving

  • Thesis:谱面是“抽象地图”,不是原始数据转写;必须做排版与省略。
  • Arguments:量化、连线、分组、拍号/调号推断、指法/和弦标记都要有规则与 UI。
  • Limits:纯模型输出很难直接可用;需要“人在回路”的可编辑工作台。

相关评价(第三方)

MusicRadar Review(2025-12)

  • 评分:2/5
  • 优点:音高检测很强(包含装饰音与复杂和弦);Freemium 模式“能免费试”。
  • 缺点:节奏检测不均、拍号经常不正确/不合理;谱面需要大量排版编辑;多乐器音频更难。

来源:MusicRadar review

一句话结论(来自评测正文)

“It's helpful in situations where you don't need help, and unhelpful in situations where you do need help.”

解读:当输入分布接近“单钢琴 + 简单节奏”时效果更好;越接近真实混音/自由速度/复杂配器,越容易崩。

复刻一个怎么做(分档路线图)

档位 你交付什么 用什么开源件 主要风险/坑 第一步
MVP(最推荐) 音频→MIDI + 钢琴卷帘 + MusicXML 导出(先只做 piano) Basic Pitch / piano_transcription(推理)+ OSMD/VexFlow(渲染)+ music21/partitura(转换) “能出 MIDI”≠“可读谱”;节奏/连线/分组会非常原始 先确定一条“输入→输出”闭环:WAV → MIDI → piano roll
增强(产品化) 多乐器(至少可选目标乐器)+ 在线编辑 + PDF 导出 Demucs/Spleeter(分离)+ instrument-specific 模型 + OSMD + editor UI 分离误差会传递;多乐器评测复杂;成本与延迟上升 先做“选择乐器 + 分离后转录”的离线原型,再搬到服务端
谱面级(最难) “几乎不用修”的可读谱(节奏/拍号/排版接近出版) 模型 + 规则引擎 + 人在回路(半自动) 需要大量标注与编辑规则;很难用纯自动化达到一致性 把“编辑操作”当成产品核心:提供对拍号/量化/连线的强工具
复刻的最小技术架构(可落地)
  • Frontend:Next.js(上传/预览/编辑/导出)。谱面渲染用 OpenSheetMusicDisplay(MusicXML→SVG)。
  • Backend API:上传鉴权、任务创建、结果下载;简单可用 FastAPI/Node。
  • Worker:音频预处理(重采样/分段)→ 模型推理 → 后处理(量化/拍号)→ 产物落盘(MIDI/MusicXML/PDF)。
  • Storage:S3 兼容对象存储(音频/产物),数据库记录任务与权限(Supabase/Postgres)。
  • Billing:按“时长/次数/并发”计费;与模型成本(GPU)强绑定。

相关开源仓库(做类似能力)

模块 推荐仓库 用途
audio→MIDI baseline spotify/basic-pitch 轻量音频转 MIDI(含 pitch bend),适合做 MVP
多轨/多任务转录(研究级) magenta/mt3 多任务多轨转录(研究/实验)
钢琴转录 bytedance/piano_transcription 钢琴转录推理/训练参考
转谱工具箱(含多任务) Music-and-Culture-Technology-Lab/omnizart 涵盖 vocal/drum/chord/beat 等任务的工具箱(适合原型)
谱面渲染(Web) opensheetmusicdisplay/opensheetmusicdisplay MusicXML 在浏览器渲染(基于 VexFlow)
记谱渲染底座 vexflow/vexflow 记谱与 Tab 的渲染库(更底层)
GuitarPro 读写 Perlence/PyGuitarPro GP3/4/5 文件读写(用于导出/编辑互通)
源分离(stem splitting) facebookresearch/demucs 把混音拆成 stems,提升“选乐器转录”的可行性
MIDI/谱面处理(Python) cuthbertLab/music21 / CPJKU/partitura 做 MusicXML/MIDI 的转换、分析与后处理规则
数据集与音频基础设施 librosa/librosa / mir-dataset-loaders/mirdata 特征提取、加载 MIR 数据集、评测管线

风险与合规(复刻必须提前想清楚)

  • 输入版权:用户上传/YouTube 解析会把你带进灰区;至少需要“权利确认 + 投诉/下架流程 + 速率/滥用控制”。
  • 训练数据:TechCrunch/RouteNote 均提到“向音乐人购买/获取 + 公共领域 + 合成数据”的路线;复刻时要么走同样路线,要么用可公开授权的数据集。
  • 输出版权:就算不“生成新音乐”,把录音转成可下载的谱面也可能触发出版/授权体系(RouteNote 提到 Ultimate Guitar 等有授权合作)。

Evidence & Confidence

Claim Evidence Confidence Source
官网与核心功能(音频/YouTube→谱/MIDI/卷帘/导出) 官方首页功能描述与导出格式 High songscription.ai
Transformer-based + 装饰音等细节能力(官方主张) Launch announcement 自述 Med(自述) launch announcement
训练数据包含合成数据(占比较高) TechCrunch 报道(采访) Med TechCrunch
MusicRadar 评分 2/5 与 pros/cons 页面结构化数据(reviewRating/positiveNotes/negativeNotes)与正文结论段 High MusicRadar review
15 万用户 / 150 国 / $5M 融资 MBW 报道引用公司口径与投资信息 Med MBW
Freemium 额度(10×3min + unlimited 30s)与 Pro $29.99/月 免费额度在官方首页可见;Pro 价格来自媒体报道 Med(价格需再核验) official / RouteNote

Sources(本次引用)

One Next Action

选一条最小闭环来复刻:solo piano → MIDI → piano roll → MusicXML 渲染。先用 Basic Pitch 跑通,再把“拍号/量化/连线/分组”的编辑层做成产品核心能力。

先把“能用”跑通,再把“好用”做成编辑工作台。
— Closing note