AI 内容版权与数据授权已成为基础模型, AI 搜索, 企业 RAG 的上游供给约束, 真实收入只集中在权利清晰可溯源的高价值数据, 评级跟踪。
法律信号从「训练是否天然 fair use」转向「来源是否合法, 是否付费, 是否替代损害」。Anthropic 与 Meta 作者案胜诉, 但 Thomson Reuters v. Ross 在 Westlaw headnotes 上抗辩不利。通用文本不会全面收费, 专业数据库与盗版来源风险显著更高。已落地的是头部新闻档案, UGC API, 学术 TDM 与 rights-cleared 视觉授权, 音乐与人格权训练仍停在灰色地带。
利润池最可能集中在专业数据库工作流 (RELX, TRI, WKL), 其次是权利清晰内容平台与 Cloudflare 这类卖铲基础设施。Reddit/NYT 估值已透支 AI 预期。12-24 个月催化剂是欧盟 GPAI 数据摘要执行, fair use 判例分化, AI 搜索分成落地与否。
核心结论
AI内容版权与数据授权已经从“抽象合规问题”变成了基础模型、AI搜索、企业RAG和多模态生成的上游供给约束之一,但真正已经形成公开可验证收入的,主要集中在高价值、结构化、可溯源、权利清晰的数据,而不是整个开放互联网。最先落地的不是“普遍版权付费”,而是头部新闻档案授权、UGC/API授权、专业数据库/教育内容授权、图库安全生成、以及企业私有数据治理。
已经产生真实收入、且公开证据最强的场景包括:AP—OpenAI新闻档案授权、FT—OpenAI、Axel Springer—OpenAI、News Corp—OpenAI、NYT—Amazon、Reuters—Meta、Reddit—Google/OpenAI、Stack Overflow—OpenAI/Google/Moveworks、Informa/Taylor & Francis—Microsoft、Wiley的研究内容AI授权、Shutterstock—OpenAI、Getty的“commercially safe”生成与AI平台合作。多数交易金额未公开,但至少已经跨过“合同签署”与“收入落地”阶段。
当前收入确定性最高的,并不是广义媒体,而是专业工作流型数据库公司:Thomson Reuters、RELX/LexisNexis、Wolters Kluwer、Pearson、S&P Global、Moody’s、FactSet、Bloomberg 这类公司拥有高质量、持续更新、元数据完备、嵌入关键决策流程的内容与数据,其AI商业化更常以AI增强订阅/工作流产品而非“裸卖训练语料”实现,毛利与留存更高,防御也更强。
仍明显停留在诉讼、政策博弈或灰色私下交易阶段的,主要是:大规模公开网页预训练、图书通用语料、未授权音乐训练、影视/动漫/角色训练、代码通用抓取、低透明度数据经纪、以及大部分人格权/声纹/肖像权训练。这些环节的核心问题不是“有没有价值”,而是权利边界、来源证明、市场替代损害、以及跨法域合规尚未统一。
法律信号已经从“AI训练是否天然属于fair use”转向“数据来源是否合法、是否付费取得、是否属于高附加值结构化内容、是否造成可证明的替代损害”。2025年的几个关键判决分化很大:Anthropic 在“合法获得的图书用于训练”上获得有利裁定,但对盗版书库保留高风险;Meta 在作者案中获胜;而 Thomson Reuters v. Ross Intelligence 则对使用Westlaw headnotes训练/比对的fair use抗辩不利。这个组合意味着:通用互联网文本不一定全面收费,但专业数据库与盗版来源的法律风险显著更高。
新闻出版商的AI授权目前更像“防御性货币化”而非已经成熟的新主业。头部品牌能签大单,但绝大多数交易金额保密、收入常被混在“licensing/other revenue”里,且AI搜索对流量和摘要归因的侵蚀仍在继续;因此头部新闻集团能拿到补偿,中腰部出版商未必能。
音乐行业正在从“起诉生成平台”过渡到“选择性许可+分成+艺术家同意机制”。2024年三大唱片公司起诉 Suno/Udio;到2025年下半年,WMG与Suno/ Udio、三大唱片与Klay等开始出现授权与合作,说明音乐版权不会简单被模型免费吃掉,而更可能进化为许可目录、可控风格/声音、订阅分成、版权过滤与版税核算的组合模式。不过,公开财务贡献仍明显弱于新闻与专业数据库。
图库与视觉赛道已经出现比新闻更清晰的产品化路径:Getty明确把“commercially safe”“indemnification”“contributor compensation”做成企业卖点;Shutterstock既提供训练数据,又通过Contributor Fund与OpenAI合作延长链条;视觉中国则在中国市场强调“可商用+可溯源+平台服务费”的版权交易与AI创意定制。视觉赛道的长期利润池,更可能留在有release、有元数据、有商业安全承诺的内容库和交易平台,而不是单次训练授权。
UGC与社区数据是最早被重新定价的AI原材料之一。Reddit把Data API授权给Google与OpenAI,Google明确把该API用于展示、训练与理解Reddit内容;Stack Overflow则把公开问答语料、API与企业知识产品一起包装成“Knowledge Solutions/Data Licensing”。这类数据的核心价值不只是文本本身,而是新鲜度、结构化、社区验证和问题—答案图谱。
AI原生挑战者正在抢占传统版权管理公司的位置,但多数还处于叙事强、规模证明弱阶段。Cloudflare 已把默认拦截AI爬虫、Pay Per Crawl和内容信号工具推向主流;RSL推出了可机器读取的许可标准;TollBit已经有“transactions live”;ProRata给出50%收入分成框架;Created by Humans把图书训练/RAG权利模块化;Vermillio、Loti聚焦 likeness/voice 保护与授权。问题在于:标准化能力已出现,但可持续大规模收入还未充分披露。
未来长期利润池更可能留在三类公司:其一,专业数据库与工作流平台;其二,权利清晰、可商业安全输出的内容平台;其三,数据治理/合规/溯源基础设施。相比之下,纯模型公司可能更希望把授权成本压缩到少数关键内容,而不是为广义互联网普遍付费。
从估值角度看,市场对Reddit、部分头部AI叙事平台的“数据授权期权”定价已经不低;对News Corp 的多家LLM授权能力、Wiley/Informa 的AI内容货币化、Getty/Shutterstock 的合规视觉资产重估、以及专业信息巨头把内容库升级为AI工作流产品的定价仍存在分化。相对而言,Getty/Shutterstock 等视觉资产平台的市场定价明显低于专业数据库公司,而 Reddit、NYT 等市场已提前反映相当一部分AI预期。
未来十二到二十四个月最大的催化剂不是单一诉讼输赢,而是三件事:欧盟GPAI训练数据摘要与版权执行细则是否真正落地、美国版权与fair use判例是否继续分化、以及AI搜索是否形成可量化的publisher revenue share / citation traffic体系。这些决定了AI版权授权到底会停留在少数大单,还是进化成长期成本与基础设施市场。
产业链全景与商业化阶段
本赛道最重要的切分,不是“内容行业 vs AI行业”,而是五个阶段:诉讼主张、授权谈判、合同签署、收入落地、可持续规模化授权。到目前为止,真正跨过第五阶段的仍然很少;最成熟的是专业数据库订阅型AI产品,第二成熟的是UGC/API数据授权,第三才是头部新闻和图库的AI授权。音乐、影视IP、图书长尾版权、人格权与通用网页抓取,仍广泛停留在前四阶段。
| 产业链位置 | 细分环节 | 核心产品/服务 | AI需求驱动 | 主要收入模式 | 内容/版权/治理壁垒 | 监管/诉讼风险 | 商业化阶段 | 利润率特征 | 代表公司 | 受益强度 | 投资弹性 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 新闻出版 | 新闻档案与实时新闻授权 | 档案库、实时feed、摘要/展示授权 | LLM训练、AI搜索、实时问答 | 多年固定授权费、API费、摘要展示费、部分分成 | 品牌可信度、原创采访、归因需求、付费墙 | 高:NYT/OpenAI、出版商与AI搜索关系未定 | 合同签署→收入落地 | 增量毛利高,但可持续性不一 | AP、News Corp、NYT、FT、Reuters、Axel Springer | 高 | 高 |
| 学术出版 | TDM/语料授权 | 期刊全文、元数据、引文网络 | 训练、专业检索、RAG | 数据访问费、企业授权、一次性+递延付款 | 同行评审、引文元数据、机构关系 | 中高:作者同意与合同边界 | 合同签署→收入落地 | 高毛利,但政治/舆论摩擦大 | Informa/T&F、Wiley、Springer Nature | 高 | 中高 |
| 专业数据库 | 法律/税务/风险/科学/金融数据库 | 检索库、citator、知识图谱、AI copilot | 企业Agent、专业RAG、工作流自动化 | 订阅、seat、usage、工作流软件 | 高更新频率、结构化、嵌入流程、合规 | 中:但专业内容权利最强 | 可持续规模化授权 | 毛利与留存最佳 | Thomson Reuters、RELX、Wolters Kluwer、S&P Global、Moody’s、FactSet、Bloomberg | 很高 | 中高 |
| 音乐版权 | 录音/词曲/声音/肖像授权 | 目录、风格、voice rights、过滤与分账 | AI音乐生成、音色克隆、remix | 许可费、订阅分成、版税分配、风格/likeness授权 | 权利链复杂但集中度高 | 很高:诉讼与人格权并行 | 诉讼主张→选择性签约 | 若标准化成功,利润率高 | UMG、WMG、Sony、Merlin、Klay、Suno、Udio | 中高 | 很高 |
| 图库与视频素材 | rights-cleared视觉数据 | 图片/视频/3D、release、元数据 | 图像/视频训练、企业生成、品牌安全创作 | 订阅、调用、训练授权、成图生成费 | model/property release、元数据、版权理赔 | 高:Getty v Stability等 | 收入落地→规模化探索 | 可能出现高毛利“安全生成”产品 | Getty、Shutterstock、Adobe Stock、视觉中国 | 高 | 高 |
| 图书与作者 | 图书训练/RAG | 书籍全文、摘要、翻译/有声书权 | LLM训练、写作助手、知识问答 | 单书/批量许可、平台化 opt-in | 权利长尾、合同分散 | 很高:作者维权活跃 | 诉讼主张→早期平台化 | 许可毛利高,但清权成本高 | Authors Guild、Created by Humans、出版社联盟 | 中 | 高 |
| UGC平台 | 论坛/社区/评论数据 | Data API、结构化对话、实时讨论 | 训练、搜索增强、RAG | API费、年费、数据授权 | 新鲜度、讨论上下文、用户信号 | 中高:用户同意/平台条款 | 收入落地 | 高毛利,增量成本低 | Reddit、Stack Overflow、Quora/RSL生态 | 很高 | 很高 |
| 企业私有数据 | 企业RAG与权限数据 | 文档、客服日志、代码库、CRM | 企业Agent、内部问答、自动化 | SaaS、usage、数据治理附加费 | 权限体系、数据血缘、隐私与审计 | 中:主要是隐私/安全 | 可持续规模化授权 | SaaS毛利优 | Snowflake、Databricks、MongoDB、Elastic | 很高 | 中高 |
| 数据交易平台 | dataset marketplace / exchange | 数据分发、rights metadata、审计 | 训练、垂直模型、agent记忆 | 平台佣金、订阅、交易费 | 供给组织能力、权利元数据 | 中高:来源证明是核心 | 早期收入验证 | 平台潜在高毛利 | TollBit、ProRata、Hugging Face、DataCite | 中高 | 很高 |
| 标注/RLHF | 人工反馈与评测 | 标注、红队、偏好数据、评测 | 训练后对齐、微调、模型评估 | 项目费、长期服务合同 | 人工网络与质控 | 中:价格竞争与自动化替代 | 已成熟但更偏服务 | 毛利中等 | Scale AI、Appen、TELUS Digital、Defined.ai | 中 | 中 |
| 内容溯源/水印/检测 | provenance & authenticity | C2PA、metadata、检测与取证 | 合规、品牌安全、侵权管理 | SaaS、企业版、平台集成 | 网络效应与标准兼容 | 中:技术有效性需验证 | 早期商业化 | 软件型高毛利 | CAI/C2PA、Truepic、Vermillio、Loti | 中高 | 高 |
| 爬虫控制/许可标准 | access control | robots/RSL/pay-per-crawl | AI搜索、训练、Agent抓取 | 平台服务费、交易抽成 | 基础设施覆盖率 | 中:需AI公司配合 | 早期到中期 | 软件基础设施高毛利 | Cloudflare、Fastly、Akamai、RSL Collective | 中高 | 高 |
从“已真实收入”与“仍在争议”两个维度看,可以更直白地划分:已实现收入的主要是新闻头部品牌、UGC API、学术/教育内容的机构授权、专业数据库AI订阅、rights-cleared视觉生成和企业数据治理;仍在争议的主要是开放网页预训练、盗版或来源不明图书、未获许可音乐/影视训练、长尾作者分成、人格权训练、以及多国法域下的训练数据透明度。
商业模式与利润池
AI内容版权和数据授权的核心,不是“内容值多少钱”,而是哪一种使用场景愿意长期付费。模型预训练看重体量、多样性和边际成本;AI搜索看重实时性、权威性和摘要/引用权;企业RAG看重权限、更新频率和审计轨迹;音乐与视觉生成则看重商业安全、人物/声音同意、以及后续版税核算。因此,同样是“授权”,其定价逻辑完全不同。
| 商业模式 | 典型场景 | 定价逻辑 | 优点 | 缺点 | 更适合的供给方 |
|---|---|---|---|---|---|
| 一次性授权费 | 档案训练、历史语料、批量内容访问 | 语料规模、独家性、诉讼威慑 | 落地快、毛利高 | 不可持续、客户会压价 | 头部新闻、学术出版社 |
| 年度/多年固定费 | 新闻库、UGC API、企业内容访问 | 权威性、更新频率、API可用性 | 可预测、适合预算 | 续约价格受议价影响 | AP、News Corp、Reddit、T&F |
| 按调用/按token/按API | 实时新闻、RAG、检索增强 | 查询量、延迟、SLA | 可随使用扩张 | 成本波动大 | Reuters Connect、UGC API、企业数据平台 |
| 按训练用途收费 | 基础模型/多模态训练 | 训练轮次、用途范围、再授权限制 | 易绑定大客户 | 训练完成后续费难持续 | Shutterstock、Getty、部分学术/新闻档案 |
| 引用/摘要/搜索分成 | AI搜索、回答页引用 | 展示量、点击、广告/订阅分成 | 与流量逻辑接近 | 归因难、数据黑箱 | 出版商联盟、ProRata、Perplexity模式 |
| 输出分成/版税 | 音乐、声音、角色、AI创作 | 下载、播放、订阅、生成次数 | 能长期绑定创作者 | 权利清算复杂 | UMG/WMG/Sony、Vermillio、集体管理组织 |
| AI增强订阅/工作流 | 法律、税务、金融、教育、医学 | 客户ROI、节省时间、合规价值 | 留存最高、利润最好 | 构建周期长 | TRI、RELX、WKL、Pearson |
| 集体授权/标准化许可 | 网页抓取、长尾创作者 | 覆盖范围、标准化协议、执行 | 解决长尾清权 | 需要网络效应和中立执行层 | RSL、TollBit、Created by Humans、ProRata |
利润池最终会落在哪里,取决于场景:
第一,训练数据利润池不会平均分配给所有版权方。对通用预训练而言,模型公司会尽量用公开数据、已有付费协议、用户数据和合成数据降低成本;真正能长期被单独定价的,是高价值“补缺型”数据,而不是全网语料。Anthropic 与 Meta 的作者案结果,进一步强化了这一点。
第二,AI搜索与RAG利润池更可能落在少数高权威内容库与接口层。原因是搜索/问答需要新鲜、可追溯、可引用、可纠错的内容;企业RAG还要求权限与审计。因而 Reuters、Factiva、LexisNexis、Westlaw、Wolters Kluwer、Pearson 这类产品化数据库,比普通新闻页面和通用网页文本更容易长期收费。
第三,音乐、声音、角色、肖像的利润池更可能向“权利管理+过滤+分账”倾斜,而不是裸模型。因为用户端的商业使用风险更高,且人格权/同意机制无法被简单替代。公开市场目前还很难看到大规模财务落地,但行业方向已经从“是否许可”转向“谁来授权、谁来过滤、谁来清算”。
第四,视觉内容利润池最可能向“权利清晰+元数据完善+理赔能力”的平台集中。Getty把“uncapped indemnification”和贡献者补偿直接商品化;Shutterstock则一手卖训练数据,一手经营生成工具与贡献者基金。这类商业模式比一次性卖数据更接近长期高毛利SaaS/订阅。
围绕“AI版权授权是不是模型公司的长期成本”,我的判断是分场景的:通用预训练授权更像过渡性、策略性成本;高价值专业数据、RAG权限数据、AI搜索实时引用、可商用音乐/视觉/likeness 授权,则更像长期结构性成本。EU AI Act 对训练内容摘要与版权政策的要求,和Cloudflare/RSL/TollBit这类访问控制层的崛起,都在推动“来源透明+条件化付费”成为常态。
| 情景 | 关键假设 | 版权诉讼走向 | AI公司授权意愿 | 内容方议价能力 | AI搜索流量冲击 | 受益环节 | 主要受益公司 | 主要受压公司 |
|---|---|---|---|---|---|---|---|---|
| 保守 | 美国fair use继续偏宽;透明度要求有限 | 通用训练多获保护,盗版来源例外 | 只买最难替代内容 | 仅头部内容库有议价权 | 对出版商偏负面 | 专业数据库、企业RAG、UGC API | TRI、RELX、WKL、Reddit、Stack Overflow | 免费流量依赖型媒体、长尾作者、低差异化图库 |
| 基准 | 美国判例继续分化;EU透明度落地;头部交易增多 | 合法获取/专业内容更受保护 | 愿为实时、权威、合规数据付费 | 头部品牌与平台型中介增强 | 需部分收入分享对冲 | 新闻头部授权、专业数据库、visual safe-gen、UGC、合规基础设施 | News Corp、NYT、Wiley、Informa、Getty、Cloudflare、TollBit | 中尾出版商、无接口能力内容站点 |
| 激进 | 训练数据透明要求强化;平台执行许可标准 | 版权方显著增强 | 训练、搜索、生成都更普遍许可化 | 集体授权/标准化市场成形 | 流量滑坡被许可收入部分弥补 | 许可标准、清算、版税、溯源、rights tech | RSL/TollBit/ProRata/Created by Humans/Vermillio,以及大型权利库 | 无法清权的模型公司与灰色数据经纪 |
上述三种情景中,最值得长期投资的模式不是单次大单,而是把传统订阅/版权收入升级成AI原生工作流收入。这也是为什么 RELX、Thomson Reuters、Wolters Kluwer、Pearson 这类公司虽然“AI授权叙事”没有媒体那么热,但投资质量往往更高。
赛道深度与竞争格局
以下把用户列出的三十个细分赛道,按可投资逻辑压缩成十五个“利润池单元”。分数为研究优先级,不是买卖建议。
| 赛道 | 赛道逻辑 | 当前商业化阶段 | 主要客户 | 定价模式 | 毛利率趋势 | 版权清晰度 | 监管/诉讼风险 | 未来催化剂 | 投资吸引力 |
|---|---|---|---|---|---|---|---|---|---|
| 新闻内容授权 | 头部新闻品牌向模型与搜索平台供给权威内容 | 已签约,但可持续性待验证 | OpenAI、Amazon、Meta、Perplexity | 固定费+摘要展示 | 增量毛利高 | 中高 | 高 | AI搜索分成机制、更多LLM签约 | 7/10 |
| AI搜索引用授权 | 引文、流量、分成成为核心 | 早期试验 | AI搜索/答案引擎 | rev-share / citation fee | 未定 | 中 | 高 | RSL、Pay-per-crawl、平台披露 | 6/10 |
| 学术TDM授权 | 机构语料和元数据稀缺 | 已产生收入 | Microsoft、研究工具商、机构端 | 一次性+递延 | 高 | 高 | 中高 | 作者/出版社合同标准化 | 8/10 |
| 专业数据库授权 | 用AI增强现有订阅工作流 | 规模化 | 律所、投行、税务、企业 | 高价订阅+模块费 | 最优 | 很高 | 中 | 企业Agent落地 | 10/10 |
| 法律数据库 | 法律检索、citator、草拟与审查 | 规模化 | 律所/法务 | seat+usage | 很高 | 很高 | 中 | 专业Agent采纳率 | 10/10 |
| 医疗数据库 | 临床决策支援与医学RAG | 早中期 | 医院、药企、医疗SaaS | 订阅/API | 高 | 高 | 高 | 医疗监管与责任框架 | 8/10 |
| 金融数据授权 | 数据+研究+因子+workflow | 规模化 | buy-side、sell-side、企业财务 | 终端/许可/API | 很高 | 很高 | 中 | buy-side copilot渗透 | 9/10 |
| 音乐AI授权 | 目录、声音、风格、版税 | 从诉讼转签约 | AI音乐平台、流媒体、品牌 | 许可+分成 | 若跑通则高 | 中高但复杂 | 很高 | 三大/独立目录更多协议 | 8/10 |
| 语音与肖像权 | likeness/voice成为单独资产 | 早期 | 影视、广告、AI音频 | 授权+监测+分成 | 高 | 中 | 很高 | NO FAKES/同意标准 | 7/10 |
| 图库与视频素材 | rights-cleared、indemnified生成 | 已落地 | 品牌、广告主、创意工具 | 订阅/调用/训练 | 高 | 高 | 高 | 企业安全生成渗透 | 9/10 |
| 影视IP/游戏资产 | 角色、场景、演出权利 | 多数仍早期 | 视频模型、游戏平台、工作室 | franchise license | 潜在高 | 中 | 很高 | 好莱坞/游戏大厂许可模板 | 6/10 |
| 图书与作者版权 | 长尾清权决定规模上限 | 诉讼+平台化并存 | 写作AI、模型公司、出版商 | 单书/批量许可 | 高 | 低到中 | 很高 | 集体授权或平台化 | 6/10 |
| UGC社区数据 | 高新鲜度、真实表达、讨论链 | 已落地 | 模型、搜索、agent | API/年费 | 很高 | 中 | 中高 | 更多社区加入收费API | 9/10 |
| 代码数据 | 训练价值高,但诉讼与开源许可复杂 | 争议期 | Copilot/编码Agent厂商 | API/数据许可/企业知识库 | 高 | 中低 | 高 | 代码许可判例 | 6/10 |
| 企业RAG数据 | 权限、血缘、审计是核心 | 规模化 | 大中型企业 | SaaS/usage | 高 | 很高 | 中 | Agent production化 | 10/10 |
| 数据交易平台 | 标准化供需匹配 | 早期 | 模型厂商、出版商、企业 | 平台抽佣 | 潜在高 | 取决于元数据 | 高 | 执行标准与网络效应 | 7/10 |
| 标注与RLHF | 仍是训练必需品,但更偏劳务 | 成熟 | 基础模型与企业模型 | 项目制/长期合同 | 中 | 高 | 中 | 评测/红队高端化 | 6/10 |
| 合成数据 | 降低真实版权数据依赖 | 成熟度上升 | 自驾、工业、AI训练 | 软件/数据包 | 高 | 高 | 低到中 | 监管允许范围扩大 | 7/10 |
| 内容溯源/水印/检测 | 不是直接卖内容,而是卖信任 | 早期 | 平台、媒体、品牌、政府 | SaaS/API | 高 | 不适用 | 中 | C2PA普及 | 8/10 |
| 版权指纹/清算/版税分配 | 音乐/视觉/角色输出后产权清算 | 早中期 | 平台、标签、集体组织 | SaaS+分成 | 高 | 取决于权利数据库 | 中高 | AI output monetization | 8/10 |
| 模型合规审计/训练透明度 | 监管驱动的新基建 | 早期 | 模型公司、企业、监管受约束行业 | 审计费/订阅 | 高 | 不适用 | 低到中 | EU模板执行、企业采购规则 | 8/10 |
| AI版权法律科技 | 清权、合同自动化、discovery | 早期 | 出版商、娱乐、律所、平台 | SaaS/案件服务 | 高 | 不适用 | 中 | 大量AI版权纠纷持续 | 7/10 |
竞争格局上,可以概括成四条主线。第一条,媒体集团的博弈路径并不相同:News Corp 采取“签约+继续谈判+必要时起诉”的混合策略;NYT 先诉后签,且首单选择 Amazon 而非 OpenAI;AP 更早进入授权合作;Reuters 选择向Meta等科技平台授权可信新闻内容;Perplexity则尝试通过rev-share争取出版商。头部新闻品牌有议价权,但这种议价权高度集中。
第二条,专业信息公司更倾向于把内容资产变成AI工作流产品,而不是把底层语料裸卖给通用模型。Thomson Reuters 明确表示第三方模型伙伴不得使用客户数据训练模型;其新闻业务曾经出现过“generative AI related content licensing revenue”,但整体战略重心在 CoCounsel 等专业产品。RELX、Wolters Kluwer、Pearson也都把AI嵌入现有工作流,并在财报中强调信任、验证、评估和嵌入式数据的价值。
第三条,音乐与视觉是两种不同的版权经济学。音乐权利链更复杂,但更集中,容易形成“许可—过滤—分账”闭环;视觉内容权利链相对明确,只要有release、元数据和理赔能力,就更容易形成企业安全生成产品。前者的核心是目录控制与版税系统,后者的核心是商业安全与元数据。
第四条,AI公司内容策略也明显分化。OpenAI更积极签头部授权并对外高调公布;Google既买内容也买社区数据;Meta在新闻与社交内容上更晚、更选择性;Anthropic在公开版权诉讼上面临较大压力;Perplexity、ProRata、TollBit代表了“AI搜索/AI代理必须直接向内容方付费”的新路径。
投资标的与公司分层
下表优先覆盖高可信、已有公开证据的公司;对未单独披露AI授权收入的项目,明确标注“未单独披露”或“主要防御性”。
| 公司 | 代码/状态 | 细分环节 | AI版权/数据受益路径 | 公开证据 | 当前判断 |
|---|---|---|---|---|---|
| Thomson Reuters | TRI / 美股 | 法律/税务/专业信息 | 用高价值数据库做AI工作流订阅;偶发新闻内容AI授权只是辅线 | Q1 2025 Reuters News收入下滑部分因上年AI内容许可基数高;CoCounsel/多模型战略持续推进 | A类:平台型赢家 |
| RELX | RELX / 英国上市 | 法律/科学/风险数据库 | 将专有内容转化为AI增强订阅与Agent工具 | 2025年报收入£9.59bn、增长7%;管理层称GenAI工具持续驱动增长 | A类:高护城河 |
| Wolters Kluwer | WKL / 荷兰上市 | 法律/医疗/税务数据库 | AI增强专业软件与内容套件 | 2025年报与全年业绩强调AI创新、利润率继续提升 | A类:防御+成长 |
| News Corp | NWSA / 美股 | 新闻/专业新闻/图书 | 头部新闻与Factiva/WSJ/道琼斯内容对LLM和平台多点授权 | 已与OpenAI签全球多年度协议;年报明确 generative AI 平台内容授权;财报多次出现更高content licensing revenues | A类:直接受益者 |
| RDDT / 美股 | UGC数据 | Data API向Google和OpenAI收费,社区内容成为AI原料 | Google扩大合作并获取Data API;OpenAI接入Data API;10-K将content licensing列入other revenue | A类:高弹性但高估值 | |
| Wiley | WLY / 美股 | 学术出版 | 研究内容授权+效率改善 | FY2025 AI licensing revenue约1100万美元,管理层多次作为增长驱动提及 | A类:小而真 |
| Informa | INF / 英国上市 | 学术出版/会展数据 | T&F内容与数据授权,兼具内部AI应用 | Microsoft协议2024-2027,首年1000万美元,后续有递延付款;公司称凸显IP价值 | A类:被低估的学术授权 |
| Getty Images | GETY / 美股 | 图库/视觉数据 | rights-cleared生成、训练集合作、AI平台接入 | 贡献者按AI训练集纳入获补偿;2025年“Other revenue”增35.2%,并提及两项重要AI平台合作 | B类:高弹性高风险 |
| Shutterstock | SSTK / 美股 | 图库/训练数据 | 多年OpenAI训练数据合作、贡献者基金、生成工具 | 与OpenAI签六年协议;Contributor Fund公开存在 | |
| Pearson | PSO / 英美两地 | 教育/评测/企业学习 | 把内容、评测和企业学习做成AI增强订阅与解决方案 | 2025销售£3.577bn、调整后营运利£614m;与Microsoft/AWS/Google Cloud深度合作;企业客户与AI产品扩张 | B类:偏工作流,而非裸授权 |
| New York Times | NYT / 美股 | 高端新闻/体育/烹饪 | 先诉后签;通过Amazon首个GenAI许可变现 | 与Amazon签多年协议;同时持续起诉OpenAI/Microsoft并承担诉讼成本 | B类:品牌强,但防御属性更重 |
| Adobe | ADBE / 美股 | 创意软件/Stock生态 | 以安全训练集和内容凭证增强Creative Cloud,而非直接卖语料 | Firefly面向企业可商用,Adobe Stock贡献者获得Firefly bonus | B类:卖铲人 |
| Warner Music Group | WMG / 美股 | 音乐版权 | 从诉讼转向许可、分成、artist likeness | 参与诉Suno/Udio;后与Suno/ Udio/Klay等出现许可与平台合作 | B类:中长期弹性高 |
| Universal Music Group | UMG / 欧洲上市 | 音乐版权 | 同上,目录与出版权更强 | 参与对Suno/Udio诉讼,并进入Klay等授权体系 | B类:强权利方 |
| Visual China Group | 视觉中国 / A股 | 图库/版权交易 | “AI智能+内容数据+应用场景”,主打可商用、可溯源、平台服务费 | 投关与年报摘要均强调AI赋能版权交易、创意定制、平台分成与长期协议 | B类:中国稀缺样本 |
| Stack Overflow | 未上市 | 开发者UGC/企业知识 | 数据授权+企业知识产品+公共语料API | 官方数据授权页、与OpenAI合作、Knowledge Solutions转型 | A类:优质私有化标的 |
| ProRata | 未上市 | 新闻引用/分成平台 | 将AI答案归因并向出版商分成 | News/Media Alliance框架协议,50%收入分给出版商 | B类:模式新,规模待证实 |
| TollBit | 未上市 | 内容收费网关/交易平台 | AI agent 向网站直接付费 | Series A时称transactions live on product,多家发布商和AI公司接入 | B类:基础设施期权 |
| Cloudflare | NET / 美股 | 爬虫控制/许可基础设施 | 默认封锁AI crawler、Pay Per Crawl | 已默认拦截AI爬虫并推出付费爬取试点;支持RSL/内容信号 | |
| Created by Humans | 未上市 | 图书权利平台 | 作者按用途选择训练/RAG授权 | 平台支持ISBN/上传认领并设置AI rights;Authors Guild合作 | C类:方向正确,验证初期 |
| Vermillio | 未上市 | likeness/voice保护与许可 | 为名人/IP提供监测、授权、保护 | Sony Music参与投资;TraceID用于许可和侵权识别 | C类:高潜力高不确定 |
| Loti | 未上市 | likeness保护 | 人脸/声音监测与下架 | 官方定位为likeness protection for everyone | C类:事件驱动型 |
基于公开证据,可以将公司分成五类:
A类:AI版权/数据授权核心直接受益者 Thomson Reuters、RELX、Wolters Kluwer、News Corp、Reddit、Wiley、Stack Overflow。共同点是:要么已有明确授权收入,要么把高壁垒内容直接升级成AI工作流订阅。
B类:受益明显,但存在估值、诉讼、监管或持续性风险 NYT、Getty、Shutterstock、Pearson、Adobe、WMG、UMG、Visual China、Cloudflare、ProRata、TollBit。共同点是:商业化方向明确,但要么收入占比仍小,要么市场已经部分反映,要么依赖新标准普及。
C类:AI授权主要是防御工具,短期利润弹性不强 综合教育平台、部分大型内容平台、Created by Humans、Vermillio、Loti 这类更偏基础设施和权利管理的公司。它们方向正确,但规模验证早。
D类:叙事强,但本次公开资料中缺乏可验证授权收入的公司 多数AI音乐/视频生成初创、部分“AI版权概念”A股软件股、以及强调“AI内容合作”但没有单独披露合同金额、收入贡献或客户扩张的公司,都应留在观察名单,而非直接视作受益者。公开资料最常见的问题是:只披露“合作”“探索”“接入”而不披露财务贡献。
E类:可能被AI生成内容、AI搜索或无授权替代冲击 免费流量依赖的中长尾媒体、低差异化素材库、缺乏release与元数据的视觉内容平台、以及没有明确来源证明的通用数据经纪,将在AI时代面临更强的价格压力与合规折价。这类风险已在News Corp、Getty、Stack Overflow等公司的风险披露中被直接点出。
风险、估值与最终结论
先看估值与市场预期。截至 2026 年 5 月 19 日,NYT 的市盈率约 32.4 倍,Reddit 约 44.7 倍,Wiley 约 14.6 倍,Warner Music 约 20.5 倍,S&P Global 约 26.5 倍;而 Shutterstock 市值仅约 5.84 亿美元、Getty 约 4.04 亿美元,News Corp 约 151 亿美元,Reddit 约 317 亿美元。纯从市场定价看,Reddit/NYT 的“AI内容期权”已经不便宜;Wiley、News Corp、Getty/Shutterstock 的重估空间更依赖后续合同续签与收入占比提升;专业数据库龙头则更像高质量复合体,估值不便宜但逻辑最稳。
如果采用用户给出的权重框架,我建议的正向评分模型如下: AI授权收入直接暴露度 20%;内容资产与版权清晰度 25%;客户质量与议价能力 15%;数据治理/元数据/API能力 10%;诉讼与监管风险管理 10%;财务质量与利润率 10%;估值合理性 10%。在这个模型下,当前优先级最高的一组通常不会是最“热”的媒体股,而是内容壁垒+工作流+合规三者兼具的公司。
| 排名 | 公司 | 方向性总分 | 核心原因 |
|---|---|---|---|
| RELX | 84 | 法律/科学内容库+AI产品+高利润率+高更新频率 | |
| Thomson Reuters | 83 | 专业数据库+CoCounsel+法律判例环境对专业内容更友好 | |
| Wolters Kluwer | 82 | 监管/医疗/税务工作流内容+AI嵌入 | |
| News Corp | 80 | 头部新闻品牌+已签多家AI授权+道琼斯/Factiva资产 | |
| 78 | 已有真实API授权收入+内容新鲜度极强,但估值高 | ||
| Wiley | 77 | 已披露AI licensing revenue,体量虽小但证据最扎实 | |
| Pearson | 76 | AI+评测+企业客户,偏产品化订阅而非一次性授权 | |
| Getty Images | 75 | rights-cleared视觉库+AI合作,但诉讼/财务风险高 | |
| Adobe | 74 | 安全生成与内容凭证卖铲,非纯授权受益者 | |
| Informa | 73 | 学术/会展数据授权真实存在,但披露仍不充分 |
对应的反向风险评分模型可按:授权收入持续性不足 20%;版权诉讼和监管不确定性 20%;内容可替代性高 20%;AI公司议价能力过强 15%;生成内容压低原内容价值 15%;估值过高 10%。在这一模型下,风险最高的通常不是专业数据库,而是高叙事但未形成稳定分成机制的新闻、图书长尾、以及尚未被标准化许可覆盖的音乐/影视/likeness赛道。
系统性风险主要有六类。第一,美国法院继续扩大fair use空间,会压制通用训练授权的长期定价;第二,AI公司减少采购、转向用户数据、内部数据与合成数据,会让一次性语料合同难续;第三,AI搜索流量分流快于授权补偿,使中小出版商被双重挤压;第四,音乐/肖像/声音权利链条复杂,即便愿意付费也未必能高效清权;第五,溯源、水印和检测技术并不完美,基础设施公司也有技术兑现风险;第六,高估值下市场会更关注“收入占比”而不是“故事”。
最终结论可以浓缩为以下十点:
首先,AI内容版权与数据授权是AI产业链里的“高质量数据供给层”,但并非所有内容都能被重新定价;真正能定价的是权利清晰、元数据完备、时效性强、行业稀缺、可验证来源的内容。
其次,最值得关注的五个细分赛道是:专业数据库AI工作流、UGC/API数据授权、rights-cleared视觉数据、学术/教育TDM授权、企业RAG数据治理。如果把“卖铲”也算上,则 Cloudflare/RSL/TollBit/合规审计 也值得高优先级跟踪。
再次,最值得深入研究的十家上市公司是:RELX、Thomson Reuters、Wolters Kluwer、News Corp、Reddit、Wiley、Informa、Pearson、Getty Images、Adobe。如果偏好音乐与中国市场,可再加 Warner Music、UMG、Visual China 作为弹性补充。
未上市里最值得跟踪的十家是:Stack Overflow、TollBit、ProRata、Created by Humans、Vermillio、Loti、Scale AI、Databricks、Rightsify、RSL Collective。其中前五家更直接押注“版权与许可层”,后五家更偏“数据与基础设施层”。
市场最容易误解的五个点是: 其一,以为所有版权都会被普遍收费;实际上更可能是“高价值数据先收费”。 其二,以为所有AI授权收入都会变成大增量;实际上很多只是防御性补偿。 其三,以为媒体是最优质受益者;实际上专业数据库往往更强。 其四,以为音乐和likeness马上就会形成大市场;实际上清权和分账最复杂。 其五,以为版权科技平台已经规模化;实际上多数还在早期验证。
未来六到十二个月最该跟踪的指标是:AI授权收入占比、licensing/other revenue 拆分、授权合同数量与续签率、企业RAG客户数、API调用量、AI搜索引用流量与分成、AI平台对publisher/creator的rev-share披露、EU训练数据摘要执行、美国关键AI版权案下一轮判决。
所谓“AI版权平台型公司”,我更倾向于把 RELX、Thomson Reuters、Wolters Kluwer、Reddit、Stack Overflow、Getty、Cloudflare 放在核心位置;“AI原生数据授权挑战者”则是 TollBit、ProRata、Created by Humans、Vermillio、Loti、RSL Collective;“AI内容授权卖铲人”则包括 Adobe、Cloudflare、Snowflake、Databricks、Elastic、MongoDB 这一层。
被AI生成内容、AI搜索或无授权训练冲击风险更高的,不是所有内容公司,而是缺乏原创性、缺乏实时性、权利链不清晰、没有数据接口能力、严重依赖搜索流量再分发的公司与平台。这个风险在新闻、通用互联网内容和低差异化素材库最明显。
更窄、也更值得继续深挖的后续研究方向,我建议优先顺序是:专业数据库授权与AI工作流、UGC数据授权、新闻内容授权与AI搜索分成、图库训练数据与安全生成、音乐AI授权与likeness rights、企业RAG数据治理、内容溯源与模型合规审计。这些方向比泛泛的“AI版权”更接近真实利润池。
开放问题与局限性同样需要明确:大量授权合同仍未披露金额;不少公司把AI授权收入混入“other revenue/licensing/subscription”而未分项;音乐、影视、人格权赛道的公开财务证据明显少于新闻和专业数据库;中国、韩国、日本、澳大利亚等法域的规则仍在演进中。因此,现阶段最重要的不是“谁讲了AI版权故事”,而是谁已经证明:有合同、有客户、有收入、有续签、有工作流位置。