🫐 艺术市场知识图谱 v0.2

以清华美院为平台的艺术市场基础设施 · 艺术史论系 · 学术版文档

🎯 项目概述

目标

以清华大学美术学院为平台，以人工智能为手段，构建中国当代艺术市场的第一个开放知识图谱基础设施。结构化艺术市场中的实体、关系与事件，服务研究者、从业者和机构的分析、查询与决策需求。

定位

这是一个行业基础设施建设项目，不仅是博士论文工具。博士学位是学术背书，论文是建设过程中的阶段性产出。第一批用户为研究者，远期面向画廊、拍卖行、藏家等B端提供数据服务。

技术路线

知识图谱 (Neo4j) GNN (PyG) RAG LLM

基础设施视角详见基础设施计划页面

📐 本体设计 v0.2

🔄 v0.1 → v0.2 Diff（2026-03-05） ▶

反馈来源：导师/同行讨论 2026-03-05

新增修改拆分

实体变更（18 → 25）：

Artist — 新增 education、mentored_by
Gallery — 新增 subtype(7类)、tier(1-5)、has_physical_space
Exhibition — 新增 type(6类)、scale、institutional_weight
ArtFair — 新增 tier_history 时间序列
Artwork — 新增 provenance_chain
Movement — 改为通过 MovementAttribution 间接关联
🆕 Edition（从Artwork拆出）
🆕 ArtistPriceLevel（系数时间序列）
🆕 AcademicInstitution
🆕 ResidencyProgram
🆕 Award
🆕 MediaCoverage
🆕 MovementAttribution

关系变更（8 → 15+）：

represents → 拆分为 exclusive / regional / project / consignment
co-exhibited — 新增 exhibition_type、weight、context
🆕 educated_at / mentored_by / residency_at / awarded
🆕 has_edition / covered_by / attributed_to_movement

建模增强：

🆕 数据可信度三级分层 + 时效性衰减
🆕 共展网络多维权重函数
🆕 Flipping检测（一二级市场传导）
Career Stage 推导规则框架（待实证检验）

核心实体（25类） ▶

v0.1保留 v0.2修改 v0.2新增

艺术家 ✏️ 画廊 ✏️ 拍卖行藏家策展人美术馆基金会展览 ✏️ 拍卖场次博览会 ✏️ 作品 ✏️ 系列拍卖成交记录一级市场交易记录媒介艺术运动 ✏️ 地域

🆕 版数 Edition 🆕 价格水平 ArtistPriceLevel 🆕 学术机构 🆕 驻留项目 🆕 奖项 🆕 媒体报道 🆕 流派归属断言 🆕 媒体（机构）

核心关系（15+） ▶

v0.1保留拆分 v0.2新增

独家代理 exclusive 区域代理 regional 项目合作 project 寄售 consignment 参展 exhibits_in 举办 hosts 共展 co-exhibited ✏️ 参加博览会 participates_in 策划 curates 收藏 collects 转型 transforms_into

🆕 educated_at 🆕 mentored_by 🆕 residency_at 🆕 awarded 🆕 has_edition 🆕 covered_by 🆕 attributed_to_movement

💡 核心洞察：代理关系语义化（4种）+ 共展网络加权 = 更精确的市场定位分析

🏛️ Gallery 分层建模 v0.2 ▶

Subtype 分类（7类）：

commercial_blue_chip：蓝筹商业画廊（如佩斯、高古轩级别）
commercial_mid：中型商业画廊
commercial_emerging：新兴/年轻画廊
academic_nonprofit：学术/非营利空间
artist_run：艺术家自营空间
vanity：虚荣画廊（付费展出）
online_native：线上原生画廊

动态 Tier（1-5）：画廊的市场层级随时间变化，tier 作为时间序列记录

has_physical_space：区分有无实体空间，影响展览权重

🤝 代理关系语义化 v0.2 ▶

原 represents 拆分为 4 种关系，反映真实市场中代理绑定的复杂度：

关系	绑定强度	说明
exclusive_representation	★★★★★	独家全球/区域代理
regional_representation	★★★★	特定区域代理（如大中华区）
project_collaboration	★★★	项目制合作，非长期绑定
consignment	★★	寄售，最弱绑定

每种均含 formality（合同/口头/隐含）、start/end_date、upgrade_from（关系升级路径）

🖼️ Edition 版数建模 v0.2 ▶

从 Artwork 拆出独立实体，解决版数作品（版画/摄影/雕塑铸造）的追踪问题：

edition_number：版号（如 2/8）
edition_total：总版数
medium_specific：AP / PP / HC / numbered
individual_provenance：该版独立的出处链
individual_price_history：该版独立的价格历史

💡 动机：同一件作品的不同版数在市场上表现可能差异巨大（版数1 vs 版数8 价格相差数倍），必须独立追踪

📰 MediaCoverage 媒体报道 v0.2 ▶

媒体报道作为事件实体建模，支持量化分析艺术家/展览/画廊的媒体曝光度：

media_outlet：媒体机构
media_tier：tier-1 国际主流 / tier-2 行业专业 / tier-3 地方/自媒体
coverage_type：review / feature / interview / mention / list
sentiment：positive / neutral / negative / mixed
关联：可关联 Artist / Exhibition / Gallery

🔬 数据建模设计

📊 数据可信度 + 时效性 v0.2 ▶

三级可信度：

🟢 高：拍卖成交记录、美术馆馆藏、官方声明
🟡 中：博览会PDF（asking price）、一级市场系数、行业报告
🟠 低：战报（LLM抽取）、社媒传闻

时效性衰减 decay_rate：

拍卖成交价 — 衰减慢（历史记录长期有效）
一级市场系数 — 衰减中（1-2年更新）
社媒传闻价格 — 衰减快（数周后可信度下降）

每条数据附带：{confidence, source_type, valid_from, valid_until, decay_rate}

💰 价格建模 ▶

数据来源分层：

🟢 高可信：拍卖成交记录
🟡 中可信：博览会PDF（asking price）、一级市场系数（元/号）
🟠 低可信：战报（需LLM信息抽取）、社媒传闻

🆕 ArtistPriceLevel：系数时间序列实体，追踪 coefficient(元/sqcm) 随时间的变化

二级市场：拍卖记录 + 异常检测（anomaly_score）

价格事件作为独立实体建模

🔗 共展网络权重函数 v0.2 ▶

weight = f(exhibition_type, institutional_weight, context, recency)

exhibition_type 权重：

biennial(1.0) > institutional_group(0.8) > solo/duo(0.7) > group(0.5) > fair_booth(0.3)

context 权重：

academic(1.0) > hybrid(0.7) > commercial(0.5)

加上 institutional_weight（机构声望系数）和 recency（时间衰减因子）

💹 Flipping 检测 v0.2 ▶

定义：一级市场购入后短期进入拍卖转售

< 2年：aggressive_flipping
2-5年：early_secondary
> 5年：normal_secondary

关联指标：flipping_ratio = 落槌价 / 一级市场价

高频flipping的画廊可能暗示市场操纵，可交叉验证同一藏家行为模式

📡 跨市场信号传导：拍卖 → 博览会 v0.2 ▶

拍卖市场的表现会传导到博览会的一级市场交易，可通过KG中的时间序列关联建模和验证。

传导机制：

市场信心：拍卖白手套（100%成交率）+ 高成交额 → 画廊在博览会定价更有底气，藏家出手意愿增强
品类偏好："经典回归"（成熟艺术家强势）vs"wet-paint修正"（新兴艺术家低迷）→ 画廊调整博览会选品策略
分层影响：同一信号对不同层级博览会影响不同——蓝筹博览会受益于经典回归，新兴博览会可能承压

KG建模：

AuctionSale.sell_through_rate (时间序列) ↔ 同期/后续 ArtFair.PrimarySale (滞后2-4周)

可验证案例：苏富比2026伦敦春拍白手套（$1.75亿，+110% YoY）→ ABHK 2026（3周后开幕）。预测：整体买气受提振，但蓝筹展位与新兴展位表现分化加剧。ABHK结束后可回溯验证。

可分析问题：

拍卖白手套后N周内开幕的博览会，一级市场成交率是否显著更高？
二级市场品类偏好变化，是否在随后博览会选品中有所反映？
同一艺术家拍卖表现（超估价/流拍）如何影响其画廊在博览会上的定价？

🧑‍💼 藏家分层建模 ▶

可识别藏家：美术馆馆藏、转型藏家（藏→dealer）、社媒活跃藏家
匿名藏家：拍卖记录中的匿名买家，只能通过行为模式推断

🎨 Career Stage 推导待验证 ▶

⚠️ 待实证检验 — 需10个代表性艺术家 bottom-up 验证

阶段	触发条件（满足任一）
Emerging	默认初始；首次画廊展览
Mid-career	首次机构个展；tier-2+画廊独家代理；拍卖破50万
Established	蓝筹画廊代理；回顾展；拍卖破500万；大型双年展

阈值需校准 · 不同媒介阈值可能不同 · 需考虑逆向流动

⏱️ 时间建模 ▶

统一时间区间：{start, end, precision}
precision: exact_date / month / year / approximate
数据有效期叠加于时间之上
市场周期作为上下文

📖 方法论

Top-down + Bottom-up 交叉验证 v0.2 ▶

Top-down：行业经验 + 导师指导 → 初步框架
Bottom-up：实际数据验证 → 修正假设
试点验证：选10个代表性艺术家（覆盖不同代际/媒介/层级），完整走通建模流程

Movement归属的"断言"处理：

通过 MovementAttribution 断言实体，记录"谁在什么时候说X属于Y流派"，而非直接标注。支持同一艺术家被不同来源归属到不同流派，保持学术中立。

学术贡献定位：

领域贡献：中国当代艺术市场首个结构化知识图谱本体
方法论贡献：混合方法论在艺术市场本体构建中的应用
技术贡献：可信度分层、时效性衰减、断言式归属等建模模式

📚 文献地图（15篇）

🔍 综合发现摘要

KG+LLM混合架构成为主流 — RAG（检索增强生成）是当前最优融合范式，单独使用KG或LLM均不够
多模态融合是艺术领域刚需 — 视觉属性（风格、构图、色彩）对分类和定价至关重要
LLM可半自动构建KG — 大幅降低人工标注成本，对KG冷启动至关重要
时序建模在市场预测中关键 — 艺术品价格具有强时序依赖性
CIDOC-CRM是文化遗产KG事实标准 — ontology v0.2应考虑对齐
KG+GNN已在艺术视觉分类中验证 — ArtGraph+GAT证明图结构对多任务学习有效
伪标签+图传播是低标注场景的有效策略 — GNNBoost证明transductive方法在小样本上表现优异

🚀 研究空白（我们的机会）

❌ 无论文专门针对中国艺术市场KG — 项目有显著创新性
❌ KG+GNN用于艺术价格预测的组合几乎未被探索（Bassan为仅有先行者，硕士级别）
❌ 拍卖行为偏差的结构化建模尚无先例
❌ 多模态KG Embedding在艺术领域尚无成熟方案
❌ Transductive + Inductive混合范式在艺术市场尚无实践

🔴 核心 Castellano et al. 2023 — ArtGraph + ViT + GAT 多模态多任务分类器 · AIxIA 2023 ▶

📄 论文："Recognizing the Style, Genre, and Emotion of a Work of Art Through Visual and Knowledge Graph Embeddings"

👥 团队：CILAB, University of Bari（意大利巴里大学AI实验室）· AIxIA 2023 (LNCS vol. 13796), Springer

🔬 研究内容

这篇论文的核心贡献是构建了 ArtGraph——一个大规模异构艺术知识图谱，包含16种节点类型（artwork、artist、gallery、style、genre、emotion等），并在此基础上设计了一个端到端的多模态多任务分类系统。系统同时利用作品的视觉信息和知识图谱中的结构化关系信息，联合预测风格（27类）、体裁（19类）和情绪（9类）三个任务。

关键创新在于 Inductive设计：新作品只需提供图像和基本元数据即可获得分类预测，无需将整个图重新训练。这对实际部署至关重要——拍卖行每天都有新作品上架，不可能每次重训模型。情绪分类数据来自 ArtEmis 众包数据集（81K+ WikiArt标注），将主观审美体验量化为可训练的标签。

ArtGraph v2已开源（Zenodo），包含完整的图结构和预训练embedding，代码也在GitHub公开。这使得复现和扩展非常便捷，是我们项目的重要技术基础。

🛠 技术方法

图结构：ArtGraph 异构知识图谱，16种节点类型，PyTorch Geometric HeteroData格式
视觉编码器：Vision Transformer (ViT) → 128维artwork视觉特征向量
图编码器：GAT (Graph Attention Network) via HeteroConv + GATConv编码KG节点关系
融合策略：ViT特征 ⊕ KG embedding → 共享MLP → 三个分类头（style/genre/emotion）
学习范式：多任务学习（Multi-Task Learning），联合优化三个损失函数
数据集：WikiArt（视觉） + ArtEmis（情绪标注，81K+） + ArtGraph v2（图结构）
推理模式：Inductive — 新作品无需在图中，直接推理
技术栈：PyTorch, PyTorch Geometric, HeteroConv, GATConv, ViT

🔄 向我们项目的迁移路径

直接复用ArtGraph v2作为种子数据：已有gallery节点（目前仅作收藏机构），我们可扩展为市场实体，叠加ontology v0.2的25种实体和15+关系
GAT+异构图技术栈直接复用：PyG + HeteroData + GATConv是我们GNN层的基础架构
多任务框架迁移：将style/genre/emotion分类头替换为gallery_tier/career_stage/price_band预测头
Inductive设计保留：我们的系统也需要对新上拍作品即时预测，无需重训
互补定位：他们做艺术史/视觉分析，我们做市场/商业分析——可引用其方法并扩展到市场维度

ArtGraphGATViT多任务学习InductivePyG

📎 Springer · GitHub代码 · ArtGraph v2数据 (Zenodo)

🔴 核心 El Vaigh et al. 2021/2025 — GCNBoost → GNNBoost: Transductive + 伪标签 · ICMR 2021 / MTA 2025 ▶

📄 论文："GCNBoost: Artwork Classification by Label Propagation through a Knowledge Graph" (ICMR 2021) → "GNNBoost: Boosting Artwork Classification with Graph Embeddings" (Multimedia Tools and Applications, 2025)

👥 团队：大阪大学（El Vaigh, Garcia, Renoust, Chu, Nakashima, Nagahara）· GCNBoost被引37次

🔬 研究内容

这一系列工作的核心创新是 Transductive Learning（转导学习）应用于艺术品分类：测试数据在训练时已经存在于图中（只是没有标签），通过图中的共享属性节点（如同一艺术家、同一时期、同一技法）将标签信息从已标注样本"传播"到未标注样本。这与Castellano的Inductive方法形成互补——Transductive适合图相对固定的场景，Inductive适合实时新数据。

另一个关键创新是 伪标签策略（Pseudo-labeling）：先用预训练CNN分类器对未标注数据生成初始预测标签，再将这些伪标签数据加入知识图谱构建Extended Knowledge Graph (EKG)。通过图结构的约束和传播，伪标签中的噪声被有效抑制。这对我们项目极其重要——艺术市场数据中大量信息是半结构化的，人工全量标注不现实。

从GCNBoost到GNNBoost的四大升级体现了方法的成熟化：(1) GCN→GAT引入注意力机制，对伪标签噪声更鲁棒；(2) 单任务→多任务学习；(3) CrossEntropy→Focal Loss解决数据不平衡；(4) 新增浮世绘数据集实现跨文化验证，证明方法不局限于西方艺术。

🛠 技术方法

图结构：Extended Knowledge Graph (EKG) — 标注数据 + 伪标签数据共建
学习范式：Transductive — 测试节点在训练时已在图中，仅缺标签
伪标签：预训练CNN（ResNet50）分类器 → 预测未标注数据标签 → 加入图传播
图网络：GCNBoost用GCN，GNNBoost升级为GAT（注意力权重动态学习邻居重要性）
损失函数：GNNBoost使用Focal Loss解决类别不平衡（少数类权重↑）
任务设计：GNNBoost支持多任务（style/genre/period联合预测）
数据集：SemArt（西方绘画）、Buddha Statues（佛像）、Ukiyo-e（浮世绘）
视觉特征：ResNet50 预提取

🔄 向我们项目的迁移路径

伪标签策略直接可用：初期少量手工标注（如10个pilot artists的career_stage/tier）→ LLM生成伪标签 → 图传播自动修正扩展到全图
Focal Loss解决市场数据不平衡：蓝筹画廊远少于新兴画廊，高价拍卖远少于低价拍卖——类别不平衡是核心痛点
GAT在噪声数据环境更鲁棒：艺术市场数据质量参差不齐（社媒传闻vs拍卖记录），注意力机制可自动降低低质量邻居的影响
Transductive + Inductive混合：对已入图的艺术家用Transductive（标签传播），对新艺术家用Inductive（Castellano方式）——两者可组合
跨文化验证先例：浮世绘数据集证明方法可迁移到东亚艺术，为中国当代艺术应用提供信心

Transductive伪标签GATFocal LossEKG多任务学习

📊 与Castellano 2023的互补关系

	GCNBoost/GNNBoost	Castellano 2023
学习范式	Transductive	Inductive
图网络	GCN→GAT	GAT
核心创新	伪标签+标签传播	多模态多任务
视觉特征	ResNet50	ViT
处理新数据	须在图中	无需在图中
不平衡数据	Focal Loss（强）	无特殊处理

📎 GCNBoost (ACM ICMR 2021) · arXiv · GNNBoost (MTA 2025)

🔴 核心 Bassan 2024/25 — KG+DL 艺术品价格预测 · 帕多瓦大学硕士最直接竞品 ▶

📄 论文："A Data-Driven Approach to Art Price Prediction: Integrating Knowledge Graphs and Predictive Analytics"

👥 作者：Davide Bassan · Università degli Studi di Padova（帕多瓦大学，意大利）· 硕士论文 2024/25学年

⚠️ 全文受限访问（Accesso riservato），已拟邮件联系作者获取

🔬 研究内容

Bassan的硕士论文是目前文献中 与我们项目最直接对标的先行者——同样采用知识图谱+深度学习的技术路线来预测艺术品价格。从摘要推断，其KG包含的核心实体类型有：artist、artwork、gallery、auction house、historical pricing data，目标是理解和预测艺术市场趋势，辅助投资者、藏家和从业者决策。

作为硕士论文，其预期规模有限：KG实体类型可能5-6种，数据源和图的规模受限于单人研究周期。我们的ontology v0.2已达25种实体+15+关系，在本体设计的深度和广度上有显著超越空间。但Bassan的工作证明了KG+DL在艺术价格预测领域的可行性，是重要的概念验证。

关键待确认信息：(1) 使用了哪种图嵌入方法（TransE? R-GCN? 还是简单的feature concat？）；(2) 数据来源和规模；(3) 价格时序如何处理；(4) 评估指标和baseline对比。这些信息需要获取全文后才能深入分析。

🛠 技术方法（从摘要推断）

KG实体：artist, artwork, gallery, auction house, historical pricing data（预计5-6种）
预测目标：艺术品价格预测（回归/分类？待确认）
深度学习：具体架构待确认（可能是KG Embedding + MLP/NN）
数据源：待确认（可能是Artnet/Blouin等西方拍卖数据）
评估指标：待确认

🔄 向我们项目的迁移路径

概念验证：证明KG+DL路线在艺术价格预测中可行——为我们的研究方向提供文献支撑
对标和超越：他5-6种实体 vs 我们25种实体+15+关系；硕士 vs 博士研究深度——需明确展示我们的增量贡献
技术路线对比：获取全文后，做详细的技术路线比较表，确定我们的差异化贡献点
引用策略：在literature review中作为最近相关工作引用，同时明确指出我们在本体复杂度、多模态融合、时序建模等方面的扩展

直接竞品KG+DL价格预测待获取全文

📎 帕多瓦大学仓库 · 2024/25

🔴 核心 ArtRAG (Wang et al. 2025) — ACKG + RAG框架 · ACM Multimedia 2025 ▶

📄 论文："ArtRAG: Retrieval-Augmented Generation with Structured Context for Visual Art Understanding"

👥 团队：Wang et al. · ACM Multimedia 2025

🔬 研究内容

ArtRAG提出了一个 无需训练（training-free） 的RAG框架，核心创新是自动从领域文本构建 Art Context Knowledge Graph (ACKG)。ACKG组织了艺术家、主题、流派、历史事件等实体及其关系，形成一个结构化的艺术知识库。这与传统RAG直接检索文本片段不同——ArtRAG检索的是 结构化的子图上下文。

推理流程：给定一幅artwork和用户问题 → 多粒度结构化上下文检索器通过语义相似度和图拓扑距离双通道选取相关子图 → 将子图结构化信息组装为prompt上下文 → 指导多模态大语言模型（MLLM）生成多视角artwork解释。在SemArt和Artpedia两个基准数据集上，ArtRAG超越了此前需要训练的基线方法。

核心技术优势在于 结构化上下文 vs 传统的扁平文本检索：子图包含实体间的关系路径，使LLM能生成更有逻辑链条的解释（如"这幅作品属于印象主义→受莫奈影响→使用broken color技法"），而非简单的关键词匹配。

🛠 技术方法

KG构建：ACKG — 从领域文本自动提取实体和关系，无需人工标注
实体类型：artist, theme, movement, historical event, artwork等
检索器：多粒度结构化上下文检索（语义通道 + 拓扑通道）
生成器：多模态大语言模型（MLLM），training-free接入
数据集：SemArt, Artpedia
评估：artwork解释生成质量，超越训练基线
关键特性：无需微调、可即插即用任何MLLM

🔄 向我们项目的迁移路径

ACKG构建流程 → 我们的KG冷启动：ACKG的实体类型（artist, theme, movement, historical event）与我们ontology的Artist、ArtMovement、Artwork等高度对应，其自动构建pipeline可参考用于从中文艺术市场文本提取实体
多粒度子图检索 → KG查询层：用户提问"张晓刚的市场表现"→ 检索相关子图（Artist→Gallery→Transaction→AuctionRecord）→ 作为LLM上下文生成市场分析
Training-free RAG → Phase 4查询接口：我们的RAG模块可直接参考ArtRAG的架构，无需训练即可接入Claude/GPT-4
从"艺术品解读"扩展到"市场分析"：ArtRAG解释艺术内容，我们扩展到解释市场表现——同一框架，不同应用层

RAGACKG子图检索Training-freeMLLM

📎 ACM Digital Library

🔴 核心 Biased Auctioneers — Aubry, Kräussl et al. 2023 · Journal of Finance ▶

📄 论文："Biased Auctioneers"

👥 团队：Aubry, Kräussl, Manso, Spaenjers · Journal of Finance 2023（金融学顶刊）

🔬 研究内容

这篇发表于金融学顶级期刊的论文构建了一个神经网络算法，利用视觉特征（作品图像）和非视觉特征（艺术家、尺寸、媒介、拍卖行等元数据）生成艺术品拍卖价格预测。核心发现：当机器估值显著高于拍卖行给出的预估价时，实际成交价/预估价比率（hammer-to-estimate ratio）显著更高，且流拍率更低——这意味着 拍卖行的价格预估存在系统性的信息无效率。

更深层的发现：(1) ML的额外预测贡献在"价格分散度低"和"均价低"的艺术家群体中更大——说明拍卖行对这类艺术家投入的研究资源不足；(2) 拍卖行预测误差在艺术家层面和拍卖行层面均具 持续性（persistence），且可被预测——某些拍卖行/某些艺术家的估值偏差是结构性的，非随机噪声。

学术影响力极高（JoF是金融学"Big Three"期刊之一），证明了ML+art pricing方向的学术认可度。其方法论虽未使用KG/GNN，但揭示的市场现象为我们项目提供了明确的应用场景。

🛠 技术方法

模型：神经网络（具体架构为多模态NN，视觉+元数据）
视觉特征：CNN提取artwork图像特征
非视觉特征：艺术家、尺寸、媒介、拍卖行、拍卖时间等hedonic变量
评估指标：hammer-to-estimate ratio（成交价/预估价）、流拍率（bought-in rate）
分析方法：误差持续性分析（error persistence）——用历史误差预测未来误差
数据：大规模西方拍卖记录（具体数据源见论文）

🔄 向我们项目的迁移路径

拍卖行偏差建模：在KG中为AuctionHouse实体添加 bias_score、error_persistence 属性，量化不同拍卖行的系统性偏差
"机器估值 vs 拍卖行预估"功能：作为系统核心功能之一——用户输入作品信息，系统给出KG+GNN预测价，并与拍卖行预估对比，标示偏差方向
hammer-to-estimate ratio：作为Transaction实体的重要属性，支持拍卖表现分析
偏差持续性 → 画廊/拍卖行评级：持续偏低估值的拍卖行可能暗示保守策略，持续偏高的可能暗示乐观定价——纳入拍卖行画像
学术合法性：JoF发表证明了方向的学术价值——在proposal和论文中引用增强说服力

JoF顶刊多模态NN估值偏差误差持续性拍卖数据

📎 Wiley / Journal of Finance

🟡 方法 Vasic et al. 2025 — KG vs LLM 对比，CIDOC-CRM · ACM JOCCH 2025 ▶

📄 论文："Knowledge Graphs vs. Large Language Models: Competitors or Partners in Supporting Virtual Museums"

👥 团队：Vasic, Fill, Quattrini, Pierdicca · ACM Journal on Computing and Cultural Heritage 2025

🔬 研究内容

本文系统性地比较了三种策略支持虚拟博物馆知识管理：(1) 传统本体方法——使用CIDOC-CRM（文化遗产领域的事实标准本体）进行语义建模；(2) LLM扩展方法——用LLM辅助CIDOC-CRM的实例化和语义标注；(3) 纯LLM方法——完全依赖LLM进行知识问答和排序。

实验在绘画排序和知识问答两个任务上评估。核心结论：本体+LLM组合最优。纯LLM因缺乏领域特定知识容易产生事实性错误（尤其对小众艺术家和地方性作品），纯本体虽然准确但构建人力成本极高、覆盖面有限。LLM辅助本体构建可以大幅降低成本同时保持较高准确性。

对我们的方法论决策有直接指导意义——验证了"不要在KG和LLM之间做二选一，而是混合使用"的策略，并提供了CIDOC-CRM作为本体参照系的具体实践。

🛠 技术方法

本体：CIDOC-CRM（文化遗产概念参考模型）
LLM应用：辅助语义标注（将自然语言描述映射到本体概念）、KG实例生成
对比框架：三种策略的准确性、覆盖度、人力成本系统性评估
任务：绘画排序、知识问答
实验规模：painting sample级别（较小规模）

🔄 向我们项目的迁移路径

验证技术路线：确认KG+LLM混合路线的正确性——不是直觉决策，有实证支撑
CIDOC-CRM映射：ontology v0.2可映射到CIDOC-CRM实现互操作，便于与博物馆/文化遗产数据集对接
LLM辅助本体标注pipeline：可参考其prompt设计，将拍卖数据的自然语言描述映射到我们的25种实体类型
方法选型评估框架：三方对比框架可复用于我们论文的方法选型论证

CIDOC-CRMKG+LLM混合方法对比语义标注

📎 ACM Digital Library

🟡 方法 Graham, Yates et al. 2023 — GPT-3 → KG Pipeline · PLOS ONE ▶

📄 论文："Investigating Antiquities Trafficking with GPT-3 Enabled Knowledge Graphs: A Case Study"

👥 团队：Graham, Yates et al. · PLOS ONE 2023（全文开放获取）

🔬 研究内容

这篇论文展示了一个完整的 LLM半自动KG构建pipeline：从129篇古物交易新闻文章出发，使用GPT-3的one-shot prompting将非结构化文本转化为（subject, predicate, object）三元组。具体流程：文章预处理 → GPT-3 one-shot prompt提取SPO三元组 → 三元组编译整合 → KG构建 → Ampligraph库训练KG Embedding模型（TransE/ComplEx） → 向量空间中计算实体距离 → 预测缺失链接。

最引人注目的是实际成果：系统成功发现了此前人工分析未注意到的交易商-博物馆关联，这种 假设生成（hypothesis generation） 能力对于理解复杂网络关系极有价值。与人工标注版本对比，GPT-3提取的KG在链接预测任务上表现可比，但节省了数月的人力标注时间。

虽然领域是古物走私而非当代艺术市场，但 pipeline的通用性极高——将prompt模板和实体schema替换为我们的ontology，就可以从中文拍卖目录、新闻报道、批评文章中自动提取三元组填充知识图谱。

🛠 技术方法

LLM：GPT-3（可升级到GPT-4/Claude）
Prompt策略：One-shot prompting — 给一个示例三元组，LLM从文本中提取更多
KG构建：SPO三元组编译 → 实体对齐 → 图构建
KG Embedding：Ampligraph库（TransE, ComplEx等模型）
下游任务：链接预测（预测缺失关系）、假设生成（发现隐藏关联）
数据：129篇古物交易新闻文章
评估：与人工标注KG的链接预测对比

🔄 向我们项目的迁移路径

⭐ 最直接可迁移的pipeline：几乎可原样复用——将GPT-3替换为GPT-4/Claude，将古物schema替换为我们ontology的25种实体+15+关系，输入改为中文拍卖目录和市场报告
One-shot prompt模板：参考其模板设计，适配中文语境。例：`给定文本："张晓刚的《血缘：大家庭》在2023佳士得香港以XXX万成交"，提取(Subject, Predicate, Object)三元组`
KG Embedding → 链接预测：用Ampligraph/PyKEEN训练我们KG的embedding，预测缺失关系——如发现某画廊与某藏家的隐藏关联
假设生成能力：最有价值的应用——发现artist-gallery-collector关系网中的隐藏模式，辅助市场分析
Phase 1冷启动核心工具：这是Phase 1 KG构建阶段最核心的技术参考

KG冷启动LLM→SPOOne-shot PromptAmpligraph链接预测

📎 PLOS ONE (全文开放)

🟡 方法 Malikova 2025 — RAG Demo · Aalto University Thesis ▶

📄 论文："Applying Large Language Models and Knowledge Graphs to Relational Search Problems"

👥 作者：Malikova · Aalto University 硕士论文 2025

🔬 研究内容

本论文比较了三种关系搜索方法：KG结构化检索、LLM开放生成、RAG（LLM+KG上下文）。领域为芬兰文化史（黄金时代艺术家与城市的关系网络）。实验发现：KG精确但覆盖有限（只知道图里有的）；LLM覆盖广但幻觉严重（尤其对小众人物——芬兰黄金时代的很多艺术家在国际上知名度低，LLM容易编造）；RAG改善了结构和准确性但仍需事后验证。

最终结论：混合方案最优。论文还开发了一个小型demo应用，展示了三种方法的交互式对比界面。虽然规模较小（硕士论文），但提供了一个完整的RAG原型参考，包括前端界面设计和后端pipeline架构。

对我们项目的关键启示：中国当代艺术有大量新兴艺术家，LLM对这些人的了解非常有限，很容易产生幻觉——KG是可靠性的保障，RAG架构是将KG可靠性与LLM生成能力结合的最佳方式。

🛠 技术方法

三方对比：KG检索 vs LLM生成 vs RAG（KG上下文+LLM）
RAG pipeline：用户查询 → KG子图检索 → 结构化上下文 → LLM生成答案
领域：芬兰文化史（黄金时代艺术家-城市关系）
Prompt工程：关系搜索专用prompt模板
Demo应用：交互式Web界面，三种方法并排对比

🔄 向我们项目的迁移路径

RAG架构 → Phase 4查询接口：用户问"张晓刚的市场表现" → KG检索Artist子图 → LLM生成市场分析报告
幻觉控制参考：对新兴/年轻中国当代艺术家，LLM几乎无可靠知识——KG是唯一的事实来源
Demo架构参考：其Web界面设计可参考用于我们的原型系统
评估框架：三方对比的评估方法可直接用于论文的方法论论证章节

RAG幻觉控制Demo原型三方对比

📎 Aalto University

🟡 方法 Chen et al. 2025 — 多模态风格分类 AKDF · ICASSP 2025 ▶

📄 论文："Knowledge Is Powerful: Art Knowledge-Driven Framework for Painting Style Classification Integrating Multimodal Knowledge"

👥 团队：Chen, Wang, Xin, Zhang · ICASSP 2025（IEEE信号处理顶会）

🔬 研究内容

AKDF（Art Knowledge-Driven Framework）解决的核心问题是绘画风格分类——艺术风格（如印象主义vs后印象主义）的区分需要同时理解视觉特征和艺术史知识。传统方法只看图像，AKDF的创新在于 引入多模态知识：(1) 利用多模态模型和prompt从图像中提取风格相关的文本描述；(2) 通过增强双线性池化（Enhanced Bilinear Pooling）融合文本与图像特征；(3) 设计基于标签嵌入的对比学习辅助任务，将风格标签的语义知识注入模型。

额外创新包括纹理特征提取和体裁分类辅助任务——风格和体裁存在关联（如风景画中印象主义比例更高），多任务学习可捕获这种关联。在WikiArt数据集上，AKDF比之前的SOTA提升了3个百分点以上。

🛠 技术方法

特征提取：多模态模型 + prompt → 从artwork图像提取风格相关文本描述
融合方法：Enhanced Bilinear Pooling（增强双线性池化）
知识注入：Label Embedding + Contrastive Learning（标签嵌入对比学习）
辅助任务：纹理特征分类 + 体裁分类（多任务学习）
数据集：WikiArt
结果：+3% over SOTA

🔄 向我们项目的迁移路径

风格自动标注：风格分类可用于自动标注KG中ArtMovement/Style实体的关联——从artwork图像自动推断流派归属
Bilinear Pooling → 多模态KG融合：可用于融合artwork视觉嵌入和KG entity embedding
对比学习增强embedding：Label Embedding + Contrastive Learning可增强我们KG节点embedding的语义质量
纹理特征 → Artwork节点属性：纹理作为Artwork实体的视觉属性节点，丰富图结构

Bilinear Pooling对比学习Label Embedding多任务学习WikiArt

📎 IEEE Xplore

🟡 方法 Jeyaraman 2025 — Temporal R-GCN（金融→艺术迁移）· SMU Thesis ▶

📄 论文："Temporal Relational Graph Convolutional Network for Finance"

👥 作者：Jeyaraman · Singapore Management University 硕士论文 2025

🔬 研究内容

Jeyaraman提出了 Temporal R-GCN（时序关系图卷积网络），在标准R-GCN（Relational Graph Convolutional Network）基础上引入时间维度。标准R-GCN已经支持多种关系类型（如公司-行业、公司-管理层、公司-合作方），但假设关系是静态的。T-RGCN的核心创新在于建模 实体关系随时间的变化——例如某公司CEO在t1换人，或某公司在t2进入新行业。

在金融预测任务上，T-RGCN通过捕获时序图结构的演化来预测股票/资产价格。这种"时序异构图"的思想直接适用于艺术市场——艺术家的画廊代理关系会变化（从新兴画廊→蓝筹画廊），展览历史是时序事件序列，价格本身就是时间序列。

🛠 技术方法

基础架构：R-GCN（Relational Graph Convolutional Network）— 支持多关系类型
时序扩展：Temporal维度 — 在消息传递中加入时间编码/时间注意力
动态图建模：处理关系的创建/消失/变化
应用领域：金融预测（股票/资产价格）
图构建：公司-行业-事件等关系图的时序快照

🔄 向我们项目的迁移路径

⭐ 最直接可迁移到价格预测的GNN架构：金融市场 → 艺术市场的迁移非常自然——都是时序资产价格预测
时序关系建模：Artist在t1由Gallery A代理→t2切换到Gallery B；Artwork在t1一级市场售出→t2进入拍卖——这些都是时序关系变化
与ontology时序实体配合：Transaction（有时间戳）、Exhibition（有日期区间）、AuctionRecord（有拍卖日期）、ArtistPriceLevel（系数时间序列）——都是T-RGCN的输入
Phase 3核心架构：T-RGCN将成为Phase 3 GNN价格预测的基础模型
对比实验：T-RGCN vs 静态R-GCN vs XGBoost baseline，量化时序建模的增量价值

GNN价格预测T-RGCN时序图动态KG金融→艺术迁移

📎 SMU Institutional Repository

🟢 背景 Fedderke & Carugno 2024 — ML Art Pricing · SSRN ▶

📄 论文："Machine Learning and Fine Art Pricing"

👥 团队：Fedderke & Carugno · SSRN Working Paper 2024

🔬 研究内容

使用传统机器学习方法（非图结构方法）对艺术品拍卖价格建模。基于经典的 Hedonic Pricing Model（特征定价模型）——将艺术品价格分解为一系列可观测属性的函数（艺术家声誉、尺寸、媒介、拍卖行声望、拍卖时期等）。ML方法（预计为XGBoost/LightGBM等梯度提升树）替代传统的线性hedonic回归，捕获非线性特征交互。

可能还涉及艺术品价格指数（Art Price Index）的构建方法——这是艺术市场经济学的核心工具，用于衡量整体市场或特定细分市场的价格走势。作为传统ML方法的代表，为我们的GNN方法提供了重要的baseline对标。

🛠 技术方法

建模框架：Hedonic Pricing Model（特征定价模型）
ML方法：预计XGBoost/LightGBM（梯度提升树）
特征体系：艺术家声誉、尺寸、媒介、拍卖行、拍卖时期、稀缺度等hedonic变量
数据：预计为大规模拍卖数据集（Blouin/Artnet）
⚠️ 全文受paywall限制，细节待确认

🔄 向我们项目的迁移路径

Hedonic特征 → Ontology属性映射：声誉→Artist.reputation，尺寸→Artwork.size，媒介→Artwork.medium等——直接映射到我们的实体属性
XGBoost作为baseline：Phase 3对比实验中，XGBoost/LightGBM作为非图结构baseline，量化GNN的增量价值
价格指数 → KG时序属性：Art Price Index可作为ArtMarketIndex实体的时序属性
特征重要性分析：XGBoost的feature importance可指导GNN特征工程的优先级

Hedonic PricingXGBoost/LightGBMBaseline拍卖数据

📎 SSRN

🟢 背景 Shabason et al. — Data-Centric AI · Taylor & Francis ▶

📄 论文："Enhancing Investable Art Market Accessibility and Explainability through Data-Centric AI Techniques"

👥 团队：Shabason, Ivanov, Malovitsa, Maksimov, Egorova · Taylor & Francis（书章节）

🔬 研究内容

采用 Data-Centric AI 理念——与传统的Model-Centric AI（关注模型架构）不同，Data-Centric AI强调数据质量是AI性能的第一决定因素。在艺术投资市场语境下，这意味着数据清洗、标注质量控制、数据增强等步骤的优先级应高于模型调优。

论文预计还涉及可解释ML模型（如SHAP/LIME）用于艺术品投资分析——投资者需要理解"为什么AI认为这幅画值X价格"，而不仅仅是一个数字。可解释性在金融投资决策中是监管要求（如EU AI Act），在艺术市场虽无强制要求但对用户信任至关重要。

🛠 技术方法

框架：Data-Centric AI（数据质量优先于模型复杂度）
数据工程：数据清洗、标注质量控制、数据增强
可解释性：SHAP（SHapley Additive exPlanations）、LIME（Local Interpretable Model-agnostic Explanations）
投资指标：投资可达性指标设计
⚠️ 书章节，受paywall限制，细节待确认

🔄 向我们项目的迁移路径

数据质量优先理念：拍卖数据的清洗和规范化应先于任何模型训练——这直接影响KG的质量
可解释性 + KG路径："为什么这幅画值100万？"→ SHAP特征归因 + KG推理路径（Artist→参加了X双年展→代理画廊为Y蓝筹→同时期类似作品成交价Z）
投资视角 → Ontology语义扩展：补充Collector、Transaction等实体的投资相关属性
数据可信度三级分层：我们ontology v0.2的数据可信度设计（高/中/低）与Data-Centric AI理念一致

Data-Centric AISHAP/LIME可解释性数据质量

📎 Taylor & Francis

🟢 背景 Indrawan et al. 2023 — 多模态价格预测 · IEEE ICTC ▶

📄 论文："Multimodal Approach for Painting Price Prediction"

👥 团队：Indrawan et al. · IEEE ICTC 2023

🔬 研究内容

采用多模态方法预测绘画价格，核心是融合两种信息源：(1) 视觉特征——通过CNN或ViT从artwork图像中提取，编码风格、构图、色彩等视觉信息；(2) 结构化元数据——艺术家、尺寸、媒介、拍卖行等传统hedonic变量。融合可能采用late fusion或attention-based fusion策略，最终输出价格回归预测。

虽然是会议短文（细节可能有限），但这篇论文直接验证了"视觉特征对价格预测有增量价值"这一假设——即不仅仅是艺术家名气和尺寸决定价格，作品本身"长什么样"也重要。

🛠 技术方法

视觉编码器：CNN/ViT 提取artwork视觉特征向量
元数据编码器：结构化特征（艺术家、尺寸、媒介等）编码
融合策略：Late fusion / Attention-based fusion
任务：价格回归预测
⚠️ 会议短文，细节有限

🔄 向我们项目的迁移路径

视觉嵌入 → GNN节点初始特征：CNN/ViT提取的视觉向量直接作为Artwork节点在GNN中的初始特征
多模态fusion设计参考："KG embedding + visual embedding"的融合可参考其fusion策略
价格预测任务设计：回归 vs 分类（price band）vs 排序——多种任务设计可参考
视觉增量价值的实证：在我们论文中可引用此工作支持"需要视觉特征"的论点

多模态融合CNN/ViT价格回归视觉特征

📎 IEEE Xplore

🟢 工具 Tree-KG 框架 — 清华团队 2026 ▶

📄 来源：清华团队 · MCP研究院报道 2026-03-04

🔬 研究内容

Tree-KG框架可在30分钟内将一本教科书转换为结构化知识图谱。利用LLM自动从长文本中提取实体和关系，构建树状知识图谱结构。相比传统KG构建需要数月人力，Tree-KG极大降低了门槛。

🛠 技术方法

输入：长文本（教科书、报告等）
处理：LLM自动提取实体和关系
输出：树状结构的知识图谱
效率：30分钟/本教科书

🔄 向我们项目的迁移路径

快速原型验证：将《中国当代艺术市场年报》喂入Tree-KG，快速生成初始图谱，评估其实体抽取质量
拍卖图录处理：从嘉德/保利/苏富比的拍卖图录文本中快速提取结构化信息
与Graham pipeline互补：Tree-KG适合长文档级别的批量处理，Graham的one-shot prompt适合新闻/短文本——两者可组合使用

自动KG构建长文本处理LLM提取

📎 微信原文（MCP研究院） · 小红书 · 2026-03-04

🟢 工具 Wikontic — 本体构建方法 ▶

🔬 研究内容

基于维基百科的本体概念构建方法，结合众包知识与形式化本体的混合路径。为从非结构化文本到形式化本体的转化提供系统性方法论。

🔄 向我们项目的迁移路径

Top-down + Bottom-up方法论参考：Wikontic的众包+形式化混合路径与我们v0.2的方法论（导师指导top-down + 数据验证bottom-up）异曲同工
维基百科作为知识源：中文维基百科的艺术家/画廊/艺术运动词条可作为KG冷启动的知识源之一

本体构建众包+形式化

🔀 技术迁移矩阵（15篇 × 14个技术点） ▶

技术点	Cast.	GNN↑	Bass.	ArtR.	Bias.	Vasic	Grah.	Mali.	Chen	Jey.	Fedd.	Shab.	Indr.	Tree	Wiki.
KG自动构建				✅		✅	✅							✅	✅
KG Embedding	✅	✅	✅				✅
RAG (KG+LLM)				✅				✅
CIDOC-CRM对齐						✅
多模态融合	✅			✅	✅				✅				✅
GNN/GCN/GAT	✅	✅	✅							✅
时序建模					✅					✅	✅
价格预测			✅		✅					✅	✅	✅	✅
伪标签/标签传播		✅
对比学习									✅
可解释性												✅
拍卖行为分析					✅							✅
链接预测							✅
本体构建方法						✅								✅	✅

🔴 Cast.=Castellano · GNN↑=GNNBoost · Bass.=Bassan · ArtR.=ArtRAG · Bias.=Biased Auctioneers
🟡 Vasic · Grah.=Graham · Mali.=Malikova · Chen · Jey.=Jeyaraman
🟢 Fedd.=Fedderke · Shab.=Shabason · Indr.=Indrawan · Tree=Tree-KG · Wiki.=Wikontic
← 横向滚动 →

🗺️ 实施路线

整体策略

全本体设计，垂直切口先跑通。本体覆盖完整生态（25实体+15+关系），但V1数据灌入以画廊—艺术家—博览会—拍卖主线为主。

技术选型原则：够用、可控、能讲清楚。我们是艺术管理研究者用AI做基础设施，不是CS团队秀技术。长期可维护性优先于学术新颖度。

数据策略（三条腿走路）：

自动持续抓取：拍卖结果（嘉德/保利/西泠/苏富比/佳士得）、博览会参展名单、画廊官网、行业新闻
人工维护输入：行业经验校准、一级市场系数、从业者网络的定性信息
官方数据库接入（远期）：拍卖行/博览会/行业协会合作、雅昌Artnet等平台API

Phase 1：数据层 + KG构建（博一重点）当前阶段 ▶

核心目标：建成有真实数据、可查询的KG原型

数据采集：

头部50家画廊的代理艺术家列表（官网直接抓）
120+博览会参展画廊名单（补充已有列表，官网PDF+LLM抽取）
拍卖成交记录（嘉德/保利/西泠，先做近5年公开数据）
画廊-艺术家代理关系（官网、社媒、战报）

KG构建：

Neo4j图数据库搭建
LLM三元组抽取pipeline：设计one-shot prompt（参考Graham 2023），适配25实体+15+关系
批量处理中文拍卖数据（雅昌、嘉德、保利）提取SPO三元组
本体校验：参考CIDOC-CRM确保实体一致性（参考Vasic 2025）
评估Tree-KG框架对艺术市场文献（年报、拍卖图录）的适用性
持续抓取pipeline：定时爬虫自动更新拍卖结果和新闻

阶段产出：

数百实体、数千关系的KG原型，可在Neo4j Browser中交互查询和可视化
本体v0.2的正式化学术文档，可用于论文引用
自动化数据抓取的初步pipeline

核心参考：Graham 2023ArtRAG (ACKG构建)Vasic 2025Tree-KG

工具/技术栈：Neo4jGPT-4/Claude APIPython爬虫spaCy中文NER

Phase 2：RAG查询层（与Phase 1同步推进） ▶

核心目标：让非技术用户能用自然语言查询KG——降低使用门槛是基础设施能被用起来的关键

LLM做自然语言 → Cypher查询的转译
多粒度子图检索（语义通道+拓扑通道，参考ArtRAG架构）
RAG pipeline：KG子图 → 结构化prompt上下文 → LLM生成市场分析
基本查询能力："刘韡被哪些画廊代理？参加过哪些博览会？拍卖最高价？与哪些藏家有关联？"
可解释性层：KG推理路径作为回答依据（而非LLM幻觉）

为什么与Phase 1同步：RAG不是锦上添花，是核心交互方式。只有查询体验好，研究者才会用，基础设施才能立住。

核心参考：ArtRAG (子图检索)Malikova 2025 (RAG原型)

工具/技术栈：LangChain/LlamaIndexMLLM APICypher

Phase 3：多模态Embedding（博一下—博二上） ▶

核心目标：为KG节点配上特征向量，支撑后续GNN分析

ViT/CLIP提取artwork视觉嵌入（风格、构图、色彩→向量）
文本嵌入：展览评论、艺术家简介、新闻报道 → 语义向量
Ampligraph/PyKEEN训练TransE/ComplEx KG Embedding
Bilinear Pooling融合视觉和KG嵌入（参考Chen 2025 AKDF）
复用ArtGraph v2数据+GAT代码，扩展市场关系层
Clustering分析：艺术家市场定位图谱（本身就是有价值的研究产出）

核心参考：Castellano 2023 (ArtGraph+GAT)Chen 2025 (AKDF)Indrawan 2023 (多模态价格)

工具/技术栈：ViT/CLIPPyKEENPyTorchPyG

Phase 4：GNN智能分析与预测（博二） ▶

核心目标：从"能查"到"能分析"——网络分析、价格预测、趋势发现

网络分析：

画廊-艺术家-博览会的社区检测、影响力排名
共展网络加权分析（使用ontology v0.2的多维权重函数）
"谁会进入哪个博览会"的链接预测

价格预测：

构建时序关系图（Transaction/Exhibition/AuctionRecord带时间戳）
实现Temporal R-GCN（参考Jeyaraman 2025，金融→艺术市场迁移）
预测任务：价格区间预测、艺术家市场轨迹预测、Career Stage推导
对比实验：T-RGCN vs 静态R-GCN vs XGBoost baseline，量化时序和图结构的增量价值
拍卖行偏差特征：机器估值 vs 拍卖行预估对比（参考Biased Auctioneers, JoF 2023）
Flipping检测：一级市场→二级市场传导的异常行为识别

低标注场景策略：

伪标签+图传播（参考GNNBoost）：少量手工标注 → LLM生成伪标签 → 图传播扩展
Focal Loss解决市场数据不平衡（蓝筹画廊远少于新兴画廊）
Transductive + Inductive混合：已入图实体用标签传播，新实体用Inductive推理

核心参考：Jeyaraman 2025 (T-RGCN)GNNBoost (伪标签)Biased Auctioneers (JoF)Bassan 2024 (竞品对标)Fedderke 2024 (baseline)

工具/技术栈：PyG (PyTorch Geometric)R-GCN / GATXGBoost

Phase 5：展示层 + 对外发布 + 开放里程碑 ▶

核心目标：让行业知道"清华美院在做这件事"——可演示、可发布、可被引用

展示层：

Web界面：知识图谱可视化 + 自然语言查询框
精选分析案例：3-5个有说服力的case（网络图、价格趋势、画廊版图）
项目介绍页：背景、清华美院平台、技术架构、数据覆盖范围

发布场合：

CAMS（中国艺术管理教育学会）年会
清华美院内部学术报告
行业论坛（博览会附带的研讨会）
Landing page + 公众号文章

开放与商业化（远期）：

公共层：基础KG数据和查询能力面向研究者开放
B端服务：深度分析、定制报告、API接口面向画廊/拍卖行/藏家
官方数据接入：与行业机构建立数据合作

📋 待办清单

DONE 整理本体v0.1正式文档
DONE 本体v0.2迭代（导师反馈）
DONE 整理10篇文献综述 + 3篇技术参考
TODO 选取10个代表性艺术家做试点验证
TODO Career Stage推导规则 bottom-up 验证
TODO 共展网络权重参数校准
TODO 收集博览会PDF和战报样本，试跑LLM信息提取
TODO 设计LLM→SPO三元组提取prompt模板（参考Graham one-shot方法）
TODO 评估ontology v0.2与CIDOC-CRM的映射可行性
TODO 评估Tree-KG框架对艺术市场文献的适用性
TODO 复用ArtGraph v2数据+GAT代码，扩展市场关系层做试点
TODO 联系Bassan(帕多瓦大学)获取论文全文，做技术路线对比
TODO 设计知识图谱存储方案（Neo4j / RDF / Property Graph）
TODO 确定第一批数据源和抓取策略
TODO Flipping检测逻辑原型实现
TODO 搭建PyKEEN/Ampligraph环境，试跑KG Embedding
TODO 获取论文3(Shabason)、4(Fedderke)、8(Indrawan)、9(Jeyaraman)全文
TODO 复现T-RGCN架构，评估对艺术市场时序图的适配性
TODO ViT/CLIP提取artwork视觉嵌入的可行性测试
TODO 设计拍卖行bias_score指标（参考Biased Auctioneers）