TAPIR：使用每帧初始化和时间细化跟踪任何点

197次阅读

该论文提出了一种新颖的模型，名为TAP，可以在视频序列中有效地跟踪任何查询点在任何物理表面上的位置。该模型采用两个阶段：匹配阶段和细化阶段。该模型在TAP-Vid基准测试中表现优异，平均Jaccard（AJ）的改进幅度约为20％。该模型可以快速推断长时间高分辨率的视频序列。源代码、预训练模型和可视化结果可以在项目网页上找到。