Vit - Search

About 1,590,000 results

Open links in new tab

Any time

zhihu.com
https://www.zhihu.com › question
vit类型的模型能像全卷积模型一样输入任意尺寸图像么? - 知乎
如果输入图像尺寸不一样，为了保证embedding的操作，图像切分patch大小要相同，这时序列的长度会有变化，而ViT中有相应的Position Embedding与序列的位置有关，因此原始的ViT是不支持动态尺寸的，不过可以通过调整相应的(将位置编码通过计算对应到原始图上进行 ...
zhihu.com
https://www.zhihu.com › question
近两年有哪些ViT(Vision Transformer)的改进算法？ - 知乎
ViT -> DeiT -> MetaFormer -> PoolFormer -> EfficientFormer -> EdgeFormer. 简单的说，ViT 开创了 Transformer 加 Vision，后来提出了 DeiT 利用 ViT + 蒸馏让训练得更快更方便，但是没有解决 ViT 在端侧实时运行的问题。于是有了各种 MateFormer、PoolFormer 等各种 XXXFormer 的变种。
zhihu.com
https://www.zhihu.com › question › answers › updated
ViT在小规模的数据集上的准确率是否低于CNN？ - 知乎
江湖传言，ViT需要大量数据才能超过CNN。总所周知，ViT的attention机制难收敛难训练。所以如果没有足够的训练数据，那么ViT就不能得到一个很好的解似乎就是一个合理的推论。但是事实真的如此么？口说无凭，首先调查一下ViT在cifar10上的有监督训练能达到多少。
zhihu.com
https://www.zhihu.com › question
如何下载VIT预训练模型？ - 知乎
自己训练vit模型：如果您有足够的计算资源，可以自己训练vit模型。 VIT模型的训练过程比较复杂，需要大量的图像数据和时间。使用其他模型替代：如果您不能下载VIT预训练模型，可以尝试使用其他类似的模型，例如ResNet或DenseNet。
zhihu.com
https://www.zhihu.com › question
ViT在小规模的数据集上的准确率是否低于CNN？ - 知乎
按照提出ViT、DEiT这些论文的说法，ImageNet-1K都只能算是刚刚够到ViT能正常训练的门槛，让硬件资源不是很充足的实验室很难参与进来。在CIFAR10和CIFAR100这类小数据集上，训练ViT模型，可以说对硬件条件一般的深度学习研究者是很友好的，极大地降低了ViT模型 ...
zhihu.com
https://www.zhihu.com › question
如何看待Meta（恺明）最新论文ViTDet：只用ViT做backbone（不 …
如何提升计算效率. ViT采用的全局attention和图像输入大小（HW）的平方成正比，对于检测模型，其输入分辨率往往较大，此时用ViT作为Backbone在计算量和内存消耗上都不容小觑，比如输入为1024 × 1024时，采用ViT-B训练Mask R-CNN单batch就需要消耗∼20–30GB显存。
zhihu.com
https://www.zhihu.com › question › answers › updated
近两年有哪些ViT(Vision Transformer)的改进算法？ - 知乎
(2) 训练困难：ViT 在训练时面临多重挑战。首先，其庞大的参数量使得计算自注意力时对算力的需求远超 CNN。其次，ViT 的性能在很大程度上依赖于大规模的数据集进行预训练。此外，ViT 对超参数的选择极为敏感，需要精心调整以优化其在特定应用场景中的表现。
zhihu.com
https://www.zhihu.com › question
用transformer做视觉，具体是怎么把图片转成token的？ - 知乎
这与ViT的patch大小一致，因此ViT的主干可以直接拿过来用，这也是PlainViT设计的最大动机。物体检测和语义分割网络需要高分辨率输入，因此PlainViT也采用了于Swin-Transformer中类似的窗口注意力，以减低计算量。
zhihu.com
https://www.zhihu.com › question
为什么 ViT 里的 image patch 要设计成不重叠？ - 知乎
毕竟ViT宣扬自己是不使用卷积的纯Transformer架构，设计成重叠patch不就明摆着是卷积吗(这不是自己打自己脸，露馅了)。 2.ViT使用Transformer架构，需要输入序列，把图像切割成不重叠的patch序列比较直观，不会有任何的计算浪费(后续其实有重叠patch的魔改)。 3.
zhihu.com
https://www.zhihu.com › question
为什么VIT模型使用卷积来实现linear projection？ - 知乎
知乎，中文互联网高质量的问答社区和创作者聚集的原创内容平台，于 2011 年 1 月正式上线，以「让人们更好的分享知识、经验和见解，找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容，聚集了中文互联网科技、商业、 …

Pagination
- 1
- 2
- 3
- 4
- Next