VLM(Transformer)

VLM模型需要融合视觉编码器和语言模型。
其中视觉编码器的原理是将图片转换为数字向量,这个向量中包含了图片的信息,使其能够被翻译成语言模型所能够识别的信息。

YOLO(CNN)

YOLO则是使用特征提取器(卷积核)去扫描图片中的特征,生成特征地图。
然后通过多层网络扫描处理,将特征从简单的边缘、颜色、纹理,逐步组合成更加详细具体的特征,如眼睛鼻子耳朵等。

特性YOLO (目标检测器)VLM (视觉语言模型)
处理目标定位和识别 (Localization & Recognition)理解和描述 (Understanding & Description)
图像处理方式卷积和下采样,生成保留空间信息的多尺度特征地图将图像编码为单一或少数几个全局特征向量,交给语言模型。
空间信息保留得非常好,这是它的核心任务。大部分被压缩或丢弃,重点是全局语义。
好比制作一张精密的GIS地图,每个坐标点都有详细信息。写一篇关于某个地方的旅行总结报告
输出结构化的坐标和类别列表。非结构化的自然语言文本