VLM(Transformer)
VLM模型需要融合视觉编码器和语言模型。
其中视觉编码器的原理是将图片转换为数字向量,这个向量中包含了图片的信息,使其能够被翻译成语言模型所能够识别的信息。
YOLO(CNN)
YOLO则是使用特征提取器(卷积核)去扫描图片中的特征,生成特征地图。
然后通过多层网络扫描处理,将特征从简单的边缘、颜色、纹理,逐步组合成更加详细具体的特征,如眼睛鼻子耳朵等。
| 特性 | YOLO (目标检测器) | VLM (视觉语言模型) |
|---|---|---|
| 处理目标 | 定位和识别 (Localization & Recognition) | 理解和描述 (Understanding & Description) |
| 图像处理方式 | 卷积和下采样,生成保留空间信息的多尺度特征地图。 | 将图像编码为单一或少数几个全局特征向量,交给语言模型。 |
| 空间信息 | 保留得非常好,这是它的核心任务。 | 大部分被压缩或丢弃,重点是全局语义。 |
| 好比 | 制作一张精密的GIS地图,每个坐标点都有详细信息。 | 写一篇关于某个地方的旅行总结报告。 |
| 输出 | 结构化的坐标和类别列表。 | 非结构化的自然语言文本。 |



































































































































