上个月底,DeepSeek 开始灰度测试“识图模式”。这种模式不仅限于文字 OCR,还具备了图片识别理解能力。最新用户反馈显示,DeepSeek 已经大范围开放“识图模式”供用户体验线上配资十大平台,几乎所有测试账号都能看到该入口。
拥有灰度测试资格的用户会发现,在输入框上方与“快速模式”和“专家模式”并列,出现了一个全新的“识图模式”按钮。开启该模式后,用户可以直接上传图片让 DeepSeek 进行图像识别。其能力远超简单的文字提取,例如在基础的图像识别领域,它能详细描述纹理与材质,甚至准确推断出某件玉器属于 18 世纪清代乾隆时期的“痕都斯坦风格”。面对烧脑的逻辑题时,它展现出硬核的推理能力,能够解决高难度空间推理题。此外,它还能精准识别流行的表情包或梗图,甚至解读出小猫的情绪,理解网民的转发笑点。在生产力方面,它还可以充当万能的“截图转码器”,直接解析包含代码、复杂 UI 界面的技术报告或网页截图,提取所有文字,甚至生成可交互的 HTML 代码,复原原网页的跳转按钮。
伴随着识图模式的上线,DeepSeek 上月底还公开了其背后的多模态模型技术细节,公布了一种名为“Thinking with Visual Primitives”的核心框架。传统多模态大模型在面对密集场景时存在“指代鸿沟”的困境,模型虽然能看到图片,但在推理过程中用模糊的自然语言构建逻辑链时容易导致注意力漂移。DeepSeek 的解法是将点、边界框等代表空间位置的视觉元素直接融入模型的推理链条,使其成为“思维的基本单元”。这种创新框架使得模型在推理时就像人类用“赛博手指”在脑海中精确指出目标物一样,边想边指,从而解决了复杂空间布局中的逻辑难题。
更令人惊叹的是,这种高效的框架在实际运算中对算力资源非常友好。处理一张 800×800 分辨率的图片时,DeepSeek 仅消耗约 90 个 tokens,而 GPT 和 Claude 等其他主流模型则需要消耗约 870 到 1100 个 tokens。DeepSeek 在多项计数与空间推理的基准测试上达到了比肩甚至超越前沿模型的水平。
然而,刚学会“睁眼”的 DeepSeek 并不完美。目前的识图模式仍存在几处明显不足。知识库更新滞后,在某些测试中,虽然模型的推理过程和分析逻辑正确,但最终答案却张冠李戴。例如在识别某款 2025 年底发布的最新型号手机时,因其知识库停留在 2025 年,尽管通过副屏细节推断出旧型号线上配资十大平台,但仍给出了错误的具体型号。此外,在面对数图中老虎数量、视错觉等高难度反直觉图形题目时,它的答案依然存在很大的不确定性,有时经过长时间“深度思考”后反而会出现更严重的幻觉,导致逻辑崩溃。目前 DeepSeek 上线的识图模式本质上是纯视觉理解模块,主要集中在图片识别与分析层面,尚未集成图像生成、视频理解或跨模态交互等更为广义的多模态功能。
元鼎证券_元鼎证券app下载-欢迎您下载官方APP体验更便捷的投资服务提示:本文来自互联网,不代表本网站观点。