DeepSeek 的图像识别模式现已开启内测，这一进展可能会促使我们重新评估 AI 创作工具的选择。

XW996
寻味观察
2026-04-30
3766热度

兄弟们，DeepSeek 这次真的放大招了！

就在昨天（4月29日），DeepSeek 网页版和 App 悄悄上线了个新功能——“识图模式”。你们注意看没？输入框上面多了一个跟“快速模式”、“专家模式”并列的选项，连那个标志性的小鲸鱼 Logo 都摘掉了一只眼罩，这暗示简直不要太明显！

说实话，这次内测的“识图模式”跟咱们以前用的那种简单的“传图识字”完全是两码事：

以前的 OCR 工具：只能傻乎乎地把图里的字抠出来，看得见字，但根本看不懂图在表达啥。
现在的 VLM 视觉模型：那是真长脑子了！它不仅能识别画面里的光影、动作和物体关系，还能结合常识跟你聊逻辑，甚至自己纠错。

DeepSeek 的图像识别模式现已开启内测，这一进展可能会促使我们重新评估 AI 创作工具的选择。

不过目前还在灰度测试阶段，主要支持图片理解、视觉问答和截图分析。想让它直接生成图片（文生图）或者理解视频，暂时还不行。

那为啥说 DeepSeek 这一出，咱们选 AI 工具得重新盘算盘算？

在这之前，多模态这块基本是 GPT-4o、Gemini 和通义千问 VL 的天下。但 DeepSeek 这一入局，直接给行业扔了个“王炸”，咱们评估工具时得重点看这三点：

1. 极致的“性价比”，谁用谁知道 DeepSeek 向来就是“价格屠夫”。之前的 V3 版本就把 Token 成本打到了地板价，这次的多模态 API 估计也跑不了。对于咱们这些经常要批量处理图片（比如电商扒图、分析数据报表、UI 截图转代码）的人来说，要是能用白菜价接入一线水平的视觉能力，这账怎么算都划算啊！

2. 带着“脑子”看图，推理能力太顶了 根据目前的实测，DeepSeek 识图不仅仅是认东西，它特别擅长结合物理、时间、空间去推理。比如一张照片里时间和晚霞对不上，它都能给你揪出来。而且响应速度极快，接近“Flash”级别，处理深度分析任务比那些只会“看图说话”的模型效率高太多了。

3. 补齐最后一块短板，终于全能了 之前 DeepSeek V4 文本推理虽然猛，但没法看原生图片确实是个硬伤。现在识图模式一上，直接补齐了跟 GPT-4V、Claude Vision 对标的最后一块拼图。咱们以后不用在“擅长推理的 DeepSeek”和“擅长看图的某某模型”之间来回横跳了，一个工具全搞定，多省心。

给大家整理了个简单的对比表，一眼看懂：

模型 / 能力	图片理解	图像生成	视频理解	核心优势
DeepSeek 识图	(灰度中)			逻辑推理强、便宜、响应快
GPT-4o / 4V		(DALL-E)		综合实力稳、生态成熟
通义千问 VL			部分支持	功能全面、中文适配好
Gemini Pro				原生多模态、视频能力强

DeepSeek 的图像识别模式现已开启内测，这一进展可能会促使我们重新评估 AI 创作工具的选择。

如果你被灰度测试覆盖到了，强烈建议试试这几个场景：

职场偷懒神器：把那种复杂的流程图、数据报表或者设计稿直接甩给它，让它给你翻译成大白话，或者帮你提取关键数据，省得自己一个个抠。
生活购物帮手：拍个商品包装，让它帮你扒成分、看功效顺便比比价；路边看到不认识的动植物，拍一下立马给你科普。
内容创作搭子：随手拍张照片，让它根据画面细节给你生成几条适配小红书或朋友圈的文案，灵感瞬间拉满。

最后提醒一下大家： 因为是灰度测试，不是所有人都能立马用上。你们可以刷新一下 DeepSeek 的网页版或 App，看看输入框上面有没有“识图”标签。有的人能看到但点不了，有的人已经能正常传图聊天了。如果还没刷出来也别急，官方正在分批推送，估计很快就轮到咱们了。

DeepSeek 这一步，不仅仅是多了一个功能，而是直接把视觉理解的门槛给打下来了。对于咱们这些天天跟 AI 打交道的人来说，马上就要迎来一个“好用还便宜”的国产多模态新选择了！

寻味996

DeepSeek 的图像识别模式现已开启内测，这一进展可能会促使我们重新评估 AI 创作工具的选择。

登录后参与评论