DeepSeek 的图像识别模式现已开启内测,这一进展可能会促使我们重新评估 AI 创作工具的选择。
- 寻味观察
- 26天前
- 3722热度
兄弟们,DeepSeek 这次真的放大招了!
就在昨天(4月29日),DeepSeek 网页版和 App 悄悄上线了个新功能——“识图模式”。你们注意看没?输入框上面多了一个跟“快速模式”、“专家模式”并列的选项,连那个标志性的小鲸鱼 Logo 都摘掉了一只眼罩,这暗示简直不要太明显!
说实话,这次内测的“识图模式”跟咱们以前用的那种简单的“传图识字”完全是两码事:
- 以前的 OCR 工具:只能傻乎乎地把图里的字抠出来,看得见字,但根本看不懂图在表达啥。
- 现在的 VLM 视觉模型:那是真长脑子了!它不仅能识别画面里的光影、动作和物体关系,还能结合常识跟你聊逻辑,甚至自己纠错。
不过目前还在灰度测试阶段,主要支持图片理解、视觉问答和截图分析。想让它直接生成图片(文生图)或者理解视频,暂时还不行。
那为啥说 DeepSeek 这一出,咱们选 AI 工具得重新盘算盘算?
在这之前,多模态这块基本是 GPT-4o、Gemini 和通义千问 VL 的天下。但 DeepSeek 这一入局,直接给行业扔了个“王炸”,咱们评估工具时得重点看这三点:
1. 极致的“性价比”,谁用谁知道 DeepSeek 向来就是“价格屠夫”。之前的 V3 版本就把 Token 成本打到了地板价,这次的多模态 API 估计也跑不了。对于咱们这些经常要批量处理图片(比如电商扒图、分析数据报表、UI 截图转代码)的人来说,要是能用白菜价接入一线水平的视觉能力,这账怎么算都划算啊!
2. 带着“脑子”看图,推理能力太顶了 根据目前的实测,DeepSeek 识图不仅仅是认东西,它特别擅长结合物理、时间、空间去推理。比如一张照片里时间和晚霞对不上,它都能给你揪出来。而且响应速度极快,接近“Flash”级别,处理深度分析任务比那些只会“看图说话”的模型效率高太多了。
3. 补齐最后一块短板,终于全能了 之前 DeepSeek V4 文本推理虽然猛,但没法看原生图片确实是个硬伤。现在识图模式一上,直接补齐了跟 GPT-4V、Claude Vision 对标的最后一块拼图。咱们以后不用在“擅长推理的 DeepSeek”和“擅长看图的某某模型”之间来回横跳了,一个工具全搞定,多省心。
给大家整理了个简单的对比表,一眼看懂:
| 模型 / 能力 | 图片理解 | 图像生成 | 视频理解 | 核心优势 |
|---|---|---|---|---|
| DeepSeek 识图 | (灰度中) | 逻辑推理强、便宜、响应快 | ||
| GPT-4o / 4V | (DALL-E) | 综合实力稳、生态成熟 | ||
| 通义千问 VL | 部分支持 | 功能全面、中文适配好 | ||
| Gemini Pro | 原生多模态、视频能力强 |
如果你被灰度测试覆盖到了,强烈建议试试这几个场景:
- 职场偷懒神器:把那种复杂的流程图、数据报表或者设计稿直接甩给它,让它给你翻译成大白话,或者帮你提取关键数据,省得自己一个个抠。
- 生活购物帮手:拍个商品包装,让它帮你扒成分、看功效顺便比比价;路边看到不认识的动植物,拍一下立马给你科普。
- 内容创作搭子:随手拍张照片,让它根据画面细节给你生成几条适配小红书或朋友圈的文案,灵感瞬间拉满。
最后提醒一下大家: 因为是灰度测试,不是所有人都能立马用上。你们可以刷新一下 DeepSeek 的网页版或 App,看看输入框上面有没有“识图”标签。有的人能看到但点不了,有的人已经能正常传图聊天了。如果还没刷出来也别急,官方正在分批推送,估计很快就轮到咱们了。
DeepSeek 这一步,不仅仅是多了一个功能,而是直接把视觉理解的门槛给打下来了。对于咱们这些天天跟 AI 打交道的人来说,马上就要迎来一个“好用还便宜”的国产多模态新选择了!


登录后参与评论
使用微信扫码登录,即可发表评论并与大家互动。