当前位置: 首页 > 知识库问答 >
问题:

算法 - 目前哪个 LLM 可以读图了?

吴凯泽
2023-11-13

图片.png

如何看待阿里云 2023 年 11 月 12 日发生的故障? - 李博杰的回答 - 知乎
https://www.zhihu.com/question/629942630/answer/3287082159

在知乎看到上面的内容,貌似是一个可以理解图片内容的 LLM

这个是哪个LLM?

现在有哪些 LLM 可以读图的?比如给他一个图片,告诉我图片中有哪些内容;或者给他两个图片让他找不同?

共有1个答案

鲁景山
2023-11-13

很抱歉,我无法提供确切的答案,因为目前尚不清楚哪个LLM(大型语言模型)能够读取并理解图片。LLM的能力主要在于处理文本数据,而读取图片和理解图片内容则需要更复杂的视觉理解和计算机视觉技术。

然而,有一些LLM正在尝试结合图像处理和文本处理技术,以实现更全面的语言理解能力。这些LLM可能会在给定图片时,尝试识别其中的对象、场景、情感等,并尝试提取出有用的信息。但是,目前这些LLM的能力还比较有限,不能完全替代专业的图像处理技术。

如果您需要更具体的答案,建议您查阅最新的相关文献或咨询专业的技术机构。

 类似资料:
  • 前端的知识点是零碎的,中高阶前端开发人员能做哪些技术项目,提高自己的抽象和架构层次呢?

  • Web LLM 是一个可将大型语言模型和基于 LLM 的聊天机器人引入 Web 浏览器的项目。一切都在浏览器内运行,无需服务器支持,并使用 WebGPU 加速。这开辟了许多有趣的机会,可以为每个人构建 AI 助手,并在享受 GPU 加速的同时实现隐私。 查看演示网页以进行试用 Web LLM 中采用的关键技术是机器学习编译(MLC)。该解决方案建立在开源生态系统的基础上,包括 Hugging Fa

  • 我有一个listView,它充满了字符串的数组列表,我想让它可点击...但我无法识别哪个项目被点击了 我做了这个,但没用! 有办法知道被点击的字符串吗?如果没有,是否有办法知道被点击项目的位置?

  • 本文向大家介绍Css选择符有哪些?哪些属性可以继承?优先级算法如何计算?相关面试题,主要包含被问及Css选择符有哪些?哪些属性可以继承?优先级算法如何计算?时的应答技巧和注意事项,需要的朋友参考一下 1.id选择器( # myid) 2.类选择器(.myclassname) 3.标签选择器(div, h1, p) 4.相邻选择器(h1 + p) 5.子选择器(ul < li) 6.后代选择器(li

  • 6.14一面 6.17二面 (其中6.16下午发短信通知6.17上午二面,间隔也太短了) 一面技术面,项目聊的比较浅,问题也比较八股,甚至没让开视频,很快就结束了 看网上大家分享前两面都是技术面,但是今天二面直接就变综合面试了,没聊什么具体的技术,就是乱七八糟的聊一聊,遇到什么困难怎么解决的,整个过程也很短。 感慨一下tp的面试也太简单了,速度也很快,前一段找实习面的各种厂被拷打麻了

  • 6.5 一面,主要是问了一些项目经历,腐蚀膨胀cv算子这些传统的图像处理,然后聊了以下论文思路。30分钟不到就结束了。 6.8 二面,上来让介绍一下论文,然后和面试官就论文里的一个点争论了很久,然后就结束了,感觉就20分钟。 6.12 收到短信等三面。