Simon Zhai 投稿量子位| 公众号QbitAI只用强化学习来微调,无需人类反馈,就能让多模态大模型学会做决策!这种方法得到的模型,已经学会了看图玩扑克、算“12点”等任务,表现甚至超越了GPT-4v。这是来自UC伯克利等高校最新提出的微调方法,研究阵容也是相当豪华:图灵奖三巨头之好了吧!
⊙﹏⊙‖∣°
●﹏●
梦晨发自凹非寺量子位| 公众号QbitAI开源多模态SOTA模型再易主!Hugging Face开发者大使刚刚把王冠交给了CogVLM2,来自大模型创业公司智谱AI。CogVLM2甚至在3项基准测试上超过GPT-4v和Gemini Pro,还不是超过一点,是大幅领先。网友闻讯而来,发现ChatGPT新绝技之“AI挑说完了。
meng chen fa zi ao fei si liang zi wei | gong zhong hao Q b i t A I kai yuan duo mo tai S O T A mo xing zai yi zhu ! H u g g i n g F a c e kai fa zhe da shi gang gang ba wang guan jiao gei le C o g V L M 2 , lai zi da mo xing chuang ye gong si zhi pu A I 。 C o g V L M 2 shen zhi zai 3 xiang ji zhun ce shi shang chao guo G P T - 4 v he G e m i n i P r o , hai bu shi chao guo yi dian , shi da fu ling xian 。 wang you wen xun er lai , fa xian C h a t G P T xin jue ji zhi “ A I tiao shuo wan le 。
GPT-4VOCR 能力SOTA!9 倍像素更清晰,难图长图长文本精准识别图像编码快150 倍!首次端侧系统级多模态加速国产「小钢炮」第三弹来了,力压GPT-4V正如人类依赖五感探索世界,多模态能力是AI 进化路上的必修课。仅凭8B 量级的端侧模型,「以小博大」的MiniCPM-Llama3-V 2等会说。
于恩投稿量子位| 公众号QbitAI多模态大语言模型展现了强大的图像理解和推理能力。但要让它们基于当前观测来对未来事件进行预测推理仍然非常困难。即便是当前最强大的GPT-4V(如下图所示),也无法很好地解决这一问题。△ GPT-4V的错误案例现在,华科大和上科大团队提出了一等会说。
近期研究显示,GPT-4V在医学执照考试中表现优异,准确率远超过大部分医学生。这为AI在医学临床中的应用提供了新的可能性。尽管人工智能在医学影像诊断方面取得了显著进展,医生仍难以完全信任其诊断结果,需要额外的认知成本。为了增强医生对人工智能的信任,研究团队建议通过还有呢?
∪^∪
萧箫发自凹非寺量子位| 公众号QbitAIGPT-4V学会自动操纵电脑,这一天终于还是到来了。只需要给GPT-4V接入鼠标和键盘,它就能根据浏览器界面上网:甚至还能快速摸清楚“播放音乐”的播放器网站和按钮,给自己来一段music:是不是有点细思极恐了?这是一个MIT本科生小哥整出来是什么。
关于ChatGPT-4V大家了解多少呢?下面这篇文章是笔者整理分享的关于20 条ChatGPT-4V超级提示词的内容,有想要了解的同学一起来看看吧!本文2k字,是20 条ChatGPT-4V超级提示词,用于20个实际工作场景,可显著提升业务。建议收藏,以备不时之需。ChatGPT-4V已经支持图片识别,后面会介绍。
丰色明敏发自凹非寺量子位| 公众号QbitAIGPT-4V出现惊天bug?!原本只是让它分析一张图片,结果它直接犯了致命安全问题,把聊天记录都给抖落出来了。只见它完全没回答图片内容,而是直接开始执行“神秘”代码,然后用户的ChatGPT聊天记录就被暴露了。再如看完一份完全胡扯的等会说。
LLaVA的综合能力已经达到了GPT-4V水平的85%,在复杂推理任务上更是超过了96%。读验证码、判断狗的品种,甚至根据图像生成网页代码…都难不倒LLaVA。△/Matt Shumer资源方面,LLaVA的样本量仅为120万,在单台8*A100的机器上,1天就能完成训练。不过体验过的网友普遍表示等我继续说。
梦晨发自凹非寺量子位| 公众号QbitAI看看这张图中有几个房子?如果你回答3个,就和GPT-4V的答案一样。但是最新开源的国产多模态模型CogVLM-17B,就能看出另有玄机。甚至能区分在图中完整可见的有3个和部分可见的有1个。CogVLM由清华和智谱AI合作开发,通讯作者为唐杰和说完了。
发表评论