你的位置:兰花雅韵 > 新闻 >

无需参数探访!CMU用大模子自动优化视觉谈话辅导词 | CVPR’24

无需参数探访!CMU用大模子自动优化视觉谈话辅导词 | CVPR’24

林之秋 投稿

量子位 | 公众号 QbitAI

视觉谈话模子(如 GPT-4o、DALL-E 3)频繁领罕有十亿参数,且模子权重不公开,使得传统的白盒优化递次(如反向传播)难以扩充。

那么,有莫得更节略的优化递次呢?

就在最近,卡内基梅隆大学(CMU)的盘考团队关于这个问题提议了一种翻新的“黑盒优化”战略——

通过大谈话模子自动转化当然谈话辅导词,使视觉谈话模子在文生图、视觉识别等多个卑劣任务中得回更好的暴露。

这一递次不仅无需波及模子里面参数,还大幅普及了优化的无邪性与速率,让用户即使莫得期间配景也能节略普及模子性能。

该盘考已被 CVPR 2024 袭取。

若何作念到的?

大多数视觉谈话模子(如 DALL-E 3、GPT-4o 等)并未公开模子权重或特征镶嵌,导致传统依赖反向传播的优化花式不再适用。

不外,这些模子频繁向用户绽放了当然谈话接口,使得通过优化辅导词来普及模子暴露成为可能。

关连词,传统的辅导词工程严重依赖工程师的警戒和先验常识。

举例,为普及 CLIP 模子的视觉识别效果,OpenAI 破耗了一年期间收罗了几十种有用的辅导词模板(如 “A good photo of a [class]”)。

相似,在使用DALL-E 3和Stable Diffusion等文生图模子时,用户常常也需掌合手多半辅导词妙技智力生成舒心的驱散。

那么,有莫得替代东说念主类辅导词工程师的递次?

有的 CMU 团队提议了一种新战略:用 ChatGPT 等大谈话模子自动优化辅导词。

像辅导词工程师期骗反应更变辅导词一样,CMU 的递次将正负反应交给 ChatGPT,以更高效地转化辅导词,具体经过如图所示:

这种优化经过近似于机器学习中的“爬山法”(hill-climbing)战略,不同之处在于大谈话模子不错自动分析辅导词暴露,从正负反应中找到最优更变标的。

盘考团队期骗这一特色来更高效地优化辅导词。这个经过不错用以下形势详细:

辅导词运滚动:收罗一批未经优化的运转辅导词。辅导词排序:对现时辅导词进行暴露评分,保留高分辅导词,替换低分辅导词。生成新辅导词:通过大谈话模子,把柄辅导词的暴露生成新的候选辅导词。

经过多轮迭代,最终复返得分最高的辅导词行为优化驱散。

实验驱散

通过这一递次,CMU 团队在无需东说念主类辅导工程师参与的情况下,在多个小样本视觉识别数据集上取得了最好准确性,以至卓绝了传统的白盒辅导词优化递次(如 CoOp)。

此外,该递次在无需了解数据集践诺的前提下,自动捕捉到了卑劣任务的视觉特色并将其融入辅导词中,取得了更好的效果。

举例,在食品识别任务中,ChatGPT 自动将辅导词转化为识别“千般化的好意思食和原料”,从而普及了模子的暴露。

盘考团队还诠释注解了,通过 ChatGPT 黑盒优化得到的辅导词不仅适用于单一模子架构,还能在不同模子架构(如 ResNet 和 ViT)之间泛化,而且在多种模子上暴露优于白盒优化得到的辅导词。

这一系列实考诠释注解,大谈话模子大略从辅导词的性能反应中索求出隐含的“梯度”标的,从而兑现无需反向传播的模子优化。

在文生图任务中的应用

CMU 团队进一步探索了该递次在生成任务中的应用后劲。

在文本到图像生成(T2I)任务中,ChatGPT 大略自动优化辅导词,从而生成更适应用户需求的高质地图像。

举例,关于输入形色“一个动物珍摄着一个东说念主”,系统不错通过稳重优化辅导词来普及生成图像的准确性。

此外,这一递次还适用于辅导反演(Prompt Inversion)。

辅导反演是一种把柄现存图像反推生成模子输入辅导词的期间,简便来说,便是通过图像生成大略再现其特征的文本形色(辅导词)。

盘考团队在复杂的文本到图像任务上进行了测试,驱散标明这一递次仅需三轮辅导词优化,就能显耀提高用户的舒心度。

此外,盘考团队还指出,辅导反演不错匡助用户快速定制特定的图像效果,举例“让这只狗酿成耸立姿势”或“让配景酿成夜景”,从而生成适应特定需求的图像。

CMU 团队暗示,提议的黑盒优化范式打破了传统模子调优的截止,不仅在图像分类和生成任务中暴露出色,还展示了无为的应用后劲。

这一递次无需探访模子权重,仅通过“文本梯度”兑现精确优化,具备巨大的推广性。

改日,黑盒优化有望应用于及时监控、自动驾驶、智能医疗等复杂动态场景,为多模态模子的调优带来愈加无邪高效的科罚决策。

团队先容

团队的一作刘士弘(Shihong Liu)是卡内基梅隆大学的盘考生毕业生,曾任机器东说念主盘考所盘考员。

当今在 北好意思Amazon 职责,厚爱大型漫步式系统的计较和大谈话模子驱动的 AI Agent 的诞生。

△刘士弘(Shihong Liu)

团队的共归并作林之秋(Zhiqiu Lin)是卡内基梅隆大学的博士盘考生,专注于视觉-谈话大模子的自动评估与优化。

Zhiqiu Lin在CVPR、NeurIPS、ICML、ECCV等顶级会议上发表了十数篇论文,并曾荣获最好论文提名和最好短论文奖等。

△林之秋(Zhiqiu Lin)

Deva Ramanan训诲是计较机视觉领域的海外驰名学者,现任卡内基梅隆大学训诲。

△Deva Ramanan训诲

他的盘考涵盖计较机视觉、机器学习和东说念主工智能领域,曾得回多项顶级学术荣誉,包括2009年的David Marr奖、2010年的PASCAL VOC终生树立奖、2012年的IEEE PAMI后生盘考员奖、2012年《民众科学》评比的“十位特出科学家”之一、2013年好意思国国度科学院Kavli Fellow、2018年和2024年的Longuet-Higgins奖,以及因其代表性职责(如COCO数据集)得回的Koenderink奖。

此外,他的论文在CVPR、ECCV和ICCV上屡次得回最好论文提名及荣誉奖。他的盘考效果对视觉识别、自动驾驶、和东说念主机交互等应用产生了真切影响,是该领域极具影响力的科学家之一。

CVPR’24论文调和:

https://arxiv.org/abs/2309.05950

论文代码:

https://github.com/shihongl1998/LLM-as-a-blackbox-optimizer

神志网站:

https://llm-can-optimize-vlm.github.io

— 完 —

量子位 QbitAI · 头条号签约

温雅咱们,第一期间获知前沿科技动态