视觉模子SegGPT来啦！具备高下文推理能耐-Ruth Gresham网

视觉模子SegGPT来啦！具备高下文推理能耐

时间：2024-11-02 23:26:31 来源：作者：

·SegGPT是视觉一个运用视觉揭示实现恣意分割使命的通用视觉模子，具备高下文推理能耐，啦理磨炼实现后无需微调，具备惟独提供示例即可自动推理并实现对于应分割使命，高下搜罗图像以及视频中的文推实例、种别、视觉零部件、啦理概况、具备文本、高下人脸、文推医学图像等。视觉

·Meta AI图像分割根基模子SAM的啦理详尽标注能耐与SegGPT的通用分割标注能耐相散漫，能把恣用意像从像素阵列剖析为视觉妄想单元，具备像生物视觉那样清晰恣意场景。高下

ChatGPT激发语言大模子怒潮，文推AI另一个严正规模视觉的GPT光阴何时到来？

5月28日，北京智源家养智能钻研院在2023中关村落论坛平行论坛之一的家养智能大模子睁开论坛上推出通用分割模子SegGPT（Segment Everything In Contex），这是一个运用视觉揭示（prompt）实现恣意分割使命的通用视觉模子。

论文地址：https://arxiv.org/abs/2304.03284

标注出一个画面中的彩虹，可批量化分割其余画面中的彩虹。

SegGPT是智源通用视觉模子Painter的衍生模子，针对于分割所有物体的目的做出优化。SegGPT具备高下文推理能耐，磨炼实现后无需微调，惟独提供示例即可自动推理并实现对于应分割使命，搜罗图像以及视频中的实例、种别、零部件、概况、文本、人脸、医学图像等。它的锐敏推理能耐反对于恣意数目的视觉揭示。自动视频分割以及追踪能耐以第一帧图像以及对于应的物体掩码作为高下文示例，SegGPT可能自动对于后续视频帧妨碍分割，而且可能用掩码的颜色作为物体的ID，实现自动追踪。

用画笔简陋圈出行星环带（上图），在预料图中精确输入目的图像中的行星环带（下图）。

此前，Meta公司宣告了AI图像分割根基模子SAM，SegGPT与SAM的差距在于，SAM“一触即通”，经由一个点或者领土框，在待预料图片上给出交互揭示，识别分割画面上的指定物体。SegGPT“一通百通”，给出一个或者多少个示例图像以及妄想掩码，模子就能知道用户妄想，“有样学样”地实现相似分割使命。用户在画面上标注识别一类物体，即可批量化识别分割同类物体，不论是在之后画面仍是其余画面或者视频情景中。

SegGPT可能凭证用户提供的宇航员头盔掩码这一高下文（上图），在新的图片中预料出对于应的宇航员头盔地域（下图）。

不论是“一触即通”仍是“一通百通” ，都象征着视觉模子已经“清晰”了图像妄想。SAM详尽标注能耐与SegGPT的通用分割标注能耐相散漫，能把恣用意像从像素阵列剖析为视觉妄想单元，像生物视觉那样清晰恣意场景。

（原问题：北京智源推出通用视觉分割模子SegGPT，具备高下文推理能耐）

关键词：

视觉模子SegGPT来啦！具备高下文推理能耐

热点关注