上海人工智能实验室发布通用视觉开源平台

  前天,上海人工智能实验室联合商汤科技发布通用视觉开源平台OpenGVLab,面向学术界和产业界开放其超高效预训练模型、超大规模公开数据集,以及业内首个针对通用视觉模型的评测基准。

  上海人工智能实验室相关负责人表示,此举将为全球开发者提升各类下游视觉任务模型训练提供重要支持,推动AI技术的规模化应用落地,并促进人工智能基础研究及生态建设的快速发展。

  打麻将、竞速摩托、熊猫……或许人能轻松看出图片的内容,但人工智能不一定可以。虽然AI已经强大到可以识别万物,但很多AI模型只能完成单一的任务,比如识别单一的物体,或者识别风格较为统一的照片,如果换一种类型或者风格,就爱莫能助。

  去年11月,上海人工智能实验室联合商汤科技、香港中文大学和上海交通大学发布通用视觉技术体系“书生”,很好地解决了这一问题——具备足够的通用性和泛化能力。

  通用视觉开源平台OpenGVLab即是基于“书生”打造而成。其开源的预训练模型具有超高的性能和通用性。

  具体而言,相较于当前最强开源模型,OpenGVLab的模型可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务,在准确率和数据使用效率上均取得大幅提升。基于同样的下游场景数据,开源模型在分类、目标检测、语义分割及深度估计四大任务26个数据集上,平均错误率分别降低了40.2%、47.3%、34.8%和9.4%。开源模型在分类、检测、分割和深度估计中,仅用10%的下游训练数据就超过了现有其他开源模型。

  除了预训练模型,以百亿数据总量为基础,上海人工智能实验室构建了超大量级的精标注数据集,近期将进行数据开源工作。

  超大量级的精标注数据集不仅整合了现有的开源数据集,还通过大规模数据图像标注任务,实现了对图像分类、目标检测以及图像分割等任务的覆盖,数据总量级近7000万。开源范围涵盖千万级精标注数据集和十万级标签体系。目前,图像分类任务数据集已率先开源,后续还将开源目标检测任务等更多数据集。

  同时开放的还有总标签量级达到十万量级的超大标签体系,不仅几乎覆盖了所有现有开源数据集,还在此基础上扩充了大量细粒度标签,涵盖各类图像中的属性、状态等,极大丰富了图像任务的应用场景,显著降低下游数据的采集成本。例如针对一幅大熊猫画作,模型不但“看”出了这是一张“毛笔画”“水粉画”,而且由于图中的黑白色,模型还给出了“阴阳”的推测。

  伴随OpenGVLab的发布,上海人工智能实验室还开放了业内首个针对通用视觉模型的评测基准,弥补通用视觉模型评测领域的空白。

  全新的通用视觉评测基准凭借在任务、数据等层面的创新设计,可以提供权威的评测结果,推动统一标准上的公平和准确评测,加快通用视觉模型的产业化应用步伐。(郜阳)