Z6尊龙·凯时(中国)-官方网站

Z6尊龙·凯时(中国)-官方网站

一站式提供商

提供设计,生产,安装,售后服务一条龙服务

13333363187
行业动态
您的位置: 主页 > 新闻中心 > 行业动态
12万人朝圣CVPR华人学者夺最佳论文Sora舵手火爆演讲成大型追星现场
发布时间:2024-06-25 22:54浏览次数:

  尊龙登录z6尊龙登录z6【新智元导读】一年一度CVPR最佳论文放榜了!刚刚结束开幕演讲上,公布了2篇最佳论文、2篇最佳学生论文、荣誉提名等奖项。值得一提的是,今年北大上交摘得最佳论文提名桂冠,上科大夺得最佳学生论文。

  2024年CVPR会议将在美国西雅图拉开帷幕,根据官方的公告,本届会议已经成为CVPR历史上规模最大、参与人数最多的一届,截止6月19日,现场参会人数已超过1.2万人。

  此外,近年来的论文接收数量也水涨船高,共有11532篇提交论文,录用率为23.58%,比去年的9155篇论文多出了2000多篇。

  由于开年Sora模型带起的视频生成的热潮,今年CVPR接收论文数量最多的领域就是「图像视频的合成与生成」,紧随其后的两个领域分别是「多视角和传感器的3D」以及「:面部、躯体、姿势、手势和移动」。

  Sora研究团队的负责人Tim Brooks也在研讨会上发表了演讲,揭秘了Sora模型的一些训练技巧以及视频生成模型未来的新功能。

  演讲中,Brooks表示自己看好Transformer架构的可扩展性,如果算力足够,我们有望借此实现世界模拟器。

  此外他也分享了一些训练模型的心得,比如不要为了某个特定任务去调整模型架构,而是先考虑让数据适应任务。

  比如,Sora在训练时的技巧就多与数据有关,包括使用不同比例的图像和视频,以及搭配字幕训练。

  当然,最重磅的还是CVPR在今天凌晨的大会开幕演讲上。正式官宣了2024年最佳论文、最佳学生论文等大奖的得主。

  该奖项每年都会表彰在计算机视觉、人工智能(AI)、机器学习(ML)、增强现实、虚拟现实和混合现实(AR/VR/MR)、深度学习等领域的顶尖研究。

  今年,CVPR从超过11,500篇论文提交中,选出了以下10篇最佳论文——是2023年的两倍之多。

  在这项工作中,作者提出了一种从单张静态图片中建模自然振荡动态效果的新方法。该方法能够从单张图片生成照片般真实的动画,并显著优于现有的基准方法。此外,他们还展示了在多个后续应用中的潜力,例如创建无缝循环或交互式图像动态效果。

  在这项工作中,作者提出了第一个详尽的用于图像生成的人类反馈数据集。具体来说,他们设计并训练了一个多模态Transformer来预测这些详尽的人类反馈,并展示了一些改进图像生成的实例。

  这篇论文的共同一作分别是华南农业大学校友Youwei Liang、清华校友Junfeng He、武大及港中文校友Gang Li。

  在这项工作中,作者提出了一种通过3D平滑滤波器和2D Mip滤波器改进3D高斯泼溅(3DGS)的全新方法Mip-Splatting,用于在任何尺度上进行无锯齿渲染。该方法在分布外测试场景中显著优于当前最先进的方法,当测试采样率与训练采样率不同的时候,能够更好地适应分布外的相机姿态和缩放因子。

  值得一提的是,论文的三位一作Zehao Yu、Anpei Chen(陈安沛)、Binbin Huang,都是上海科技大学在读或毕业生。

  在这项工作中,作者提出了TREEOFLIFE-10M和BIOCLIP,分别是一个大规模多样化的生物图像数据集和一个用于生命之树的基础模型。研究表明,BIOCLIP是一个强大的细粒度生物分类器,在零样本和少样本设置中有着出色的表现。

  此外,CVPR的主办方电气和电子工程师学会计算机协会(IEEE Computer Society, CS),也正式宣布了模式分析和机器智能技术社区(TCPAMI)的奖项。

  该奖项授予那些经得起时间检验的论文,2024年的Longuet-Higgins奖表彰了2014年在CVPR上发表的最具影响力的论文。

  在这项工作中,作者通过(1)标记图像中不合理或与文本不匹配的区域,以及(2)注释文本提示中被误表示或缺失的词语,来丰富反馈信号。

  具体来说,他们在1.8万张生成图像(RichHF-18K)上收集了丰富的人类反馈,并训练了一个多模态Transformer来自动预测这些反馈。

  实验结果展示了预测的丰富人类反馈可以用于改进图像生成,例如,通过选择高质量的训练数据来微调生成模型,或者通过创建带有预测热图的掩码来修补问题区域。

  值得注意的是,这些改进不仅适用于生成反馈数据的模型(如Stable Diffusion变体),还可以推广到其他模型上(如Muse)。

  众所周知,我们生活在一个动态的3D世界中,人和动物不断与环境互动。那么,我们该如何构建一个系统,从日常的照片和视频中捕捉、感知并理解这个4D世界?又该如何从图像和视频的观测中学习4D世界的先验知识呢?

  Angjoo Kanazawa的研究方向涵盖了计算机视觉、计算机图形学和机器学习,并致力于回答上面这些问题。

  Carl Vondrick是哥伦比亚大学计算机科学系的教授,研究方向主要集中在计算机视觉、机器学习及其应用。

  此前,他于2011年在加利福尼亚大学尔湾分校获得学士学位,导师是Deva Ramanan。之后,于2017年在MIT获得博士学位,导师是Antonio Torralba。此外,还曾在谷歌的机器感知团队担任研究科学家,并在Cruise担任访问研究员。

  具体来说,他的研究通过训练机器观察和与环境互动,旨在创建稳健且多功能的感知模型。实验室经常研究如何利用大量未标记数据进行任务和模态迁移。其他研究方向包括场景动态、声音和语言、可解释模型以及机器人感知等。

  该奖项于2020年设立,以纪念Thomas S. Huang,他是其时代计算机视觉、模式识别和人机交互领域的杰出人物。该奖项旨在表彰和致敬在计算机视觉社区中长期服务、研究和指导的杰出个人。

  Andrea Vedaldi是牛津大学工程科学系计算机视觉和机器学习专业的教授,同时担任VGG小组的联合负责人。

  他主要研究计算机视觉和机器学习方法,目标是自动理解图像和视频的内容,并且几乎不需要人工监督,特别关注语义和3D几何。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

13333363187