CV Code|计算机视觉开源周报20200503期-白红宇

CV Code|计算机视觉开源周报20200503期

阅读量：577 次

发布时间：2019-03-09

本文共 17400 字，大约阅读时间需要 58 分钟。

五月第三周，盘点本周新开源或即将开源的CV代码，涵盖方向广泛，不仅涉及到技术创新，还涉及多种CV应用，尤其值得一提的是谷歌和MIT都在研究的对比表征学习和香港中文大学开源的InterFaceGan，希望对大家有帮助。

感谢这背后的开发者！

目标检测

#CVPR 2020# #3D目标检测# #自动驾驶#

[1].Train in Germany, Test in The USA: Making 3D Object Detectors Generalize

德国训练，美国测试：3D目标检测的泛化问题研究

3D目标检测被广泛用于自动驾驶，但在德国收集的数据训练的检测器可以在美国的道路上表现的好吗？实验证明，这种情况会精度下降严重，作者进一步发现主要是不同场景中汽车的大小差异过大导致的，通过简单的尺度归一化，使得跨国家的3D目标检测泛化能力更好。

作者 | Yan Wang, Xiangyu Chen, Yurong You, Li Erran, Bharath Hariharan, Mark Campbell, Kilian Q. Weinberger, Wei-Lun Chao

单位 | 康奈尔大学；硅谷数据标注公司；哥伦比亚大学；俄亥俄州立大学

论文 | https://arxiv.org/abs/2005.08139

代码 | https://github.com/cxy1997/3D_adapt_auto_driving（尚未）

[2].WW-Nets: Dual Neural Networks for Object Detection

WW-Nets：用于目标检测的双神经网络

该文提出了一个物体检测框架，涉及到 "What Network "和 "Where Network "的整合。What Network 的目的是对输入图像的相关部分进行选择性关注，而Where Network则利用这些信息来定位和分类感兴趣的对象。在 PASCAL VOC 2007 和 2012 及 COCO 数据集上的实验显示，新提出的算法大幅超越了现有号称SOTA的方法，在COCO数据集上的AP 为51.6。

作者 | Mohammad K.Ebrahimpour，J.Ben Falandays，Samuel Spevack，杨明H，David C.Noelle

单位 | 加州大学

论文 | https://arxiv.org/abs/2005.07787

代码 | https://github.com/mkebrahimpour

#显著目标检测#

[3].U^2 -Net: Going Deeper with Nested U-Structure for Salient Object Detection

作者提出使用两层嵌套的U型结构的目标检测网络

优点：

（1）能够从不同的尺度捕获更多的上下文信息，

（2）可以增加深度的信息。

借助该方案提出两个模型：U^2-Net（GTX 1080Ti GPU上为176.3 MB，30 FPS）和U^2-Net†（4.7 MB，40 FPS），以便于在不同环境中使用。这两个模型在6个显著目标检测数据集上都显示具有比较优势。

作者 | Xuebin Qin, Zichen Zhang, Chenyang Huang, Masood Dehghan, Osmar R. Zaiane, Martin Jagersand

单位 | 阿尔伯塔大学

论文 | https://arxiv.org/abs/2005.09007

代码 | https://github.com/NathanUA/U-2-Net

#传感器融合#

[4].A Deep Learning-based Radar and Camera Sensor Fusion Architecture for Object Detection

将雷达数据融合进摄像头数据的目标检测网络中，能够检测到目标被遮挡、图像质量较差等情况下的目标。实验证明该方法打败了仅使用RGB数据的算法。

作者 | Felix Nobis, Maximilian Geisslinger, Markus Weber, Johannes Betz, Markus Lienkamp

单位 | 慕尼黑工业大学

论文 | https://arxiv.org/abs/2005.07431

代码 | https://github.com/TUMFTM/CameraRadar

FusionNet

#CVPR 2020 Oral# #密集目标检测# #动态细化网络#

[5].Dynamic Refinement Network for Oriented and Densely Packed Object Detection

该文提出一种动态细化网络，用于对有方向的和密集的目标进行检测，比如遥感图像中的船只。该网络由两个新颖的组件组成，即特征选择模块（FSM）和动态细化头（DRH），FSM使神经元能够根据目标对象的形状和方向来调整感受野，而DRH使我们的模型能够以对象感知的方式动态地细化预测。在多个数据集上均表现出一致的精度提升。

作者 | Xingjia Pan, Yuqiang Ren, Kekai Sheng, Weiming Dong, Haolei Yuan, Xiaowei Guo, Chongyang Ma, Changsheng Xu

单位 | 中科院自动化研究所；优图实验室；CASIA-LVision联合实验室；快手AI实验室

论文 | https://arxiv.org/abs/2005.09973

代码 | https://github.com/Anymake/DRN_CVPR2020

神经架构搜索NAS

[6].Optimizing Neural Architecture Search using Limited GPU Time in a Dynamic Search Space: A Gene Expression Programming Approach

使用基因表达的编程方法在有限的GPU上动态搜索空间进行神经架构搜索，只需24个GPU小时，即可高效发现有价值的卷积模型。在CIFAR-10 数据集上实现2.82% 的错误率（目前最好是2.67%），CIFAR-100数据集上得到18.83%的错误率（目前最好是18.16%），在ImageNet数据集上得到移动模型top-1 和 top-5 错误率分别为29.51% 和 10.37%。

作者 | Jeovane Honorio Alves, Lucas Ferrari de Oliveira

单位 | 巴西巴拉那联邦大学

论文 | https://arxiv.org/abs/2005.07669

代码 | https://github.com/jeohalves/nasgep

#CVPR 2020 (oral)#

[7].AOWS: Adaptive and optimal network width search with latency constraints

在网络延迟限制下的自适应最佳网络宽度搜索，对ImageNet分类的实验表明，该文方法可以在不同的目标平台上找到拟合资源约束的网络，同时比最先进的高效网络提高了精度。

作者 | Maxim Berman, Leonid Pishchulin, Ning Xu, Matthew B. Blaschko, Gerard Medioni

单位 | Amazon Go；鲁汶大学

论文 | https://arxiv.org/abs/2005.10481

代码 | https://github.com/bermanmaxim/AOWS

[8].Rethinking Performance Estimation in Neural Architecture Search

对神经架构搜索中性能估计的反思

通过将BPE与各种搜索算法（包括强化学习、进化算法、随机搜索、可分化架构搜索）相结合，实现了1,000倍的NAS速度，而且与SOTA相比，性能几乎没有下降。

作者 | Xiawu Zheng, Rongrong Ji, Qiang Wang, Qixiang Ye, Zhenguo Li, Yonghong Tian, Qi Tian

单位 | 厦门大学；北大；鹏城实验室；华为诺亚方舟实验室；中国科学院大学

论文 | https://arxiv.org/abs/2005.09917

代码 | https://github.com/zhengxiawu/rethinking_

performance_estimation_in_NAS

语音声音处理与识别

#CVPR2020##唇语到语音合成#

[9].Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis

学习个体的说话风格，以实现准确的口语合成

作者 | K R Prajwal, Rudrabha Mukhopadhyay, Vinay Namboodiri, C V Jawahar

单位 | IIIT, Hyderabad

论文 | https://arxiv.org/abs/2005.08209

代码 | https://github.com/Rudrabha/Lip2Wav

视频 | https://www.youtube.com/watch?v=HziA-jmlk_4

#音频与视频#

[10].Active Speakers in Context

从视频中识别出是谁在说话，可以在有多个说话人的时候更好识别谁在说话，在AVA-ActiveSpeaker数据集上改进了最先进的性能，实现了87.1% mAP。

作者 | Juan Leon Alcazar，Fabian Caba Heilbron，Long Mai，Federico Perazzi，Joe -Young Lee，Pablo Arbelaez，Bernard Ghanem

单位 | 安第斯大学；Adobe Research；阿卜杜拉国王科技大学

论文 | https://arxiv.org/abs/2005.09812

代码 | https://github.com/fuankarion/active-speakers-context（将开源）

医学影像处理

#半监督学习# #医学图像分类#

[11].Semi-supervised Medical Image Classification with Relation-driven Self-ensembling Model

医学影响领域标注数据往往比较少，如何在有少量标注数据时利用大量的未标注数据的半监督学习是非常有价值的工作。该文提出一种基于关系驱动自嵌入模型的半监督方法，有效改进了医学图像分类问题，打败了大多数SOTA半监督方法。

作者 | Quande Liu, Lequan Yu, Luyang Luo, Qi Dou, Pheng Ann Heng

单位 | 港中大；中科院；斯坦福

论文 | https://arxiv.org/abs/2005.07377

代码 | https://github.com/liuquande/SRC-MT

#医学影像处理#

[12].Lung Segmentation from Chest X-rays using Variational Data Imputation

在很多呼吸系统疾病中，X光下肺部不透明阻碍了肺部的图像分割，本文将不透明部分视为数据缺失，使用变分数据插补，有效改进了肺部影像的分割。

作者 | Raghavendra Selvan, Erik B. Dam, Sofus Rischel, Kaining Sheng, Mads Nielsen, Akshay Pai

单位 | 哥本哈根大学

论文 | https://arxiv.org/abs/2005.10052

代码 | https://github.com/raghavian/lungVAE/

图像分类&细粒度分类

#气候区分类# #遥感图像分类#

[13].Multi-level Feature Fusion-based CNN for Local Climate Zone Classification from Sentinel-2 Images: Benchmark Results on the So2Sat LCZ42 Dataset

在遥感图像分类领域，由于大多数论文是在自有或者不同的数据集上进行实验，导致难以比较不同的工作，本文提出了用于局部气候区域分类的大规模数据集So2Sat LCZ42 ，对比实验了大量的CNN网络的结果，并提出卓有成效的多级特征融合的CNN网络模型取得了超越之前SOTA的最好结果，希望促进该领域的研究和发展。

作者 | Chunping Qiu, Xiaochong Tong, Michael Schmitt, Benjamin Bechtel, Xiao Xiang Zhu

单位 | TUM；信息工程大学，波鸿鲁尔大学，德国航空航天中心

论文 | https://arxiv.org/abs/2005.07983

代码 | https://github.com/ChunpingQiu/benchmark-

on-So2SatLCZ42-dataset-a-simple-tour

#ICIP2020# #细粒度识别#

[14].Associating Multi-Scale Receptive Fields for Fine-grained Recognition

关联多尺度感受野用于图像细粒度识别的，实验表明在三个基准数据集上超越了SOTA模型。

作者 | Zihan Ye, Fuyuan Hu, Yin Liu, Zhenping Xia, Fan Lyu, Pengqing Liu

单位 | 苏州科技大学；上海应用技术大学；天津大学

论文 | https://arxiv.org/abs/2005.09153

代码 | https://github.com/FouriYe/CNL-ICIP2020

#CVPR 2020 (Oral)# #细粒度识别#

[15].Interpretable and Accurate Fine-grained Recognition via Region Grouping

基于区域分组的可解释性的精确的细粒度识别，该文模型在在包括CUB-200、CelebA和iNaturalist数据集上的实验表明优于以前的方法。

作者 | Zixuan Huang, Yin Li

单位 | 威斯康星大学

论文 | https://arxiv.org/abs/2005.10411

代码 | https://github.com/zxhuang1698/interpretability-by-parts（即将）

网站 | https://www.biostat.wisc.edu/~yli/cvpr2020-interp/

#场景图生成#

[16].Graph Density-Aware Losses for Novel Compositions in Scene Graph Generation

场景图生成中新构图的图密度感知损失

作者 | Boris Knyazev, Harm de Vries, Cătălina Cangea, Graham W. Taylor, Aaron Courville, Eugene Belilovsky

单位 | 圭尔夫大学；蒙特利尔大学；剑桥；矢量人工智能研究所；Element AI

论文 | https://arxiv.org/abs/2005.08230

代码 | https://github.com/bknyaz/sgg

生成对抗网络GAN

#GAN#

[17].CIAGAN: Conditional Identity Anonymization Generative Adversarial Networks

CIAGAN:条件身份匿名化生成对抗网络

GAN也要考虑隐私问题！我们的模型能够删除面部和身体的识别特征，同时生成可用于任何计算机视觉任务（例如检测或跟踪）的高质量图像和视频。与以前的方法不同，我们可以完全控制取消标识（匿名化）过程，从而确保匿名性和多样性。

作者 | Maxim Maximov, Ismail Elezi, Laura Leal-Taixé

单位 | 威尼斯大学；慕尼黑工业大学

论文 | https://arxiv.org/abs/2005.09544

代码 | https://github.com/dvl-tum/ciagan

#可解释GAN#

[18].InterFaceGAN: Interpreting the Disentangled Face Representation Learned by GANs

InterFaceGAN:解读通过GANs学习的人脸表示，发现隐空间学到了人脸的语义特征（比如性别、有没有戴眼睛等），构建特征子空间投影，可以更好的在各个语义属性层面控制人脸生成。

（这项工作效果很棒，强烈推荐大家关注！）

作者 | Yujun Shen, Ceyuan Yang, Xiaoou Tang, Bolei Zhou

单位 | 香港中文大学

论文 | https://arxiv.org/abs/2005.09635

代码 | https://github.com/genforce/interfacegan

深度学习

#作用力估计#

[19].Deep learning with 4D spatio-temporal data representations for OCT-based force estimation

机器人辅助微创手术中估计器械和人体组织之间的作用力是重要且具有挑战的，该文基于OCT的四维时空数据表示的深度学习，大大改进了此项任务的精度，平均绝对误差为10.7mN。

作者 | Nils Gessert, Marcel Bengs, Matthias Schlüter, Alexander Schlaefer

单位 | 汉堡工业大学

论文 | https://arxiv.org/abs/2005.10033

代码 | https://github.com/ngessert/4d_deep_learning

[20].Reducing Overlearning through Disentangled Representations by Suppressing Unknown Tasks

作者认为现有深度学习模型在提取相应任务特征的时候存在过学习的问题，也就是学到了其他信息，而这对隐私保护来说是不应该的，故IBM的研究人员发明了一种方法，通过抑制未知任务来减少过度学习的现象。

作者 | Naveen Panwar, Tarun Tater, Anush Sankaran, Senthil Mani

单位 | IBM Research AI

论文 | https://arxiv.org/abs/2005.10220

代码 | https://github.com/dl-model-recommend/model-trust

#深度估计#

[21].Focus on defocus: bridging the synthetic to real domain gap for depth estimation

作者 | Maxim Maximov, Kevin Galim, Laura Leal-Taixé

单位 | 慕尼黑工业大学

论文 | https://arxiv.org/abs/2005.09623

代码 | https://github.com/dvl-tum/defocus-net

#CVPR 2020# #二进制分类# #深度估计#

[22].Bi3D: Stereo Depth Estimation via Binary Classifications

基于二进制分类的立体深度估计

作者 | Abhishek Badki, Alejandro Troccoli, Kihwan Kim, Jan Kautz, Pradeep Sen, Orazio Gallo

单位 | 英伟达；加州大学

论文 | https://arxiv.org/abs/2005.07274

代码 | https://github.com/NVlabs/Bi3D（尚未开源）

#重打光#

[23].Deep Lighting Environment Map Estimation from Spherical Panoramas

基于深度学习的球形全景图像的光线估计与映射，用于混合现实中虚拟物体和真实场景的光照一致性处理。

作者 | Vasileios Gkitsas , Nikolaos Zioulis, Federico Alvarez, Dimitrios Zarpalas, Petros Daras

单位 | 海拉斯研究和技术中心、马德里理工大学

论文 | https://arxiv.org/abs/2005.08000v1

代码 | https://vcl3d.github.io/DeepPanoramaLighting/

图像增强与质量评价

#CVPR 2020 oral# #图像修复#

[24].Contextual Residual Aggregation for Ultra High-Resolution Image Inpainting

作者发明了上下文残差聚合方法，用于超高分辨率图像修复，在GTX 1080 Ti GPU上实现2K图像的实时性能。

作者 | Zili Yi, Qiang Tang, Shekoofeh Azizi, Daesik Jang, Zhan Xu

单位 | 加拿大华为技术有限公司

论文 | https://arxiv.org/abs/2005.09704

代码 | https://github.com/Atlas200dk/sample-imageinpainting-HiFill

#CVPR 2020#

[25].Instance-aware Image Colorization

实例感知的图像着色，将目标检测引入图像着色，实验验证该方法达到了最先进的性能。

作者 | Jheng-Wei Su, Hung-Kuo Chu, Jia-Bin Huang

单位 | 清华大学（新竹）；弗吉尼亚理工学院暨州立大学

论文 | https://arxiv.org/abs/2005.10825

代码 | https://github.com/ericsujw/InstColorization

网站 | https://ericsujw.github.io/InstColorization/

#图像质量评估##VR##全景图#

[26].Omnidirectional Images as Moving Camera Videos

360全景图像中带有图像扭曲，该文专为此发明了用于360全景图像的图像质量评价方法。

作者 | Xiangjie Sui, Kede Ma, Yiru Yao, Yuming Fang

单位 | 江西财经大学；香港城市大学

论文 | https://arxiv.org/abs/2005.10547

代码 | https://github.com/xiangjieSui/Omnidirectional-Images-as-Moving-Camera-Videos

智能驾驶

#VSLAM自动驾驶#

[27].Persistent Map Saving for Visual Localization for Autonomous Vehicles: An ORB-SLAM 2 Extension

本文展示了立体相机系统 + ORB-SLAM 2 的扩展应用于自动驾驶，在特征丰富的场景可以支持36m/s的行驶速度，该方案可大幅节省硬件成本，但在特征不丰富场景还有待改进。

作者 | Felix Nobis, Odysseas Papanikolaou, Johannes Betz, Markus Lienkamp

单位 | 慕尼黑工业大学

论文 | https://arxiv.org/abs/2005.07429

代码 | https://github.com/TUMFTM/orbslam-map-saving-extension

#行人意图识别#

[28].FuSSI-Net: Fusion of Spatio-temporal Skeletons for Intention Prediction Network

FuSSI-Net：时空骨架融合的意图预测网络

本文开发了一个端到端的行人意图框架，该框架在白天和晚上的情况下都能很好地执行。我们的框架依赖于异物检测边界框以及人体姿势的骨骼特征。早期融合机制的AP值为0.89，对行人意图分类的精度/召回率为0.79 / 0.89。

作者 | Francesco Piccoli, Rajarathnam Balakrishnan, Maria Jesus Perez, Moraldeepsingh Sachdeo, Carlos Nunez, Matthew Tang, Kajsa Andreasson, Kalle Bjurek, Ria Dass Raj, Ebba Davidsson, Colin Eriksson, Victor Hagman, Jonas Sjoberg, Ying Li, L. Srikar Muppirisetty, Sohini Roychowdhury

单位 | 查尔姆斯理工大学；加州伯克利；

论文 | https://arxiv.org/abs/2005.07796

代码 | https://matthew29tang.github.io/pid-model/#/integrated/

图像描述

#密集视频字幕#

[29].A Better Use of Audio-Visual Cues: Dense Video Captioning with Bi-modal Transformer

更好地利用视听线索：使用Bi-modal Transformer 实现密集视频字幕

作者 | Vladimir Iashin, Esa Rahtu

单位 | 坦佩雷大学

论文 | https://arxiv.org/abs/2005.08271

代码 | https://v-iashin.github.io/bmt

图像分割

#CVPR 2020# #语义分割#

[30].Single-Stage Semantic Segmentation from Image Labels

基于图像标签的单级语义分割方法

该文首先定义一个弱监督方法的三个理想属性：局部一致性，语义保真度和完整性。使用这些属性作为指导，然后开发基于分割的网络模型和自监督的训练方案，以在单个阶段中从图像级标注中训练语义蒙版。实验表明，尽管它很简单，所取得的结果与复杂得多的算法相比具有竞争优势，大大优于早期的单阶段方法。

作者 | Nikita Araslanov, Stefan Roth

单位 | 达姆施塔特工业大学

论文 | https://arxiv.org/abs/2005.08104

代码 | https://github.com/visinf/1-stage-wseg

#实例分割##自监督##迁移学习#

[31].Self-supervised Transfer Learning for Instance Segmentation through Physical Interaction

基于物理交互的自监督迁移学习用于实例分割

SelfDeepMask在COCO数据集上平均精度比 DeepMask 高9.5％。

作者 | Andreas Eitel, Nico Hauff, Wolfram Burgard

单位 | 弗莱堡大学

论文 | https://arxiv.org/abs/2005.09484

代码 | https://github.com/aeitel/self_deepmask

光学、几何、光场成像

#光学影像#

[32].LEARNING TO MODEL AND CALIBRATE OPTICS VIA A DIFFERENTIABLE WAVE OPTICS SIMULATOR

建模和校准光学元件

作者 | Josue Page, Paolo Favaro

单位 | 伯尔尼大学；慕尼黑工业大学

论文 | https://arxiv.org/abs/2005.08562

代码 | https://github.com/pvjosue/WaveBlocks

#光谱重建#

[33].Adaptive Weighted Attention Network with Camera Spectral Sensitivity Prior for Spectral Reconstruction from RGB Images

基于摄像机光谱灵敏度的自适应加权注意网络在RGB图像光谱重建中的应用

实验结果表面提出的AWAN网络在定量比较和感知质量方面优于其他最新SR方法的有效性。在NTIRE 2020光谱重建挑战赛中，在clean赛道上排名第一，在现实世界任务赛道上排名第三。

作者 | Jiaojiao Li, Chaoxiong Wu, Rui Song, Yunsong Li, Fei Liu

单位 | 西安电子科技大学

论文 | https://arxiv.org/abs/2005.09305

代码 | https://github.com/Deep-imagelab/AWAN（即将）

超分辨率

#多光谱图像超分辨率#

[34].Learning Spatial-Spectral Prior for Super-Resolution of Hyperspectral Imagery

学习空域光谱先验，用于多光谱图像的超分辨率，实验证明该方法增强了恢复后的高分辨率图像的细节，打败了之前的SOTA。

作者 | Junjun Jiang, He Sun, Xianming Liu, Jiayi Ma

单位 | 哈工大、武汉大学、鹏城实验室

论文 | https://arxiv.org/abs/2005.08752v1

代码 | https://github.com/junjun-jiang/SSPSR

无监督、半监督

#ECCV 2020 投稿#

[35].What Makes for Good Views for Contrastive Learning?

该文方法在ImageNet分类的无监督预训练上实现了一个新的最先进的准确度（用ResNet-50进行无监督预训练时，73%的Top-1精度）。此外，将我们的模型转移到PASCAL VOC目标检测和COCO实例分割上，我们的模型在无监督预训练上的表现始终优于有监督预训练。

（感觉是个大新闻，改天好好看看这篇文章）

作者 | Yonglong Tian, Chen Sun, Ben Poole, Dilip Krishnan, Cordelia Schmid, Phillip Isola

单位 | MIT；谷歌

论文 | https://arxiv.org/abs/2005.10243

代码 | https://github.com/HobbitLong/PyContrast

遥感与航空影响处理识别

#航拍图像场景识别#

[36].Cross-Task Transfer for Multimodal Aerial Scene Recognition

在航拍图像中引入对应位置的声音来进行场景识别，作者们构造了第一个该方向的数据集，使用跨任务的迁移学习构造多模态学习框架。实验证明，语音信息的增加改进了航拍场景识别的精度。

作者 | Di Hu, Xuhong Li, Lichao Mou, Pu Jin, Dong Chen, Liping Jing, Xiaoxiang Zhu, Dejing Dou

单位 | 百度、德国航空航天中心、慕尼黑工业大学、北京交通大学

论文 | https://arxiv.org/abs/2005.08449v1

代码 | https://github.com/DTaoo/Multimodal-Aerial-Scene-Recognition

其他方向

[37].PrimiTect: Fast Continuous Hough Voting for Primitive Detection

更好的解决了三维点集的数据抽象问题

作者 | Christiane Sommer, Yumin Sun, Erik Bylow, Daniel Cremers

单位 | 慕尼黑工业大学

论文 | https://arxiv.org/abs/2005.07457

代码 | https://github.com/c-sommer/primitect

#视觉问题生成#

[38].C3VQG: Category Consistent Cyclic Visual Question Generation

作者 | Shagun Uppal, Anish Madan, Sarthak Bhagat, Yi Yu, Rajiv Ratn Shah

单位 | IIIT-Delhi；NII, Japan

论文 | https://arxiv.org/abs/2005.07771

代码 | https://github.com/ranjaykrishna/iq

主页 | https://cs.stanford.edu/people/ranjaykrishna/iq/index.html

#视觉时尚分析#

[39].MMFashion: An Open-Source Toolbox for Visual Fashion Analysis

MMFashion：香港中文大学MMLab开源的视觉时尚分析数据库，含属性识别、服饰检索、服饰分割与特征点检测、服饰搭配与推荐等功能模块，并开放了相关数据集。

作者 | Xin Liu, Jiancheng Li, Jiaqi Wang, and Ziwei Liu

单位 | 香港中文大学

论文 | https://arxiv.org/abs/2005.08847v1

代码 | https://github.com/open-mmlab/mmfashion

[40].Three-Filters-to-Normal: An Accurate and Ultrafast Surface Normal Estimator

Three-Filters-to-Normal：一种精确的超快表面法线估计器

作者 | Rui Fan, Hengli Wang, Bohuan Xue, Huaiyang Huang, Yuan Wang, Ming Liu, Ioannis Pitas

单位 | 港科大；加州大学伯克利分校；亚里士多德大学

论文 | https://arxiv.org/abs/2005.08165

代码 | https://sites.google.com/view/3f2n/code（尚未）

#图像处理#

[41].Portrait Shadow Manipulation

肖像阴影编辑

作者 | Xuaner Cecilia Zhang, J onathan T. Barron, Yun-Ta Tsai, Rohit Pandey, Xiuming Zhang, Ren Ng, David E. Jacobs

单位 | 加州伯克利；MIT；谷歌；

论文 | https://arxiv.org/abs/2005.08925

代码 | https://github.com/ceciliavision/portraitshadow（即将）

主页 | https://people.eecs.berkeley.edu/~cecilia77/project-pages/portrait

视频 | https://www.youtube.com/watch?v=M_qYTXhzyac&feature=youtu.be

#CVPR2020#

[42].Context-aware and Scale-insensitive Temporal Repetition Counting

在视频中进行重复动作计数

作者 | Huaidong Zhang, Xuemiao Xu, Guoqiang Han, Shengfeng He

单位 | 华南理工大学；亚热带建筑科学国家重点实验室

论文 | https://arxiv.org/abs/2005.08465

代码 | https://github.com/Xiaodomgdomg/Deep-Temporal-Repetition-Counting（即将）

#CVPR 2020 oral ##高维卷积网络#

[43].High-dimensional Convolutional Networks for Geometric Pattern Recognition

用于几何模式识别的高维卷积网络

提出了用于在几何配准的背景下出现的模式识别问题的高维卷积网络（ConvNets）。

首先研究卷积网络在多达32维的高维空间中检测线性子空间的有效性：维数比之前的ConvNets要高得多。

然后，将高维ConvNets应用于刚性运动和图像对应估计下的3D配准。

实验表明，高维ConvNets优于基于全局池化的深层网络的方法。

作者 | Christopher Choy, Junha Lee, Rene Ranftl, Jaesik Park, Vladlen Koltun

单位 | 英伟达；英特尔；浦项科技大学

论文 | https://arxiv.org/abs/2005.08144

代码 | https://github.com/chrischoy/HighDimConvNets（尚未开源）

#SIGGRAPH 2020##自建字体#

[44].Attribute2Font: Creating Fonts You Want From Attributes

Attribute2Font：从属性创建想要的字体

本文提出了一种新颖的模型， Attribute2Font，通过根据用户指定的属性及其对应的值合成视觉上令人愉悦的字形图像来自动创建字体。是该方向的第一个工作。

作者 | Yizhi Wang, Yue Gao, Zhouhui Lian

单位 | 北大

论文 | https://arxiv.org/abs/2005.07865

代码 | https://github.com/hologerry/Attr2Font

Identifying Statistical Bias in Dataset Replication

[45].识别数据集复制中的统计偏差

作者 | Logan Engstrom, Andrew Ilyas, Shibani Santurkar, Dimitris Tsipras, Jacob Steinhardt, Aleksander Madry

单位 | MIT；UC Berkeley

论文 | https://arxiv.org/abs/2005.09619

代码 | https://github.com/MadryLab/dataset-replication-analysis（即将）

#对比表征学习#

[46].Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere

对比表征学习近期取得了重要成功，而该文研究了其损失函数，并指出其两个特性（Alignment and Uniformity on the Hypersphere）是其成功的主要因素，在计算机视觉和自然语言处理的实验中均验证了作者的理论。

（该文看起来也非常值得一读）

作者 | Tongzhou Wang, Phillip Isola

单位 | 麻省理工学院计算机科学与人工智能实验室

论文 | https://arxiv.org/abs/2005.10242

代码 | https://github.com/SsnL/align_uniform

网站 | https://ssnl.github.io/hypersphere/

在我爱计算机视觉公众号对话框回复“CVCode”即可获取以上所有论文下载地址。（网盘位置：Code周报--20200503期）

往期"精彩阅读"

END

备注如：目标检测

细分方向交流群

2D、3D目标检测、图像分割、检索、NAS等最新资讯，若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看，让更多人看到

转载地址：http://ojysz.baihongyu.com/

你可能感兴趣的文章

Netty 4的内存管理：sun.misc.Unsafe

查看>>

Netty channelRegistered\ChannelActive---源码分析

查看>>

Netty NIO transport && OIO transport

查看>>

Netty WebSocket客户端

查看>>

netty 主要组件+黏包半包+rpc框架+源码透析

netty——黏包半包的解决方案、滑动窗口的概念

查看>>

Netty中使用WebSocket实现服务端与客户端的长连接通信发送消息

查看>>

Netty中实现多客户端连接与通信-以实现聊天室群聊功能为例(附代码下载)

查看>>

Netty中的组件是怎么交互的？

查看>>

Netty中集成Protobuf实现Java对象数据传递

netty入门，入门代码执行流程，netty主要组件的理解

查看>>