Architecture and Training Paradigms - a VCLab-HKPU Collection

VCLab-HKPU 's Collections

Image/Video Restoration, Enhancement and Quality Assessment

Multimodal Perception, Understanding and Reasoning

Image and Video Synthesis and Generation

3D Perception, Reconstruction and Generation

Architecture and Training Paradigms

Benchmarks and Datasets

Architecture and Training Paradigms

updated Apr 22

This collection showcases VCLab's investigations on new architectures of vision transformers, LLMs, VLMs and their training paradigms.

Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm

Paper • 2602.11543 • Published Feb 12 • 6

Note [arXiv 2026] Memory-efficient decentralized LLM pretraining. | Code: https://github.com/zjr2000/SPES
BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers

Paper • 2603.09582 • Published Mar 10 • 1

Note [CVPR 2026] One-bit QK-attention for ViT/DiT. | Code: https://github.com/EdwardChasel/BinaryAttention
Spatial-Mamba: Effective Visual State Space Models via Structure-aware State Fusion

Paper • 2410.15091 • Published Oct 19, 2024

Note [ICLR 2025] Structure-aware state fusion for visual Mamba. | Code: https://github.com/EdwardChasel/Spatial-Mamba
Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection

Paper • 2406.10700 • Published Jun 18, 2024

Note [NeurIPS 2024 Spotlight] Group-free Mamba SSM for 3D detection. | Code: https://github.com/gwenzhang/Voxel-Mamba
UniVS: Unified and Universal Video Segmentation with Prompts as Queries

Paper • 2402.18115 • Published Jun 10, 2024

Note [CVPR 2024] Unified universal video segmentation. | Code: https://github.com/MinghanLi/UniVS