Paper-Conference

Hierarchical Balance Packing: Towards Efficient Supervised Fine-tuning for Long-Context LLM

Jan 1, 2025

HarmoniCa: Harmonizing Training and Inference for Better Feature Caching in Diffusion Transformer Acceleration

Jan 1, 2025

DA-KD: Difficulty-Aware Knowledge Distillation for Efficient Large Language Models

Jan 1, 2025

LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit

Nov 1, 2024

TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models

Jun 1, 2024

Selective Focus: Investigating Semantics Sensitivity in Post-training Quantization for Lane Detection

Jun 1, 2024

Fast and Controllable Post-training Sparsity: Learning Optimal Sparsity Allocation with Global Constraint in Minutes

Jun 1, 2024

QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models

Jan 1, 2024

PTSBench: A Comprehensive Post-Training Sparsity Benchmark Towards Algorithms and Models

Jan 1, 2024

PRoof: A Comprehensive Hierarchical Profiling Framework for Deep Neural Networks with Roofline Analysis

Jan 1, 2024