Efficient LLM Serving
Efficient LLM Serving (효율적 LLM 서빙)
Research Description
Large Language Models (LLMs) are rapidly transforming the AI landscape, but their massive size and computational demand present challenges for real-time inference and large-scale deployment. A key research focus is on efficient LLM serving, which involves optimizing inference latency, throughput, and energy consumption without compromising model accuracy. Techniques such as model quantization, pruning, knowledge distillation, KV-cache management, and parallelization strategies are essential to overcoming the bottlenecks of traditional serving pipelines. By rethinking system-level designs and scheduling policies, we aim to enable scalable and cost-effective deployment of LLMs for diverse applications.
대규모 언어 모델(LLM)은 AI 분야를 급격히 변화시키고 있지만, 모델의 거대한 크기와 높은 연산 요구량은 실시간 추론 및 대규모 배치에 큰 도전 과제가 됩니다. 효율적인 LLM 서빙(Efficient LLM Serving) 연구는 정확도를 유지하면서 추론 지연(latency), 처리량(throughput), 에너지 소비를 최적화하는 것을 목표로 합니다. 이를 위해 모델 양자화(quantization), 프루닝(pruning), 지식 증류(knowledge distillation), KV-cache 관리, 병렬화(parallelization) 기법 등을 활용합니다. 또한 시스템 차원의 설계 및 스케줄링 정책을 새롭게 고안함으로써 다양한 응용을 위한 LLM의 확장 가능하고 비용 효율적인 배치를 가능하게 합니다.
Your Job
- Analyze inference workloads to identify bottlenecks in computation, memory, and communication.
- Explore and apply model compression methods such as quantization, pruning, and knowledge distillation.
- Investigate KV-cache management, attention optimization (e.g., FlashAttention), and parallelization techniques for reducing latency.
- Design efficient serving pipelines and scheduling policies for scalable multi-GPU and distributed environments.
-
Evaluate trade-offs between accuracy, latency, and cost to enable practical large-scale deployment of LLMs.
- 추론 워크로드를 분석하여 계산·메모리·통신 병목 현상을 식별.
- 양자화, 프루닝, 지식 증류와 같은 모델 압축 기법 탐구 및 적용.
- KV-cache 관리, Attention 최적화(예: FlashAttention), 병렬화 기법을 통한 지연 감소 연구.
- 효율적인 서빙 파이프라인 및 스케줄링 정책을 설계하여 멀티 GPU 및 분산 환경에서 확장 가능한 시스템 구현.
- 정확도, 지연, 비용 간의 트레이드오프를 평가하여 LLM의 실제 대규모 배치를 가능하게 함.
Related Papers:
-
AcceptedLoRA-PIM: In-Memory Delta-Weight Injection for Multi-Adapter LLM ServingIn 2025 22st International SoC Design Conference (ISOCC)
-
AcceptedGATHER: A Gated-Attention Accelerator for Efficient LLM InferenceIn 2025 22st International SoC Design Conference (ISOCC)