Tag: SOSP
All the articles with the tag "SOSP".
-
SOSP25-Robust LLM Training Infrastracture at ByteDance
由香港大学和字节seed联合发布的LLM Traing的可靠性研究,详细介绍了用于支持**大规模 GPU 集群**稳定运行的管理系统 **ByteRobust…
-
SOSP24-Tiered Memory Management: Access Latency is the Key!
SOSP 2024 论文阅读笔记:Colloid — 分层内存管理中基于访问延迟的热页面负载均衡机制。