CoRR, April, 2025

TileLink: Generating Efficient Compute-Communication Overlapping Kernels using Tile-Centric Primitives.

[DOI]

CoRR, March, 2025

Comet: Fine-grained Computation-communication Overlapping for Mixture-of-Experts.

[DOI]

CoRR, February, 2025

2024

ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference.

[DOI]

CoRR, 2024

FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion.

[DOI]

CoRR, 2024

2019

NGEMM: Optimizing GEMM for Deep Learning via Compiler-based Techniques.

[DOI]

CoRR, 2019

2018

Analytical modeling of cache behavior for affine programs.

[DOI]

Proc. ACM Program. Lang., 2018

2017

Efficient Cache Simulation for Affine Computations.

[DOI]

Prashant Singh Rawat

Martin Kong

Proceedings of the Languages and Compilers for Parallel Computing, 2017

2016

Static and Dynamic Frequency Scaling on Multicore CPUs.

[DOI]

Changwan Hong

Sudheer Chunduri

Fabrice Rastello

ACM Trans. Archit. Code Optim., 2016

PolyCheck: dynamic verification of iteration space transformations on affine programs.

[DOI]

Fabrice Rastello

Proceedings of the 43rd Annual ACM SIGPLAN-SIGACT Symposium on Principles of Programming Languages, 2016

Effective padding of multidimensional arrays to avoid cache conflict misses.

[DOI]

Changwan Hong

Albert Cohen