2024

TurboAttention: Efficient Attention Approximation For High Throughputs LLMs.

[DOI]

Hao Kang

Srikant Bharadwaj

CoRR, 2024

Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers.

[DOI]

CoRR, 2024

2023

Predict; Don't React for Enabling Efficient Fine-Grain DVFS in GPUs.

[DOI]

Proceedings of the 28th ACM International Conference on Architectural Support for Programming Languages and Operating Systems, 2023

2022

Predict; Do not React for Enabling Efficient Fine Grain DVFS in GPUs.

[DOI]

CoRR, 2022

2021

Accelerating Variational Quantum Algorithms Using Circuit Concurrency.

[DOI]

CoRR, 2021

DUB: dynamic underclocking and bypassing in nocs for heterogeneous GPU workloads.

[DOI]

Proceedings of the NOCS '21: International Symposium on Networks-on-Chip, 2021

2020

The gem5 Simulator: Version 20.0+.

[DOI]

Daniel Rodrigues Carvalho

Amin Farmahini Farahani

Hamidreza Khaleghzadeh

CoRR, 2020

Kite: A Family of Heterogeneous Interposer Topologies Enabled via Accurate Interconnect Modeling.

[DOI]

Proceedings of the 57th ACM/IEEE Design Automation Conference, 2020

2019

Optimizing GPU Cache Policies for MI Workloads.

[DOI]

CoRR, 2019

Optimizing GPU Cache Policies for MI Workloads.

[DOI]

Proceedings of the IEEE International Symposium on Workload Characterization, 2019

2018

Scalable Distributed Last-Level TLBs Using Low-Latency Interconnects.

[DOI]

Srikant Bharadwaj

Guilherme Cox

Tushar Krishna

Abhishek Bhattacharjee

Proceedings of the 51st Annual IEEE/ACM International Symposium on Microarchitecture, 2018