研究组基于LLM的PTX-CUDA反编译研究成果被ASE 2025(CCF A类会议)录用
研究组论文“Enhancing LLM to Decompile Optimized PTX to Readable CUDA for Tensor Programs”被中国计算机学会推荐A类国际会议 ASE 2025(40th IEEE/ACM International Conference on Automated Software Engineering)录用!
论文:Xinyu Sun, Fugen Tang, Yu Zhang*, Han Shen, Chengru Song, Di Zhang. Enhancing LLM to Decompile Optimized PTX to Readable CUDA for Tensor Programs. 40th IEEE/ACM International Conference on Automated Software Engineering (ASE), Seoul, South Korea, Nov. 16-20, 2025.
作者:孙新雨、唐富根、张昱*、申晗、宋成儒、张迪
DOI:10.1109/ASE63991.2025.00185
会议:ASE 2025 (CCF A类)
时间:2025年11月16–20日,韩国首尔
录用率:约22.3%
论文摘要:
随着大语言模型等AI技术的迅速发展,GPU张量程序的高性能编译与优化日益成为关键课题。然而,该过程面临底层代码可读性低带来的严峻挑战:开发者必须深入理解PTX等难以阅读的低级代码,才能有效开展行为分析、问题定位与性能优化。这一过程不仅实施难度高,且高度依赖专家经验,因而催生了对GPU张量程序进行高效反编译的迫切需求。
目前,主流反编译工具(如IDA Pro、Ghidra)主要面向CPU平台,针对GPU的反编译研究仍处于空白。尽管大语言模型在代码任务中已展现出巨大潜力,有望实现从PTX到CUDA的自动反编译,但现有模型普遍缺乏该任务所需的领域特定知识。
为此,本研究提出了一系列增强大语言模型PTX-CUDA反编译能力的方法,并构建了反编译原型系统PtxDec。为缓解训练数据稀缺的问题,我们设计了基于编译器的数据增强框架,结合后处理策略提升数据质量,构建了包含400k对高质量对齐CUDA-PTX内核的大规模数据集,以支持有效的大语言模型微调。此外,为应对优化后PTX代码的复杂性,我们提出了一种名为Rolled-PTX的中间表示。该表示在预处理阶段通过启发式循环折叠生成,能够压缩与抽象已展开的循环模式,从而显著简化输入至模型的代码结构,提升模型对底层代码语义的理解能力。
全面的实验评估表明,PtxDec取得了显著性能提升:在功能性指标上,本方法相比基线模型实现了2.3倍至3.1倍的提升,同时生成代码的可读性与调度一致性也得到明显改善。消融实验进一步验证了所提方法对反编译性能的贡献。
本研究首次系统性地探索了PTX-CUDA反编译这一研究方向,提出了一套基于大语言模型的解决方案,并通过实验验证了该方法在应对该领域关键挑战方面的可行性与有效性。
