Pytorch - 搜索 News

PyTorch官宣：告别CUDA，GPU推理迎来Triton加速新时代

【新智元导读】用英伟达的GPU，但可以不用CUDA？PyTorch官宣，借助OpenAI开发的Triton语言编写内核来加速LLM推理，可以实现和CUDA类似甚至更佳的性能。试问，有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰？又有多少开发者曾因为频频闪烁的警报「 ...

Tencent News

PyTorch GPU 内存分析（memory profiling）的实践指南：梯度检查点、混合 ...

点击上方“Deephub Imba”,关注公众号,好文章不错过 !模型有 2 亿个参数，fp32 精度下理论上只需 800 MB。为什么 24 GB 的 GPU 却满了？原因在于模型参数只是训练期间占用 GPU ...

新浪网

PyTorch 灵魂人物 Horace He 从 Meta 出走，选择 OpenAI 前 CTO 初创公司

PyTorch 大牛 Horace He 突然官宣，加盟 Thinking Machines。「在 Meta，离职时发布一张工牌照片是一种传统。遗憾的是，我找不到我的正式工牌了，所以只能用临时工牌代替」毕业后，在 Meta 的 PyTorch 工作 4 年后，Horace He 终于决定换一种职业，探索一些新的事物。

36氪

PyTorch团队首发技术路线图，近百页文档披露2024下半年发展方向

PyTorch公开2024 H2发展路线图，增透明度。【导读】最近，PyTorch团队首次公布了开发路线图，由内部技术文档直接修改而来，披露了这个经典开源库下一步的发展方向。如果你在AI领域用Python开发，想必PyTorch一定是你的老朋友之一。2017年，Meta AI发布了这个机器 ...

新浪网

RX 7900 XT现已支持ROCm 5.7 支持PyTorch ML和AI加速

AMD宣布ROCm和PyTorch支持已经开放给同是RDNA 3架构的RX 7900 XT显卡，涵盖了RDNA 3架构的所有顶级产品。 AMD上个月已经放出了Ubuntu Linux的ROCm 5.7.1驱动更新，为Radeon Pro W7900和Radeon RX 7900 XTX显卡带来了ROCm和PyTorch支持。而在12月初的AMD Advancing ...

36氪

扎克伯格把PyTorch捐了，已归入Linux基金会

管理委员会成员包括Meta、AMD、AWS、谷歌云、微软和英伟达。最新消息，PyTorch现在已经从Meta“独立”出来了。扎克伯格亲自宣布，PyTorch基金会已新鲜成立，并归入Linux基金会旗下。其管理委员会成员，包括Meta、AMD、AWS、谷歌云、微软和英伟达。 Meta表示 ...

来自MSN

PyTorch 2.8发布：LLM推理性能大幅提升，Intel GPU分布式后端实验性支持上线

PyTorch，这一广受欢迎的开源机器学习框架，近期正式推出了其最新版本——2.8版。此次版本更新聚焦于提升量化大语言模型（LLM）在Intel CPU上的推理性能，吸引了众多开发者和研究人员的目光。在PyTorch 2.8中，开发者团队通过算法优化和技术革新，显著提高了 ...

IT168 Digital Channel

英特尔开源版图持续收缩：AI 加速开源项目 BigDL 被砍，本月底正式归档

英特尔近日宣布将AI加速开源项目BigDL列入终止清单，该项目专注于在英特尔全系XPU上低延迟运行AI大语言模型。本周初，该项目仓库已标记为“不再由英特尔维护”，最终归档日期定为2026年6月30日，为用户提供约半个月迁移时间。BigDL曾集成TensorFlow、PyTorch等主流框架，支持CPU和GPU加速，并利用英特尔SGX和TDX技术保障大数据与AI安全。此举是英特尔收缩开源项目的持续行 ...

1 天

从最新的招聘信息分析昆仑万维的AI芯片又有新进展

把此图的内容交给AI，结论就是：根据职位描述，该公司正在招聘一位深度参与芯片级硬件适配的PyTorch工程师，其核心工作是开发UMD交互接口。这表明公司的芯片项目已从概念或流片阶段，进入了软件栈深度集成与生态构建的关键时期，正全力打通“芯片-框架-应用”的全链路。核心工作内容框架架构与流程深入理解PyTorch内部架构、计算图、算子调度等核心机制，确保框架在新硬件上高效运行。硬件适配与UM ...

csdn

使用开源Hexagon-MLIR为Hexagon NPU编译Triton与PyTorch

Hexagon‑MLIR是高通技术公司提供的开源AI编译器软件栈，确保用户能够在Hexagon NPU（为高性能、高效AI和生成式AI载荷构建的一款专用AI加速器）上轻松编译和运行Triton内核与PyTorch模型。此项举措通过探索基于开源MLIR的编译软件栈来补充本公司的商业工具链，为 ...