2018年,推出首款支持专用AI加速的PCGPU

AI世纪 2024-05-24

2024-05-24

今天在 Build 大会上公布了适用于的全新 AI 性能优化和集成,以帮助用户充分发挥 RTX AI PC 和 RTX 工作站的性能。

大语言模型 (LLM) 可为生成式 AI 领域的一些全新应用场景提供支持。使用全新 R555 Game Ready 驱动,通过 ONNX (ORT) 和提高大语言模型 (LLM) 的推理性能,带来至高可达 3 倍的性能提升。ORT 和是在 PC 上本地运行AI模型的高性能工具。

WebNN 是一个供 Web 开发者部署 AI 模型的API,旨在允许 Web 应用程序和框架在客户端利用硬件来加速深度神经网络的推理,该 API 现可通过实现 RTX 加速此外, 将支持作为运行后端,使开发者能在本地上原生的训练和推理复杂的 AI 模型。与正在合作,在 RTX GPU 上进一步提升性能。

先进的 AI 平台可为全球超过 1 亿台 RTX AI PC 和工作站上的 500 多款应用和游戏提供加速支持。

RTX AI PC:游戏玩家、创作者和开发者可获得更强 AI 性能。

2018 年, 推出了首款支持专用 AI 加速的 PC GPU,即搭载 Core 的 RTX 20 系列 GPU。同年, 还推出了首款在上得到广泛使用的 AI 模型 DLSS。最新的 GPU 可提供高达 1,300 万亿次运算/秒的专用 AI 性能。

未来几个月内,搭载 RTX GPU 的 11 AI PC 将与大家见面,支持提供的全新功能,为游戏玩家、创作者、发烧友和开发者提供更强性能,以应对要求严苛的本地 AI工作负载。

对于使用 RTX AI PC 的游戏玩家而言, DLSS 最多可将帧率提升至原来的 4 倍,而 ACE 则可通过 AI 驱动的对话、动作和语音使游戏人物变得栩栩如生。

对于内容创作者而言,RTX 可为 Adobe 、和等应用中的 AI 辅助生产工作流提供支持,以自动执行繁琐的任务并简化工作流。从 3D 降噪和加速渲染到文本生成图像及视频,这些工具可帮助艺术家将自己的构想变为现实。

对于游戏而言,基于平台构建的 RTX Remix 可提供各种经 AI 加速的工具,方便他们制作经典 PC 游戏的 RTX 重制版。借助 RTX Remix,捕捉游戏素材、使用生成式 AI 工具增强材质以及使用全景光线追踪会变得比以往更轻松。

对于主播而言, 应用可提供 AI 赋能的高质量背景消除和降噪,而 RTX Video 则可提供 AI 赋能的画面放大和自动HDR,进而提升视频流的画质。

由 RTX GPU 提供支持的 LLM 可以加快 AI 助手的执行速度,还可以同时处理多个请求,进而提高生产力。

借助 RTX AI PC,开发者还可以直接在设备上使用的 AI 开发者工具构建和微调 AI 模型,这些工具包括 AI 、 cuDNN 和适用于 WSL 的 CUDA。此外,开发者还可以使用 RTX 加速的 AI 框架和软件开发套件,例如、和 RTX Video。

强大的AI 功能和出色的加速性能,两者结合可为游戏玩家、创作者和开发者带来卓越的体验。

面向 Web 开发者的 LLM 加速和全新功能

ORT 是一个用于 AI 推理的跨平台开发库, 于近期发布了 ORT 的生成式 AI 扩展程序。该扩展程序添加了对多种优化技术的支持,例如适用于 Phi-3、Llama 3、Gemma 和等 LLM 的量化。ORT 可通过不同的推理运行方案支持多种多样的软硬件架构,包括通过进行 GPU 加速

ORT 通过执行后端为 AI 开发者提供了一个开发 AI 能力的快捷途径,同时还能为广泛 PC 生态提供稳定的生产级别支持为 ORT 的生成式 AI 扩展程序推出了多种优化,现已通过 R555 Game Ready、和 RTX 驱动提供。相较于以前的驱动,这些优化可帮助开发者获得高达 3 倍的性能提升。

三款 LLM 的推理性能对比图:在使用 ONNX 和的运行方案下,比较最新的 R555 驱动与以前的 R550 驱动的表现。INSEQ=2000 用来表示文档摘要类的工作负载。所有数据均取自于 RTX 4090 GPU,batch size= 1。将生成式 AI 扩展程序对 INT4 量化的支持与优化结合使用后,LLM 可获得高达 3 倍的性能提升。

开发者可以借助全新的 R555 驱动充分利用 RTX 硬件的全部功能,以更快的速度为消费者带来更出色的 AI 体验。该驱动包含:

● 提供 DQ-GEMM 内核支持,以便处理 LLM 的 INT4 -only 量化

● 支持全新的归一化方法,用于加速 Meta AI 的 Llama 2、Llama 3、和 Phi-3 等大型语言模型的推理过程

● 针对模型,通过注意力机制优化 (GQA/MQA) 和滑动窗口技术,实现了高效、快速的推理能力。

● 为提升注意力机制计算性能引入 In-place KV 更新机制

● 高效处理非对齐 (非 8 的倍数)张量的 GEMM 运算,进一步加速了大型语言模型在上下文整合阶段的计算

此外, 还针对 WebNN 提供了优化的 AI 工作流,可直接在浏览器中提供 RTX GPU 强大性能。WebNN 是一个能帮助 Web 应用开发者使用端侧的 AI 加速器 (如: Cores) 加速深度学习模型的 API。

WebNN 现已推出开发者预览版。通过使用和 ORT Web (用于在浏览器内执行模型的库),WebNN 可使 AI 应用在多个平台上变得更易于访问。通过这种加速, 、SD Turbo 和等热门模型在 WebNN 上的运行速度最高可相较提升 4 倍,现已向开发者开放。

NVIDIA

2018年,推出首款支持专用AI加速的PCGPU

美股三大指数录得历史新高超级权重股AI卖铲人

英伟达算力租赁市场缘何爆发？

英伟达股价飙升市值突破 3 万亿美元，拆股计划即将生效

人工智能加速从“+AI”向“AI+”转变

美股财报季临近尾声“七巨头”依旧是重点标的

山东一体化算力网络建设行动方案（2022-2025）