首页 > TAG信息列表 > LLM

首个商业级扩散大型语言模型Mercury发布,性能卓越,每秒处理超1000 token
当前的 AI 领域,可以说 Transformer 与扩散模型是最热门的模型架构。也因此,有不少研究团队都在尝试将这两种架构融合到一起,以两者之长探索新一代的模型范式

腾讯高管解读Q4财报:DeepSeek技术突破,终结LLM更新对GPU数量级增长需求
3月19日晚间消息,腾讯控股(HKEX:00700)今日发布了截至12月31日的2024年第四季度及全年财报。第四季度,营收为1724亿元,同比增长11%。

AMD发布GAIA开源项目:在Ryzen AI NPU上运行本地LLM的突破性技术
AMD推出GAIA:一个在Ryzen AI NPU上运行的本地LLM开源项目,amd,处理器,npu,gaia,开源项目,ryzen,命令提示符,windows

KG与LLM完美结合:知识图谱助力大语言模型降低幻觉现象
KG与LLM完美结合:知识图谱助力大语言模型降低幻觉现象如何使用LLM建立行业KG(知识图)电子产品世界04


Django创始人Simon Willison揭秘:如何利用LLM提升编程效率
Django创造者Simon Willison分享:我如何使用LLM帮我写代码,编程,上下文,写代码,javascript

AMD Instinct MI300X GPU集成DeepSeek-V3模型,性能超越GPT-4,实现极致性能突破
AMD集成DeepSeek模型至GPU,DeepSeek V3或已超GPT-4成最强开源LLM?



深圳市九天睿芯科技申请基于存算一体的大语言模型推理装置专利,推动AI技术革新
深圳市九天睿芯申请基于存算一体的大语言模型推理装置专利,解决现存的 LLM 推理装置的散热问题,专利,深圳市,九天睿芯,推理装置,大语言模型,科技有限公司

Omdia预测:2024年生成式AI市场规模将翻倍,达到146亿美元
Omdia:生成式AI市场预计在2024年增长一倍以上 达到146亿美元规模,用例,工作流,omdia
Django 框架创始人观点:LLM 看似有记忆,实则为无状态函数
Django框架的创始人之一、著名开发者Simon Willison最近发表了一篇博客文章,核心观点是——虽然很多LLM看起来有记忆,但本质上是无状态函数。

大语言模型的母语究竟是什么?探究其运行机制
大语言模型的「母语」是什么?我们的第一反应很可能是:英语。但事实果真如此吗?尤其是对于能够听说读写多种语言的 LLM 来说。对此


2024年哪个月发布,爆料人掐指一算,可能在11月
原创 新智元 新智元 新智元报道 编辑:桃子 好困 【新智元导读】全世界的目标再次聚焦在巴黎科技活动上的OpenAI。这次,开发者体验负责人带来了更多GPT-4

西交微软北大提出信息密集型训练大法
中文科技资讯精选摘要:近日,西交微软北大联合提出信息密集型训练大法,使用纯数据驱动的方式,矫正LLM训练过程产生的偏见,在一定程度上治疗了大语言模型丢失中间信息的问题。

欧洲科学院院士联合上海人工智能实验室提出多智能体规范性框架CRSEC
导语 如何才能让智能体具备遵守社会规范的能力,并让AI社会中自发涌现出社会规范?近日,欧洲科学院院士、西北工业大学王震教授团队联合上海人工智能实验室胡舒悦研究员
大模型回答如何更可靠?MIT设计出「共识博弈」
大模型回答如何更可靠?MIT研究团队设计出「共识博弈」,将数学家常用的博弈论引入LLM改进中。没想到,LLaMA-7B的表现,击败了LLaMA-65B,甚至与PaLM-

日本发布超级计算机“-LLM”加速密集矩阵乘法库
日本研究人员利用超级计算机Fugaku发布了Fugaku-LLM,这是一个具有130亿个参数的大型语言模型。通过优化性能和加速通信,Fugaku-LLM在日本MT-

利兹大学法学院为跨专业申请者推荐的专业之一
利兹大学,位于英国的历史文化名城利兹,是罗素大学集团的成员之一,以其卓越的学术成就和高质量的教学水平而闻名于世。在法律领域,利兹大学法学院拥有优秀的师资力量和丰富的教学资源

日本发布Arm架构超算“富岳”上训练计划
IT之家5月11日消息,由多方企业和机构组成的日本联合研究团队昨日发布了Fugaku-LLM大模型。该模型的最大特色就是其是在Arm架构超算“富岳”上训练的。Fugaku-
热门文章