文章列表
文章附图

      最近,推理语言模型(RLMs)已经成为主流。       最新发布的、性能最强的LLM大都是推理模型。       尤其是DeepSeek-R1的发布,更是引发了广泛的社会影响,同时也点燃了研究社区对推理的热情。       但是,DeepSeek-R1的一些实现细节还没有完全开源,比如DeepSeek-R1-Zero以及蒸馏的小模型等。       因此,许多复制DeepSe...

文章附图

      2025年4月6日报道,今日,Meta发布Llama 4系列首批模型,包括两款高效模型Llama 4 Scout、Llama 4 Maverick。这是Meta首款采用混合专家(MoE)架构构建的原生多模态模型,其中Scout更是首度支持超长10M上下文窗口。Meta还预览了其迄今最强大的新教师模型——Llama 4 Behemoth。       “小杯”Llama 4 Sc...

文章附图

      国际可重构计算领域顶级会议 ——FPGA 2025 在落幕之时传来消息,今年的最佳论文颁发给了无问芯穹和上交、清华共同提出的视频生成大模型推理 IP 工作 FlightVGM,这是 FPGA 会议首次将该奖项授予完全由中国大陆科研团队主导的研究工作,同时也是亚太国家团队首次获此殊荣。       这项工作首次在 FPGA 上实现了视频生成模型(Video Generation ...

文章附图

      春节前夕,中国人工智能(AI)企业深度求索(DeepSeek)发布其开源模型DeepSeek-R1,用较低的成本达到了接近于美国开放人工智能研究中心(OpenAI)开发的GPT-o1模型的性能。短短几天内,DeepSeek便登顶中美两区苹果应用市场免费榜榜单,包括亚马逊、微软在内的科技巨头宣布接入DeepSeek模型。美国总统特朗普称,DeepSeek为美国人工智能行业敲响“警...

上一页 1 2 3
...
下一页