当前位置：首页 > news >正文

【小红书拥抱开源】小红书开源大规模混合专家模型——dots.llm1

news 2025/7/1 18:37:07

在这里插入图片描述

dots.llm1模型是一个大规模混合专家模型（MoE），在总计1420亿参数中激活140亿参数，其性能与最先进模型相当。通过我们精心设计的高效数据处理流程，dots.llm1在预训练11.2万亿高质量token（未使用合成数据）后，性能已可比拟Qwen2.5-72B。为促进进一步研究，我们每训练1万亿token就会开源中间检查点，为大型语言模型的学习动态研究提供宝贵洞见。

在这里插入图片描述

模型概要

该仓库包含基础版和指令微调版的dots.llm1模型，具有以下特性：

类型：采用混合专家（MoE）架构的模型，激活参数140亿，总参数量1420亿，训练数据量11.2万亿token
训练阶段：预训练与监督微调（SFT）
架构：注意力层采用多头注意力机制与QK标准化，细粒度MoE结构从128个路由专家中动态选择前6个，另含2个共享专家
层数：62
注意力头数：32
支持语言：英语、中文
上下文长度：32,768个token
许可协议：MIT

dots.llm1的核心亮点包括：

增强的数据处理框架：我们提出可扩展且细粒度的三阶段数据处理框架，专门用于生成大规模、高质量且多样化的预训练数据。
预训练阶段零合成数据：基础模型预训练使用了11.2万亿个真实场景产生的高质量文本标记（token）。
性能与成本效率：该开源模型推理时仅激活140亿参数，兼具全面能力与高效计算特性。
基础设施创新：基于交错式1F1B流水线调度技术，我们研发了创新的混合专家全互联通信与计算重叠方案，配合高效分组GEMM实现显著提升计算效率。
模型动态开放研究：每训练1万亿标记即发布中间模型检查点，为大型语言模型学习机制研究提供宝贵资源。

Example Usage

模型下载

模型	参数总量	激活参数量	上下文长度	下载链接
dots.llm1.base	142B	14B	32K	🤗 Hugging Face
dots.llm1.inst	142B	14B	32K	🤗 Hugging Face

Docker (推荐)

Docker镜像基于官方镜像构建，可在Docker Hub获取。

您可以通过vllm启动服务器。

docker run --gpus all \-v ~/.cache/huggingface:/root/.cache/huggingface \-p 8000:8000 \--ipc=host \rednotehilab/dots1:vllm-openai-v0.9.0.1 \--model rednote-hilab/dots.llm1.inst \--tensor-parallel-size 8 \--trust-remote-code \--served-model-name dots1

那么您可以通过以下方式来验证模型是否成功运行。

curl http://localhost:8000/v1/chat/completions \-H "Content-Type: application/json" \-d '{"model": "dots1","messages": [{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": "Who won the world series in 2020?"}],"max_tokens": 32,"temperature": 0}'

使用HuggingFace进行推理

我们正在努力将其合并到Transformers库中（PR #38143）。

文本补全

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfigmodel_name = "rednote-hilab/dots.llm1.base"
tokenizer = AutoTokenizer.from_pretrained(model_name)model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", torch_dtype=torch.bfloat16)text = "An attention function can be described as mapping a query and a set of key-value pairs to an output, where the query, keys, values, and output are all vectors. The output is"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_new_tokens=100)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)

聊天

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfigmodel_name = "rednote-hilab/dots.llm1.inst"
tokenizer = AutoTokenizer.from_pretrained(model_name)model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", torch_dtype=torch.bfloat16)messages = [{"role": "user", "content": "Write a piece of quicksort code in C++"}
]
input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(input_tensor.to(model.device), max_new_tokens=200)result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)
print(result)

使用vLLM进行推理

vLLM 是一个面向大语言模型的高吞吐量且内存高效的推理与服务引擎。PR #18254 中提供了对该功能的官方支持。

vllm serve dots.llm1.inst --port 8000 --tensor-parallel-size 8

OpenAI兼容API将提供在http://localhost:8000/v1.

使用sglang进行推理

SGLang 是一个用于大型语言模型和视觉语言模型的快速服务框架。SGLang可用于启动具有OpenAI兼容API服务的服务器。该功能的官方支持包含在PR #6471中。

只需运行以下命令即可开始使用：

python -m sglang.launch_server --model-path dots.llm1.inst --tp 8 --host 0.0.0.0 --port 8000

A一个OpenAI兼容的API将在 http://localhost:8000/v1.

查看全文

http://www.lqws.cn/news/197587.html

如何从浏览器中导出网站证书

第5章：Cypher查询语言进阶

浅谈 React Suspense

Svelte 核心语法详解：Vue/React 开发者如何快速上手？

BERT, GPT, Transformer之间的关系

从温湿度控制切入：楼宇自控系统打造舒适建筑环境的路径

AcWing--数据结构1

github中main与master，master无法合并到main

Go深入学习延迟语句

MCP 技术完全指南：微软开源项目助力 AI 开发标准化学习

WPF学习PropertyChanged

前沿论文汇总（机器学习/深度学习/大模型/搜广推/自然语言处理）

【单源最短路经】Dijkstra 算法（朴素版和堆优化版）、Bellman-Ford 算法、spfa 算法及负环判断

OpenLayers 导航之运动轨迹

队列的概念及实现

npm安装electron下载太慢，导致报错

前端 Electron 桌面应用学习笔记

Dynamics 365 Finance + Power Automate 自动化凭证审核

day029-Shell自动化编程-计算与while循环

JMeter-SSE响应数据自动化2.0

线性代数小述（二之前）

GenSpark vs Manus实测对比：文献综述与学术PPT，哪家强？

503 Service Unavailable：服务器暂时无法处理请求，可能是超载或维护中如何处理？

174页PPT家居制造业集团战略规划和运营管控规划方案

Go 语言实现高性能 EventBus 事件总线系统（含网络通信、微服务、并发异步实战）

Linux 系统、代码与服务器进阶知识深度解析

PDF转PPT转换方法总结

基于Java的离散数学题库系统设计与实现：附完整源码与论文

【走好求职第一步】求职OMG——见面课测验4

clickhouse 和 influxdb 选型