当前位置：首页 > news >正文

OpenBayes 一周速览丨Nanonets-OCR-s深度语义理解，精准结构化转换；HLE人类问题推理基准上线，含2.5k题目，助力封闭式评估体系构建

news 2025/6/27 13:47:55

公共资源速递

5 个公共数据集：

* Brain Tumor 脑肿瘤数据集

* HLE 人类问题推理基准数据集

* OpenThoughts3-1.2M 推理数据集

* Nemotron-Personas 人物角色数据集

* OpenMathReasoning 数学推理数据集

14 个公共教程：

音频生成 * 2

视频生成 * 2

OCR 识别 * 2

大模型部署 * 8

访问官网立即使用：openbayes.com

公共数据集

1. Brain Tumor 脑肿瘤数据集

Brain Tumor 数据集是一个脑肿瘤 MRI 分割与分类数据集，旨在为脑肿瘤的医学影像分析提供高质量数据支撑，适用于脑肿瘤分割和分类任务。数据包含约 5,000 张 MRI 切片。

* 直接使用：

OpenBayes 控制台

数据集示例

2. HLE 人类问题推理基准数据集

HLE 数据集包含 2500 道题目，覆盖数学、人文科学、自然科学等数十个学科，其中包含适合自动评分的选择题和简答题。该数据集旨在构建覆盖人类知识前沿的终极封闭式评估体系。

* 直接使用：

OpenBayes 控制台

学科分布

3. OpenThoughts3-1.2M 推理数据集

OpenThoughts3-1.2M 是一个开源的推理数据集，包含 85 万个数学问题、25 万个代码问题和 10 万个科学问题，注释使用 QwQ-32B 模型完成。

* 直接使用：

OpenBayes 控制台

数据集框架

4. Nemotron-Personas 人物角色数据集

Nemotron-Personas 数据集包含基于现实世界人口统计、地理分布和性格特征的人工合成人物角色的 10 万条记录，旨在捕捉人口的多样性和丰富性。它是同类数据集中首个与姓名、性别、年龄、背景、婚姻状况、教育程度、职业和居住地等属性相关的统计数据集。

* 直接使用：

OpenBayes 控制台

5. OpenMathReasoning 数学推理数据集

OpenMathReasoning 数据集包含来自 AoPS 论坛的 540k 个独特数学问题，数据包含多维度的精细标注，包括数学问题类型标签、详细解题步骤、问题难度等级划分等。

* 直接使用：

OpenBayes 控制台

公共教程

音频生成 * 2

1. OuteTTs：语音生成引擎

OuteTTS 核心创新在于采用纯语言建模方法生成高质量语音，无需依赖传统 TTS 系统中的复杂适配器或外部模块。其主要功能有文本转语音合成、语音克隆。

* 在线运行：

OpenBayes 控制台

模型界面示例

2. OpenAudio-s1-mini：高效TTS 生成工具

OpenAudio-S1-mini 是一种在自然语言处理任务中表现卓越的神经网络结构。同时，它还使用了多任务学习方法和先进的神经网络声码器，以实现高质量的语音合成。Fish-Speech 支持包括中文在内的多种主流语言，使得用户在跨文化交流中能够自如地表达自己。仅需 15 秒的音频样本，Fish-Speech 便能迅速实现声音克隆，生成与目标声音高度相似的语音。

* 在线运行：

OpenBayes 控制台

模型界面示例

视频生成 * 2

1. MAGI-1：全球首个自回归视频生成大模型

Magi-1 是全球首个自回归视频生成大模型，通过自回归预测一系列视频块来生成视频，定义为连续帧的固定长度片段。MAGI-1 经过训练，可以对随时间单调增加的每块噪声进行降噪，支持因果时间建模，并自然支持流式生成。它在以文本指令为条件的图像到视频任务上实现了强大的性能，提供了高度的时间一致性和可扩展性，这可以通过多项算法创新和专用基础设施堆栈实现。

* 在线运行：

OpenBayes 控制台

模型界面示例

2. FramePackLoop：开源无缝循环视频生成工具

FramePackLoop 旨在简化视频制作工作流程。该工具利用模块化架构实现帧序列打包、时间对齐和无缝循环合成。具体而言，它将光流估计与基于注意力的时间建模相结合，以保持帧间运动的连贯性。

* 在线运行：

OpenBayes 控制台

模型界面示例

OCR 识别 * 2

1. Nanonets-OCR-s：文档信息提取和基准测试工具

Nanonets-OCR-s 能识别文档中的多种元素，比如数学公式、图片、签名、水印、复选框和表格，并将它们整理成结构化的 Markdown 格式。这种能力让它在处理复杂文档时表现出色，比如学术论文、法律文件或商业报表。它的输出不仅便于人类阅读，还为下游的自动化处理提供了坚实基础。

* 在线运行：

OpenBayes 控制台

模型界面示例

2. MonkeyOCR：基于结构-识别-关系三元组范式的文档解析

MonkeyOCR 支持高效地将非结构化文档内容转换为结构化信息。基于精确的布局分析、内容识别和逻辑排序，显著提升文档解析的准确性和效率。与传统方法相比，MonkeyOCR 在处理复杂文档（如包含公式和表格的文档）时表现出色，平均性能提升 5.1%，在公式和表格解析上分别提升 15.0% 和 8.6%。模型在多页文档处理速度上表现出色，达到每秒 0.84 页。MonkeyOCR 支持多种文档类型，包括学术论文、教科书和报纸等，适用多种语言，为文档数字化和自动化处理提供强大的支持。

* 在线运行：

OpenBayes 控制台

模型界面示例

大模型部署 * 8

1. vLLM+OpenWebUl 部署 MiniCPM4-8B

MiniCPM 4.0 通过稀疏架构、量化压缩、高效推理框架等技术，实现了低计算成本下的高性能推理，特别适合长文本处理、隐私敏感场景和边缘计算设备部署。MiniCPM4-8B 在处理长序列时，相较于 Qwen3-8B 显示出明显更快的处理速度。

* 在线运行：

OpenBayes 控制台

项目示例

2. vLLM+Open WebUl 部署 KernelLLM-8B

KernelLLM 旨在将 PyTorch 模块自动翻译为高效的 Triton 内核代码，从而简化和加速高性能 GPU 编程的过程。该模型基于 Llama 3.1 Instruct 架构，拥有 80 亿参数，专注于生成高效的 Triton 内核实现。

* 在线运行：

OpenBayes 控制台

项目示例

3. QwenLong-L1-32B：长文本情境推理模型

QwenLong-L1-32B 是首个基于强化学习（RL）训练的长文本推理大模型，专注于解决传统大模型在处理超长上下文（如 12 万 token）时出现的记忆力差，逻辑混乱等问题，突破了传统大模型的上下文限制，为金融、法律等高精度场景提供了低成本、高性能的解决方案。

* 在线运行：

OpenBayes 控制台

项目示例

4. Qwen3-Embedding 系列模型对比评估教程

Qwen3 Embedding 模型系列专为文本嵌入和排序任务而设计。它基于 Qwen3 系列的密集基础模型构建，提供了各种大小（0.6B、4B 和 8B）的全面文本嵌入和重新排名模型。该系列继承了其基础模型的卓越多语言功能、长文本理解和推理技能。Qwen3 Embedding 系列代表了多种文本嵌入和排名任务的重大进步，包括文本检索、代码检索、文本分类、文本聚类和双文本挖掘。

* 在线运行：

OpenBayes 控制台

5. 一键部署 DeepSeek-R1-0528-Qwen3-8B

DeepSeek-R1-0528-Qwen3-8B 参数量为 80 亿，通过将 DeepSeek-R1-0528 的复杂推理能力蒸馏到较小的 Qwen3-8B 基座模型上，融合了 Qwen3 的多语言能力和 DeepSeek-R1 的推理优化，性能媲美 GPT-4，支持单卡高效部署，是学术与企业应用的理想选择。在 AIME 2024 上，DeepSeek-R1-0528-Qwen3-8B 取得了开源模型中的最佳性能（SOTA），超越 Qwen3 8B +10.0%，并与 Qwen3-235B-thinking 的性能相当。

* 在线运行：

OpenBayes 控制台

项目示例

6. 构建 RAG 系统：基于 Qwen3 Embedding 的实践

RAGFlow 是一个基于深度文档理解的开源 RAG（检索增强生成）引擎。与 LLM 集成后，它能够提供真实的问答功能，并以来自各种复杂格式数据的可靠引用为支撑。

* 在线运行：

OpenBayes 控制台

7. vLLM+OpenWebUl 部署 Magistral-Small-2506

Magistral-Small-2506 基于 Mistral Small 3.1（2503）构建，增加了推理能力，通过 Magistral Medium 跟踪进行 SFT 并在顶部进行强化学习，它是一个参数量为 24B 的小型高效推理模型，能够在提供答案之前进行长链推理追踪，以更深入地理解和处理复杂问题，从而提高回答的准确性和合理性。

* 在线运行：

OpenBayes 控制台

项目示例

8. vLLM+Open WebUl 部署 FairyR1-14B-Preview

FairyR1-14B-Preview 专注于数学与代码任务。该模型基于 DeepSeek-R1-Distill-Qwen-32B 基座，通过结合微调与模型合并技术构建。研究探索了在参数量大幅减少的情况下，模型在特定任务上实现与更大模型相当甚至更优性能的可能性。该研究得到了国家自然科学基金委项目（62372009）的资助。

* 在线运行：

OpenBayes 控制台