Mellum
Mellum
软件描述
Mellum-4b-base 是 JetBrains 首个专为代码相关任务优化的开源大型语言模型(LLM)。
官方网站
访问软件的官方网站了解更多信息
huggingface.co
什么是 Mellum?
Mellum-4b-base 是 JetBrains 首个专为代码相关任务优化的开源大语言模型(LLM)。 该模型在超过 4 万亿个标记上训练,上下文窗口为 8192 个标记,涵盖多种编程语言,专门针对代码补全任务进行优化。模型采用 LLaMA 风格架构,参数量为 40 亿,适用于云端推理(例如通过 vLLM)和本地部署(例如使用 llama.cpp 或 Ollama)。 Mellum 使用自动混合精度(AMP)技术,以 bf16 精度进行训练。上传至 Hugging Face 的版本保留了 bf16 格式,供公众使用。 该模型专为集成到专业开发工具中而设计,如 IDE 中的智能代码建议、AI 驱动的编码助手,以及代码理解与生成的研究,同时也适用于教育场景和微调实验。 本次发布包含基础模型及 Python SFT 模型,其他语言的模型将陆续发布。请注意,基础模型未经过下游任务的预微调,但完全支持监督微调(SFT)和强化学习(RL),可适配特定应用场景。
主要功能
🔄 替代方案
52 个选择Open R1
Open R1 是一个由社区驱动的开源项目,旨在通过透明的方法论复现 DeepSeek-R1 的先进 AI 能力。

Google Gemma
一组轻量级、前沿的开源模型,基于我们打造 Gemini 模型所使用的研究和技术构建而成。

GitHub Copilot
GitHub Copilot 利用 OpenAI Codex 的强大功能,在您的编辑器中实时提供代码建议并完成函数。经过大量代码训练,GitHub Copilot 能够将自然语言提示转化为多种编程语言的编码建议……
OpenAI Codex
通过安全的云沙箱和本地终端代理,自动完成代码编写、编辑及代码库问题回答,支持并行任务执行、处理拉取请求、集成仓库,并兼容 ChatGPT Pro、企业版及团队用户。
Jules
Jules 是一个异步代理,不会打扰你。它让你专注于想编写的代码,同时帮你完成那些你不太想处理的琐碎任务。
Kiro 是由亚马逊网络服务(AWS)开发的 AI 驱动型集成开发环境(IDE),旨在帮助开发者从提示到部署,构建并交付生产就绪的软件。基于 VS Code,它结合了直观的“氛围编程”与结构化……

Opal AI
使用自然语言构建、编辑和分享迷你AI应用。



