Mellum

软件描述

Mellum-4b-base 是 JetBrains 首个专为代码相关任务优化的开源大型语言模型(LLM)。

官方网站

访问软件的官方网站了解更多信息

官方认证

huggingface.co

安全链接HTTPS
立即访问

什么是 Mellum?

Mellum-4b-base 是 JetBrains 首个专为代码相关任务优化的开源大语言模型(LLM)。 该模型在超过 4 万亿个标记上训练,上下文窗口为 8192 个标记,涵盖多种编程语言,专门针对代码补全任务进行优化。模型采用 LLaMA 风格架构,参数量为 40 亿,适用于云端推理(例如通过 vLLM)和本地部署(例如使用 llama.cpp 或 Ollama)。 Mellum 使用自动混合精度(AMP)技术,以 bf16 精度进行训练。上传至 Hugging Face 的版本保留了 bf16 格式,供公众使用。 该模型专为集成到专业开发工具中而设计,如 IDE 中的智能代码建议、AI 驱动的编码助手,以及代码理解与生成的研究,同时也适用于教育场景和微调实验。 本次发布包含基础模型及 Python SFT 模型,其他语言的模型将陆续发布。请注意,基础模型未经过下游任务的预微调,但完全支持监督微调(SFT)和强化学习(RL),可适配特定应用场景。

🔄 替代方案

52 个选择
3

Windsurf Editor 是一款集成 AI 与开发者进行同步协作的 IDE,具备级联功能,通过跨 Mac、Windows 和 Linux 平台的副驾驶和代理式系统,提升编码速度与上下文感知能力。

0

为终端设计的AI编程助手。

5

作为一款完全开源的语言模型,Apertus允许研究人员、专业人士和爱好者基于该模型进行开发,并根据自身需求对其进行调整,同时也可检查训练过程的任何部分。

3

Grok是一款由xAI开发的生成式人工智能聊天机器人。基于同名大型语言模型,该聊天机器人于2023年由埃隆·马斯克发起推出。其宣传称具备“幽默感”并可直接访问X。

4

Claude 是基于 Anthropic 在训练有益、诚实且无害的 AI 系统方面的研究成果而开发的下一代人工智能助手。通过开发者控制台中的聊天界面和 API 可以访问 Claude,它能够完成多种对话和文本处理任务……

5

作为Meta致力于开放科学的一部分,今天我们正式发布Llama(大型语言模型Meta AI),这是一个最先进的基础大型语言模型,旨在帮助研究人员推进该人工智能子领域的研究工作。

5

阿里云通用人工智能模型。

Claude Code

Claude Code

0

用一条命令将数小时的调试缩短为几秒钟。借助Claude的AI,它能理解您的整个代码库,实现思维速度的编码体验——无需再频繁切换上下文,只需突破性成果。

上一页下一页

支持平台

下载与相关链接

安全提醒

点击下方链接将跳转到第三方网站,请确保来源安全,建议优先从官方网站下载。