Mellum
Mellum
软件描述
Mellum-4b-base 是 JetBrains 针对代码相关任务优化的首个开源大型语言模型(LLM)。
官方网站
访问软件的官方网站了解更多信息
huggingface.co
什么是 Mellum?
Mellum-4b-base 是 Jetbrains 首个专为代码相关任务优化的开源大语言模型(LLM)。该模型基于超过 4 万亿个标记,在多种编程语言上训练,上下文窗口为 8192 个标记,专为代码补全任务设计。模型采用类似 LLaMA 的架构,拥有 40 亿参数,适用于云端推理(例如通过 vLLM)和本地部署(例如使用 llama.cpp 或 Ollama)。Mellum 采用自动混合精度(AMP)技术,使用 bf16 精度进行训练,Hugging Face 上发布的版本仍保留 bf16 格式以供公众使用。Mellum 专为集成到专业开发工具中(例如 IDE 中的智能代码建议)、AI 驱动的编程助手以及代码理解与生成研究而设计,同时也适用于教育应用和微调实验。本次发布包含基础模型和 Python SFT 模型,其他语言的模型即将推出。请注意,基础模型本身并未针对下游任务进行预训练微调,但完全支持监督微调(SFT)和强化学习(RL),可用于特定应用场景的适配。
主要功能
🔄 替代方案
48 个选择Windsurf 编辑器是一款集成人工智能与开发人员的集成开发环境(IDE),具备Cascade功能,可在Mac、Windows和Linux平台上通过智能助手和代理式系统实现同步协作,提升开发速度和上下文编程效率。

Grok
Grok 是由 xAI 开发的生成式人工智能聊天机器人,基于同名的大语言模型(LLM),于2023年由埃隆·马斯克发起推出。该聊天机器人被宣传具有“幽默感”,并可直接访问 X 平台……
Claude
Claude 是基于 Anthropic 在训练有益、诚实且无害的 AI 系统方面的研究开发的下一代人工智能助手。用户可通过我们的开发者控制台中的聊天界面和 API 访问 Claude,它能够完成多种对话和文本处理任务……

Meta Llama
作为对开放科学的承诺之一,今天Meta公开发布了Llama(大型语言模型Meta AI),这是一个先进的基础大型语言模型,旨在帮助研究人员在人工智能的这一细分领域推动其工作进展。