OpenCoder

OpenCoder
软件
软件描述
OpenCoder 是一个开源且可复现的代码大模型系列,包含 15 亿和 80 亿参数的基座模型与对话模型,支持英语和中文。从零开始训练,OpenCoder 在 2.
官方网站
访问软件的官方网站了解更多信息
官方认证
opencoder-llm.github.io
安全链接HTTPS
什么是 OpenCoder?
OpenCoder 是一个开源且可复现的代码大模型系列,包含 1.5B 和 8B 规模的基座模型与对话模型,支持中英文。从零开始训练,OpenCoder 在由 90% 原始代码和 10% 代码相关网络数据组成的 2.5 万亿 token 数据上进行预训练,并在超过 450 万条高质量 SFT 示例上进行监督微调,最终达到顶尖代码大模型的性能水平。我们不仅提供模型权重和推理代码,还公开可复现的训练数据、完整的数据处理流程、严谨的消融实验结果以及详细的训练协议,助力研究者构建与创新,OpenCoder 是您推进代码 AI 的开源基石。
完全开源:OpenCoder 通过发布模型权重、即将推出的推理代码以及完整的训练数据清洗代码,确保全程透明。本次发布包括高质量合成数据、大量检查点及超过 450 万条监督微调(SFT)数据集,使 OpenCoder 成为目前最全面开源的大模型之一。
全面实验分析:OpenCoder 通过大规模消融实验,对多种数据清洗策略与训练流程进行了严格测试,涵盖文件级与仓库级去重实验,充分验证了模型性能的可靠性与有效性。
高质量合成数据:OpenCoder 提供完整成熟的合成数据生成流程及超过 450 万条 SFT 数据条目,为模型训练与评估奠定了坚实的数据基础。
卓越性能:OpenCoder 在多个语言模型基准测试中表现优异,跻身开源代码大模型前列。

