LLM

InternLM-20B-Common-Base-20231201

InternLM-20B-Common-Base-20231201是上海人工智能实验室与商汤科技联手香港中文大学和复旦大学发布200亿参数规模的开源基线模型。
官网地址:https://intern-ai.org.cn/home
Git地址:https://github.com/InternLM/InternLM
huggingface地址:https://huggingface.co/internlm/internlm-20b

Aquila2-34B-Common-Base-20231123

Aquila2-34B-Common-Base-20231123是智源研究院发布的340亿参数规模的开源中英双语基线模型。
官网地址:https://www.baai.ac.cn/
git地址:https://github.com/FlagAI-Open/Aquila2
huggingface地址:https://huggingface.co/BAAI/Aquila2-34B

Baichuan2-13B-Common-Base-20230912

Baichuan2-13B-Common-Base-20230912是百川智能采用了2.6万亿token[3]高质量语料训练所得的基线模型 ,参数量为130亿,上下文[6]支持4096个token[3]。比上一代Baichuan-13B模型,数学能力提升49%,代码能力提升46%,安全能力提升37%,逻辑推理能力提升25%,语义理解能力提升15%。
官网地址:https://www.baichuan-ai.com
git地址:https://github.com/baichuan-inc/Baichuan2
huggingface地址:https://huggingface.co/baichuan-inc/Baichuan2-13B-Base

Baichuan2-13B-Common-Chat-20230912

Baichuan2-13B-Common-Chat-20230912是百川智能基于Baichuan2-13B-Commom-Case(百川官方发布的开源base模型),使用对话数据进行有监督微调(SFT)和人类反馈的强化学习(RLHF)实现人类偏好对齐[5]而获得的对话模型。
官网地址:https://www.baichuan-ai.com
git地址:https://github.com/baichuan-inc/Baichuan2
huggingface地址:https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat

Baichuan-13B-Common-Base-20230814

Baichuan-13B-Common-Base-20230814是百川智能基于Transformer架构的深度神经网络模型发布的通用大语言模型,在大约1.4万亿token上训练的130亿参数模型,支持中英双语,上下文[6]支持4096个token[3]。
官网地址:https://www.baichuan-ai.com
git地址:https://github.com/baichuan-inc/Baichuan-13B
huggingface地址:https://huggingface.co/baichuan-inc/Baichuan-13B-Base

Baichuan-13B-Common-Chat-20231012

Baichuan-13B-Commom-Chat-20231012是百川智能开源基于Baichuan-13B-Common-Base(百川官方发布的开源base模型)使用对话数据进行微调得到的模型。
官网地址:https://www.baichuan-ai.com
git地址:https://github.com/baichuan-inc/Baichuan-13B
huggingface地址:https://huggingface.co/baichuan-inc/Baichuan-13B-Chat

Qwen-1_8B-Common-Chat-20231211

Qwen-1_B-Common-Chat-20231211是阿里云研发的通义千问大模型系列的18亿参数规模的chat模型,覆盖多语言(当前以中文和英文为主),上下文[6]支持8192个token[3],训练数据总量为2.2万亿token[3]。
官网地址:https://tongyi.aliyun.com
git地址:https://github.com/QwenLM/Qwen
huggingface地址:https://huggingface.co/Qwen/Qwen-1_8B-Chat

Qwen-7B-Common-Base-20230908

Qwen-7B-Common-Base-20230908是阿里云研发的通义千问大模型系列的70亿参数规模的基线模型,覆盖多语言(当前以中文和英文为主),上下文[6]支持8192个token[3],训练数据总量为2.4T token[3]。
官网地址:https://tongyi.aliyun.com
git地址:https://github.com/QwenLM/Qwen
huggingface地址:https://huggingface.co/Qwen/Qwen-7B

Qwen-7B-Common-Chat-20231101

Qwen-7B-Common-Chat-20231101是阿里云基于通义千问-7B-Common-Base(官方发布的开源base模型),使用有监督微调(SFT)和人类反馈的强化学习(RLHF)技术实现人类偏好对齐[5]的对话模型。该模型具备聊天、文字创作、摘要、信息抽取、翻译等能力,同时还具备一定的代码生成和简单数学推理的能力。
官网地址:https://tongyi.aliyun.com
git地址:https://github.com/QwenLM/Qwen
huggingface地址:https://huggingface.co/Qwen/Qwen-7B-Chat

Qwen-14B-Common-Base-20231018

Qwen-14B-Commom-Base-20231018是阿里云研发的通义千问大模型系列的140亿参数规模的模型,覆盖多语言(当前以中文和英文为主),上下文[6]支持2048个token[3],训练数据总量为3T token[3]。
官网地址:https://tongyi.aliyun.com
git地址:https://github.com/QwenLM/Qwen
huggingface地址:https://huggingface.co/Qwen/Qwen-14B

Qwen-14B-Common-Chat-20231018

Qwen-14B-Commom-Chat-20231018是阿里云在通义千问-14B-Commom-Base模型上,使用有监督微调(SFT)和人类反馈的强化学习(RLHF)技术实现人类偏好对齐[5]的对话模型,具备聊天、文字创作、摘要、信息抽取、翻译等能力,同时还具备一定的代码生成和简单数学推理的能力。
官网地址:https://tongyi.aliyun.com
git地址:https://github.com/QwenLM/Qwen
huggingface地址:https://huggingface.co/Qwen/Qwen-14B-Chat

BELLE(LLaMA2)-13B-Common-Chat-20230907

BELLE-LLAMA2-13B-Common-Chat-20230907 模型是基于Llama2-13B-Chat,使用0.4M的中文指令数据进行全参数微调而获得的。
git地址:https://github.com/LianjiaTech/BELLE
huggingface地址:https://huggingface.co/BELLE-2/BELLE-Llama2-13B-chat-0.4M

LLaMA2-13B-Common-Chat-20230807

LLaMA-13B-Common-Chat-20230807是meta开源的对话模型,约有130亿规模的参数,整个训练数据集大约包含 2T token[3]。
官网地址:https://ai.meta.com
huggingface地址:https://huggingface.co/meta-llama/Llama-2-13b-chat

ChatGLM3-6B-Common-Chat-20231128

ChatGLM3-6B-Common-Chat-20231128是由清华大学KEG 实验室和智谱AI开源的中英双语对话的基线模型。
git地址:https://github.com/THUDM/ChatGLM3
huggingface地址:https://huggingface.co/THUDM/chatglm3-6b

ChatGLM2-6B-Common-Chat-20230724

ChatGLM2-6B-Common-Chat-20230724是由清华大学KEG 实验室和智谱AI开源的中英双语对话大模型,经过了1.4T token[3]中英标识符的预训练与人类偏好对齐[5]训练,模型输入的上下文[6]长度由 ChatGLM-6B 的 2K 扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练,允许更多轮次的对话。
git地址:https://github.com/THUDM/ChatGLM2-6B
huggingface地址:https://huggingface.co/THUDM/chatglm2-6b

ChatGLM-6B-Common-Chat-20230519

ChatGLM-6B-Common-Chat-20230519是由清华大学KEG 实验室和智谱AI开源的中英双语对话大模型,基于General Language Model(GLM)架构,针对中文问答和对话进行多目标优化的预训练模型,包含约有62亿参数。
git地址:https://github.com/THUDM/ChatGLM-6B
huggingface地址:https://huggingface.co/THUDM/chatglm-6b