1.百川模型介绍
- baichuan-7B不仅在C-Eval、AGIEval和Gaokao中文权威评测榜单上,以显著优势全面超过了ChatGLM-6B等其他大模型,并且在MMLU英文权威评测榜单上,大幅领先LLaMA-7B。
- baichuan-7B是由百川智能开发的一个开源的大规模预训练模型。基于Transformer结构,在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。
1.1 baichuan的中文能力
- 多个模型的对比评分:在AGIEval的评测里,baichuan-7B综合评分达到34.4分,远超LLaMA-7B、Falcon-7B、Bloom-7B以及ChatGLM-6B等其他开源模型。
1.2 百川的英文能力(MMLU基准)
- 在MMLU的评测中baichuan-7B综合评分高达42.5分,大幅领先英文开源预训练模型LLaMA-7B的34.2分以及中文开源模型ChatGLM-6B的36.9分。
1.3 万亿数据、4K上下文
训练语料对大模型的训练结果至关重要。在构建预训练语料库方面,百川智能以高质量中文语料为基础,同时融合了优质的英文数据。具体来说,原始数据包括自行抓取的海量中英文互联网数据和部分开源的中英文数据,以及大量高质量知识性数据。
1.4 商业免费
baichuan-7B此次开源的内容十分丰富,包含了推理代码、INT4量化实现、微调代码,以及预训练模型的权重。微调代码方便用户对模型进行调整和优化;推理代码与INT4量化实现则有助于开发者低成本地进行模型的部署和应用;预训练模型权重开源后,用户则可以直接使用预训练模型进行各种实验研究。
1.5 开源地址
- https://huggingface.co/baichuan-inc/baichuan-7B
- https://github.com/baichuan-inc/baichuan-7B/tree/main
- https://modelscope.cn/models/baichuan-inc/baichuan-7B/summary
2. 使用
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
if __name__ == '__main__':
text_generation_zh = pipeline(task=Tasks.text_generation, model='baichuan-inc/baichuan-7B',model_revision='v1.0.2')
text_generation_zh._model_prepare = True
result_zh = text_generation_zh('今天天气是真的')
print(result_zh)