Sign in
← Back to search

esbatmop/MNBVC

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

Stars
4,199
Forks
288
Commits
300
Language
Awesome lists
2

Similar repositories

hoochanlon/hamuleite

🏔️国立台湾大学、新加坡国立大学、早稻田大学、东京大学,中央研究院(台湾)以及中国重点高校及科研机构,社科、经济、数学、博弈论、哲学、系统工程类学术论文等知识库。

9449 stars
Python 1 awesome list

baichuan-inc/Baichuan-7B

A large-scale 7B pretraining language model developed by BaiChuan-Inc.

5658 stars
Python 1 awesome list

OpenLLMAI/OpenLLMWiki

OpenLLMWiki: Docs of OpenLLMAI. Survey, reproduction and domain/task adaptation of open source chatgpt alternatives/implementations. PiXiu-貔貅 means fortune.

268 stars
1 awesome list

geekxh/hello-algorithm

🌍 针对小白的算法训练 | 包括四部分:①.大厂面经 ②.力扣图解 ③.千本开源电子书 ④.百张技术思维导图(项目花了上百小时,希望可以点 star 支持,🌹感谢~)推荐免费ChatGPT使用网站

36079 stars
Java 1 awesome list

RVC-Boss/GPT-SoVITS

1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

57760 stars
Python 1 awesome list

Tracked growth

2 captures since 2026-05-27

Latest capture 2026-05-27 12:44

Stars history

Total stars

Commits history

Default branch commits

Metadata

  • Created: 2022-12-31
  • First commit: 2022-12-31
  • Last pushed: 2026-05-23
  • Archived: no
  • Stack detected: —
  • License: MIT

AI development signals

No AI development config files detected.