在使用 unsloth 微调模型时,数据集的选择非常关键,通常需要选择与你的任务相关的数据集。以下是一些常见的资源和平台:
1. Hugging Face Datasets Hub
Hugging Face 提供了一个丰富的数据集库,包含各种类型的文本、图像、音频和视频数据集。你可以通过 datasets 库直接加载这些数据集,非常方便。可以通过以下方式浏览和加载数据集:
- 网址:https://huggingface.co/datasets
- 安装并加载数据集的代码示例:
from datasets import load_dataset
# 加载一个文本分类数据集,例如 IMDB 电影评论数据集
dataset = load_dataset("imdb")
2. Kaggle Datasets
Kaggle 是一个著名的数据科学平台,提供了大量的开放数据集,涵盖从文本、图像到时间序列等各种数据类型。你可以直接从 Kaggle 网站下载数据集。
- 网址:https://www.kaggle.com/datasets
3. Google Dataset Search
Google 提供的 Dataset Search 是一个可以搜索各种领域数据集的工具。你可以根据需要找到来自不同机构和平台的开放数据集。
- 网址:https://datasetsearch.research.google.com/
4. Papers With Code
AI领域论文及程序搜寻神器,该平台将ArXiv上最新机器学习的论文与Github中的程序对应起来,并依照SOTA、Datasets、Methods进行分类,让使用者可以快速地找到对应的论文、程序与资料集。除了寻找论文与资料集外,平台还能显示该则论文程序的流行度、Github上程序的收藏数等,能协助使用者判读目前SOTA的趋势。
- 网址:https://paperswithcode.com/
5. Awesome Datasets
这是一个Github上的开源资料分享专案,这个专案的Contibuter们分享了各式各样类别的资料来源,包括许多非常专门(冷门)的资料源。
地址:https://github.com/awesomedata/awesome-public-datasets
6. Common Crawl
Common Crawl 提供了大量的网页抓取数据,适合训练大规模的语言模型。这个数据集非常庞大,适用于需要大规模语料库的任务。
- 网址:https://commoncrawl.org/
7. Wikipedia
Wikipedia 提供了非常丰富的文本数据,涵盖几乎所有领域。它是一个非常常用的资源,特别适合语言模型的预训练或微调。
- 你可以通过 Hugging Face 或其他工具加载 Wiki 数据:
dataset = load_dataset("wikipedia", "20220301.en")
8. Project Gutenberg
Project Gutenberg 提供了大量免费的电子书,主要是经典书籍的文本。你可以从中获取多种文学作品,用于语言模型微调。
- 网址:https://www.gutenberg.org/
9. Text Classification Datasets
如果你的任务是文本分类,以下是一些常见的文本分类数据集:
- AG News:用于新闻分类。
- SST-2 (Stanford Sentiment Treebank):用于情感分析。
- 20 Newsgroups:用于新闻组分类。
这些数据集通常可以通过 Hugging Face 等平台直接获取:
dataset = load_dataset("ag_news")
10. 图片格式 Image Datasets
如果你需要训练图像相关的大模型,以下是一些常用的数据集:
- CIFAR-10/100:用于图像分类任务。
- COCO:用于对象检测和图像标注。
- ImageNet:大型图像分类数据集。
可以通过 datasets 库加载:
dataset = load_dataset("cifar10")
推荐的使用步骤:
-
- 选择合适的数据集:根据你的微调任务选择适当的数据集。如果是文本生成、文本分类、问答任务,Hugging Face 的数据集库是一个很好的选择。
-
- 数据预处理:根据任务需求,可能需要对数据集进行清洗和预处理,例如去除噪声、分词、归一化等。
-
- 加载数据集:使用 datasets 库或者其他工具来加载数据集,并进行适当的转换,以符合模型的输入格式。
-
- 微调模型:使用适当的微调方法(如 unsloth)来进行模型训练。
总结:
- 对于大规模的文本数据集,推荐使用 Hugging Face、Kaggle 和 Common Crawl。
- 如果是图像任务,ImageNet 和 COCO 是非常好的选择。
- 在数据预处理时,需要确保数据格式和模型要求匹配,可以考虑将数据集转换为模型支持的格式。
关注我获取更多资讯

