支持的格式

文件格式¶

Ludwig 能够读取 14 种文件格式的 UTF-8 编码数据。支持的格式有

逗号分隔值 (csv)
Excel 工作簿 (excel)
Feather (feather)
固定宽度格式 (fwf)
分层数据格式 5 (hdf5)
超文本标记语言 (html) 注意：仅限于文件中的单个表格。
JavaScript 对象表示法 (json 和 jsonl)
Parquet (parquet)
Pickle 序列化的 Pandas DataFrame (pickle)
XPORT 或 SAS7BDAT 格式的 SAS 数据集 (sas)
SPSS 文件 (spss)
Stata 文件 (stata)
制表符分隔值 (tsv)

Ludwig 在内部使用 Pandas 和 Dask 来读取 UTF-8 编码的数据集文件，这使得它支持 CSV、Excel、Feather、fwf、HDF5、HTML（包含 <table>）、JSON、JSONL、Parquet、pickle（pickle 序列化的 Pandas DataFrame）、SAS、SPSS、Stata 和 TSV 格式。Ludwig 会尝试通过文件扩展名自动识别格式。

如果提供了 *SV 文件，Ludwig 会尝试从数据中识别分隔符（通常是 ,）。默认的转义字符是 \。例如，如果 , 是列分隔符，并且您的某个数据列中包含 ,，Pandas 将无法正确加载数据。为了处理这种情况，我们期望列中的值使用反斜杠进行转义（将数据中的 , 替换为 \,）。

Hugging Face 数据集¶

Ludwig 现在还支持使用以下语法直接导入 Hugging Face 数据集（dataset_subset 在 Hugging Face 数据集中并非总是存在，因此必要时请省略）。

"hf://{dataset_name}--{dataset_subset}"

例如：train_stats, _, _ = ludwig_model.train(dataset="hf://mbpp") train_stats, _, _ = ludwig_model.train(dataset="hf://Open-Orca/OpenOrca") train_stats, _, _ = ludwig_model.train(dataset="hf://gsm8k--main")

请注意，“subset” 与 “split” 不同。指定数据集时，请确保包含的是 subset 名称而不是 split 名称。

Alt text