支持的格式
文件格式¶
Ludwig 能够读取 14 种文件格式的 UTF-8 编码数据。支持的格式有
- 逗号分隔值 (
csv
) - Excel 工作簿 (
excel
) - Feather (
feather
) - 固定宽度格式 (
fwf
) - 分层数据格式 5 (
hdf5
) - 超文本标记语言 (
html
) 注意:仅限于文件中的单个表格。 - JavaScript 对象表示法 (
json
和jsonl
) - Parquet (
parquet
) - Pickle 序列化的 Pandas DataFrame (
pickle
) - XPORT 或 SAS7BDAT 格式的 SAS 数据集 (
sas
) - SPSS 文件 (
spss
) - Stata 文件 (
stata
) - 制表符分隔值 (
tsv
)
Ludwig 在内部使用 Pandas 和 Dask 来读取 UTF-8 编码的数据集文件,这使得它支持 CSV、Excel、Feather、fwf、HDF5、HTML(包含 <table>
)、JSON、JSONL、Parquet、pickle(pickle 序列化的 Pandas DataFrame)、SAS、SPSS、Stata 和 TSV 格式。Ludwig 会尝试通过文件扩展名自动识别格式。
如果提供了 *SV 文件,Ludwig 会尝试从数据中识别分隔符(通常是 ,
)。默认的转义字符是 \
。例如,如果 ,
是列分隔符,并且您的某个数据列中包含 ,
,Pandas 将无法正确加载数据。为了处理这种情况,我们期望列中的值使用反斜杠进行转义(将数据中的 ,
替换为 \,
)。
Hugging Face 数据集¶
Ludwig 现在还支持使用以下语法直接导入 Hugging Face 数据集(dataset_subset 在 Hugging Face 数据集中并非总是存在,因此必要时请省略)。
"hf://{dataset_name}--{dataset_subset}"
例如:train_stats, _, _ = ludwig_model.train(dataset="hf://mbpp")
train_stats, _, _ = ludwig_model.train(dataset="hf://Open-Orca/OpenOrca")
train_stats, _, _ = ludwig_model.train(dataset="hf://gsm8k--main")
请注意,“subset” 与 “split” 不同。指定数据集时,请确保包含的是 subset 名称而不是 split 名称。