文本分类
预训练的 LLM 可用作通用文本特征的文本编码器,并可包含在 ECD 模型中用于二元或多类文本分类任务。
LLM 编码器与 LLM 模型类型共享大部分功能,包括基础模型选择、适配器、量化和 RoPE 缩放等初始化参数。与 LLM 模型类型不同,LLM 编码器是 ECD 架构的一部分,不直接生成文本。相反,输入文本由 LLM 处理,最终的隐藏状态向前传递给组合器和解码器,从而可以直接用于预测任务。
LLM 编码器配置示例¶
agnews
数据集包含新闻文章标题和描述的示例,任务是将这些示例分类到四个部分类别中的一个。使用 LLM 对文章标题进行分类的配置可能如下所示
model_type: ecd
input_features:
- name: title
type: text
encoder:
type: llm
adapter:
type: lora
base_model: meta-llama/Llama-2-7b-hf
quantization:
bits: 4
column: title
output_features:
- name: class
type: category
column: class
trainer:
epochs: 3
optimizer:
type: paged_adam
这将对 llama-2-7b
模型进行 4 位量化的 LoRA 适配器微调,并同时训练一个分类头。微调/训练后,适配器权重、组合器参数和解码器参数将保存在结果中。
要了解更多关于配置 LLM 用于文本分类的信息,请参阅LLM 编码器参考。