预测模型:模型训练与预测
章节大纲
-
预测模型:模型训练与预测
简介
预测模型旨在为股票生成预测分数。用户可以通过
qrun
在自动化工作流中使用预测模型,请参阅工作流:工作流管理。由于 Qlib 中的组件采用松散耦合的设计,预测模型也可以作为一个独立的模块使用。
基类与接口
Qlib 提供了一个基类
qlib.model.base.Model
,所有模型都应继承自该类。该基类提供了以下接口:
class qlib.model.base.Model
可学习的模型
fit(dataset: Dataset, reweighter: Reweighter)
从基础模型中学习模型。
注意
学习到的模型的属性名称不应以 _ 开头。这样模型就可以被转储到磁盘。
以下代码示例展示了如何从数据集中检索
x_train
、y_train
和w_train
:Python# get features and labels df_train, df_valid = dataset.prepare( ["train", "valid"], col_set=["feature", "label"], data_key=DataHandlerLP.DK_L) x_train, y_train = df_train["feature"], df_train["label"] x_valid, y_valid = df_valid["feature"], df_valid["label"] # get weights try: wdf_train, wdf_valid = dataset.prepare(["train", "valid"], col_set=["weight"], data_key=DataHandlerLP.DK_L) w_train, w_valid = wdf_train["weight"], wdf_valid["weight"] except KeyError as e: w_train = pd.DataFrame(np.ones_like(y_train.values), index=y_train.index) w_valid = pd.DataFrame(np.ones_like(y_valid.values), index=y_valid.index)
参数:
-
dataset
(Dataset
) – 数据集将生成用于模型训练的处理过的数据。
abstract predict(dataset: Dataset, segment: str | slice = 'test') -> object
给定数据集进行预测。
参数:
-
dataset
(Dataset
) – 数据集将生成用于模型训练的处理过的数据集。 -
segment (Text or slice) – 数据集将使用此分段来准备数据。(默认为 test)
返回类型:
具有特定类型(例如 pandas.Series)的预测结果。
Qlib 还提供了一个基类
qlib.model.base.ModelFT
,其中包含了微调模型的方法。对于
finetune
等其他接口,请参阅模型 API。
示例
Qlib 的模型库 (Model Zoo) 包含 LightGBM、MLP、LSTM 等模型。这些模型被视为预测模型的基线。以下步骤展示了如何将
LightGBM
作为独立模块运行。-
首先,使用
qlib.init
初始化 Qlib,请参阅初始化。 -
运行以下代码以获取预测分数
pred_score
。
Pythonfrom qlib.contrib.model.gbdt import LGBModel from qlib.contrib.data.handler import Alpha158 from qlib.utils import init_instance_by_config, flatten_dict from qlib.workflow import R from qlib.workflow.record_temp import SignalRecord, PortAnaRecord market = "csi300" benchmark = "SH000300" data_handler_config = { "start_time": "2008-01-01", "end_time": "2020-08-01", "fit_start_time": "2008-01-01", "fit_end_time": "2014-12-31", "instruments": market, } task = { "model": { "class": "LGBModel", "module_path": "qlib.contrib.model.gbdt", "kwargs": { "loss": "mse", "colsample_bytree": 0.8879, "learning_rate": 0.0421, "subsample": 0.8789, "lambda_l1": 205.6999, "lambda_l2": 580.9768, "max_depth": 8, "num_leaves": 210, "num_threads": 20, }, }, "dataset": { "class": "DatasetH", "module_path": "qlib.data.dataset", "kwargs": { "handler": { "class": "Alpha158", "module_path": "qlib.contrib.data.handler", "kwargs": data_handler_config, }, "segments": { "train": ("2008-01-01", "2014-12-31"), "valid": ("2015-01-01", "2016-12-31"), "test": ("2017-01-01", "2020-08-01"), }, }, }, } # 模型初始化 model = init_instance_by_config(task["model"]) dataset = init_instance_by_config(task["dataset"]) # 开始实验 with R.start(experiment_name="workflow"): # 训练 R.log_params(**flatten_dict(task)) model.fit(dataset) # 预测 recorder = R.get_recorder() sr = SignalRecord(model, dataset, recorder) sr.generate()
注意
Alpha158 是 Qlib 提供的数据处理器,请参阅数据处理器。SignalRecord 是 Qlib 中的记录模板,请参阅工作流。
此外,上述示例已在
examples/train_backtest_analyze.ipynb
中给出。从技术上讲,模型预测的含义取决于用户设计的标签设置。默认情况下,分数的含义通常是预测模型对成分股的评级。分数越高,成分股的利润潜力越大。
自定义模型
Qlib 支持自定义模型。如果用户有兴趣自定义自己的模型并将其集成到 Qlib 中,请参阅自定义模型集成。
API
请参阅模型 API。
-