多任务学习（MTL）旨在通过利用相关联任务中的有效信息来提高多个任务的性能。

多任务学习（MTL）可以利用来自相关任务的有用信息来帮助解决某一任务的数据稀疏性问题。

MTL分为几种设置，包括：

多任务监督学习
多任务无监督学习
多任务半监督学习
多任务主动学习
多任务强化学习
多任务在线学习

MTL可以看作是多标签学习和多输出回归的泛化。

主要内容

MTL 的不同设置
并行和分布式 MTL 模型
MTL 理论分析

MTL 定义

Definition 1. (Multi-task learning) Given $m$ learning tasks $\{T_i\}^m_{i=1}$ where all the tasks or a subset of them are related but not identical, multi-task learning aims to help improve the learning of a model for $T_i$ by using the knowledge contained in the $m$ tasks.

定义1. 给定 $m$ 个学习任务 $\{T_i\}^m_{i=1}$ ，其中所有任务或子任务集合都不相同但相关，多任务学习旨在通过利用 $m$ 个任务中所包含的知识，帮助改进 $T_i$ 模型的学习。

MTL 的两个基本元素：任务相关性，任务的定义。

多任务监督模型（MTSL）

多任务监督学习（MTSL）是指 MTL 中的每个任务都是监督学习任务。

MTSL 的目标是从训练集中为 $m$ 个任务学习 $m$ 个函数 $\{f_i(x)^m_{i=1}$ ，使得 $f_i(x^i_j)$ 是所有与 $i$ 和 $j$ 有关的 $y^i_j$ 的良好近似。在这之后，MTSL 使用 $f_i(·)$ 来预测第 $i$ 个任务对于其不可见的数据实例的标签。

MTSL 模型在三个方面反映了任务的相关性：特征，参数和实例。

基于特征的 MTSL 模型假设不同的任务共享相同或相似的特征；
基于参数的 MTSL 模型旨在通过正则化或先验模型参数，将任务相关性编码到模型中。
基于实例的 MTSL 模型使用所有任务的数据实例，通过权重为每个任务构造一个学习器。

基于特征的 MTSL

假定不同的任务共享一个特征表示，分为三种方法：

特征转换方法：共享特征为原始特征的线性或非线性转换；
特征选择方法：共享特征为原始特征的子集；
深度学习方法：应用深度神经网络来学习共享特征表示，该共享特征在隐藏层中编码；

深度学习方法

大多数深度学习模型将某个隐藏层的输出视为共享特征。与这些深度模型不同， cross-stitch networ 将两个任务的隐藏特征相结合，构建更强大的隐藏特征表示。

基于参数的 MTSL

使用模型参数来关联不同任务的学习。分为五种方法：

低阶方法：由于任务是相关的，因此参数矩阵 $W$ 可能是低秩的；
任务聚类方法：将任务划分为几个集群，集群中的所有任务共享相同或相似的模型参数；
任务关系学习方法：直接从数据中学习成对的任务关系；
脏方法：假定参数矩阵 $W$ 可以被分解为两个分量矩阵 $W = U + V$ ， $U$ 主要识别任务相关性，而 $V$ 可以通过稀疏性捕获噪声或离群值。 $U$ 和 $V$ 的组合可以使模型更加健壮；
多层次方法：脏方法的泛化，将参数矩阵分解为两个以上的组成矩阵，以对所有任务之间的复杂关系进行建模。

讨论

基于特征的 MTSL 可以学习通用特征表示，它更适合原始特征的信息性和区分性不强的场景，例如计算机视觉，自然语言处理和语音识别领域。
但是，基于特征的 MTSL 很容易受到无关任务的影响
基于参数的 MTSL 可以学习更准确的模型参数，它对异常任务的鲁棒性更高。
基于特征的 MTSL 是对基于参数的 MTSL 的补充。
基于实例的MTSL与其他两个类别平行。

多任务无监督学习

多任务聚类旨在利用包含在不同数据集中的信息对多个数据集进行聚类。

pass

多任务半监督学习

使用未标记的数据来提高监督学习的性能，而不同的监督任务可以共享的信息以互相帮助。

多任务半监督学习可分为两类：多任务半监督分类和多任务半监督回归。

多任务主动学习

每个任务选择信息丰富的无标签数据去预测并主动获取其标签。

多任务强化学习

当环境相似时，不同的强化学习任务可以使用类似的策略来做出决策。

多任务在线学习

当多个任务中的训练数据以顺序的方式出现时，传统的 MTL 模型无法处理它们，但是多任务在线学习可以。

多任务多视图学习

利用相关信息来学习多个多视图学习问题，以提高每个多视图学习问题的性能。

并行和分布式 MTL