极客时间已完结课程限时免费阅读

17 | Embedding+MLP:如何用TensorFlow实现经典的深度学习模型?

17 | Embedding+MLP:如何用TensorFlow实现经典的深度学习模型?-极客时间

17 | Embedding+MLP:如何用TensorFlow实现经典的深度学习模型?

讲述:王喆

时长15:23大小14.06M

你好,我是王喆。
今天我们正式进入深度学习模型的实践环节,来一起学习并实现一种最经典的模型结构,Embedding+MLP。它不仅经典,还是我们后续实现其他深度学习模型的基础,所以你一定要掌握好。
这里面的 Embedding 我们已经很熟悉了,那什么叫做 MLP 呢?它其实是 Multilayer perceptron,多层感知机的缩写。感知机是神经元的另外一种叫法,所以多层感知机就是多层神经网络。
讲到这里啊,我想你脑海中已经有这个模型结构的大致图像了。今天,我就以微软著名的深度学习模型 Deep Crossing 为例,来给你详细讲一讲 Embedding+MLP 模型的结构和实现方法。

Embedding+MLP 模型的结构

图 1 展示的就是微软在 2016 年提出的深度学习模型 Deep Crossing,微软把它用于广告推荐这个业务场景上。它是一个经典的 Embedding+MLP 模型结构,我们可以看到,Deep Crossing 从下到上可以分为 5 层,分别是 Feature 层、Embedding 层、Stacking 层、MLP 层和 Scoring 层。
接下来,我就从下到上来给你讲讲每一层的功能是什么,以及它们的技术细节分别是什么样的。
图1 经典的Embedding+MLP模型结构(图片来自 Deep Crossing - Web-Scale Modeling without Manually Crafted Combinatorial Features)
我们先来看 Feature 层。Feature 层也叫做输入特征层,它处于 Deep Crossing 的最底部,作为整个模型的输入。仔细看图 1 的话,你一定会发现不同特征在细节上的一些区别。比如 Feature#1 向上连接到了 Embedding 层,而 Feature#2 就直接连接到了更上方的 Stacking 层。这是怎么回事呢?
原因就在于 Feature#1 代表的是类别型特征经过 One-hot 编码后生成的特征向量,而 Feature#2 代表的是数值型特征。我们知道,One-hot 特征太稀疏了,不适合直接输入到后续的神经网络中进行训练,所以我们需要通过连接到 Embedding 层的方式,把这个稀疏的 One-hot 向量转换成比较稠密的 Embedding 向量。
接着,我们来看 Embedding 层。Embedding 层就是为了把稀疏的 One-hot 向量转换成稠密的 Embedding 向量而设置的,我们需要注意的是,Embedding 层并不是全部连接起来的,而是每一个特征对应一个 Embedding 层,不同 Embedding 层之间互不干涉。
那 Embedding 层的内部结构到底是什么样子的呢?我想先问问你,你还记得 Word2vec 的原理吗?Embeding 层的结构就是 Word2vec 模型中从输入神经元到隐层神经元的部分(如图 2 红框内的部分)。参照下面的示意图,我们可以看到,这部分就是一个从输入层到隐层之间的全连接网络。
图2 Word2vec模型中Embedding层的部分
一般来说,Embedding 向量的维度应远小于原始的稀疏特征向量,按照经验,几十到上百维就能够满足需求,这样它才能够实现从稀疏特征向量到稠密特征向量的转换。
接着我们来看 Stacking 层。Stacking 层中文名是堆叠层,我们也经常叫它连接(Concatenate)层。它的作用比较简单,就是把不同的 Embedding 特征和数值型特征拼接在一起,形成新的包含全部特征的特征向量。
再往上看,MLP 层就是我们开头提到的多层神经网络层,在图 1 中指的是 Multiple Residual Units 层,中文叫多层残差网络。微软在实现 Deep Crossing 时针对特定的问题选择了残差神经元,但事实上,神经元的选择有非常多种,比如我们之前在深度学习基础知识中介绍的,以 Sigmoid 函数为激活函数的神经元,以及使用 tanh、ReLU 等其他激活函数的神经元。我们具体选择哪种是一个调参的问题,一般来说,ReLU 最经常使用在隐层神经元上,Sigmoid 则多使用在输出神经元,实践中也可以选择性地尝试其他神经元,根据效果作出最后的决定。
不过,不管选择哪种神经元,MLP 层的特点是全连接,就是不同层的神经元两两之间都有连接。就像图 3 中的两层神经网络一样,它们两两连接,只是连接的权重会在梯度反向传播的学习过程中发生改变。
图3 全连接神经网络
MLP 层的作用是让特征向量不同维度之间做充分的交叉,让模型能够抓取到更多的非线性特征和组合特征的信息,这就使深度学习模型在表达能力上较传统机器学习模型大为增强。
最后是 Scoring 层,它也被称为输出层。虽然深度学习模型的结构可以非常复杂,但最终我们要预测的目标就是一个分类的概率。如果是点击率预估,就是一个二分类问题,那我们就可以采用逻辑回归作为输出层神经元,而如果是类似图像分类这样的多分类问题,我们往往在输出层采用 softmax 这样的多分类模型。
到这里,我们就讲完了 Embedding+MLP 的五层结构。它的结构重点用一句话总结就是,对于类别特征,先利用 Embedding 层进行特征稠密化,再利用 Stacking 层连接其他特征,输入 MLP 的多层结构,最后用 Scoring 层预估结果。

Embedding+MLP 模型的实战

现在,我们从整体上了解了 Embedding+MLP 模型的结构,也许你对其中的细节实现还有些疑问。别着急,下面我就带你用 SparrowRecsys 来实现一个 Embedding+MLP 的推荐模型,帮你扫清这些疑问。
实战中,我们按照构建推荐模型经典的步骤,特征选择、模型设计、模型实现、模型训练和模型评估这 5 步来进行实现。
首先,我们来看看特征选择和模型设计。

特征选择和模型设计

在上一节的实践准备课程中,我们已经为模型训练准备好了可用的训练样本和特征。秉着“类别型特征 Embedding 化,数值型特征直接输入 MLP”的原则,我们选择 movieId、userId、movieGenre、userGenre 作为 Embedding 化的特征,选择物品和用户的统计型特征作为直接输入 MLP 的数值型特征,具体的特征选择你可以看看下面的表格:
选择好特征后,就是 MLP 部分的模型设计了。我们选择了一个三层的 MLP 结构,其中前两层是 128 维的全连接层。我们这里采用好评 / 差评标签作为样本标签,因此要解决的是一个类 CTR 预估的二分类问题,对于二分类问题,我们最后一层采用单个 sigmoid 神经元作为输出层就可以了。
当然了,我知道你肯定对这一步的细节实现有很多问题,比如为什么要选三层的 MLP 结构,为什么要选 sigmoid 作为激活函数等等。其实,我们对模型层数和每个层内维度的选择是一个超参数调优的问题,这里的选择不能保证最优,我们需要在实战中根据模型的效果进行超参数的搜索,找到最适合的模型参数。

Embedding+MLP 模型的 TensorFlow 实现

确定好了特征和模型结构,就万事俱备,只欠实现了。下面,我们就看一看利用 TensorFlow 的 Keras 接口如何实现 Embedding+MLP 的结构。总的来说,TensorFlow 的实现有七个步骤。因为这是我们课程中第一个 TensorFlow 的实现,所以我会讲得详细一些。而且,我也把全部的参考代码放在了 Sparrow Recsys 项目 TFRecModel 模块的 EmbeddingMLP.py,你可以结合它来听我下面的讲解。
我们先来看第一步,导入 TensorFlow 包。 如果你按照实战准备一的步骤配置好了 TensorFlow Python 环境,就可以成功地导入 TensorFlow 包。接下来,你要做的就是定义好训练数据的路径 TRAIN_DATA_URL 了,然后根据你自己训练数据的本地路径,替换参考代码中的路径就可以了。
import tensorflow as tf
TRAIN_DATA_URL = "file:///Users/zhewang/Workspace/SparrowRecSys/src/main/resources/webroot/sampledata/modelSamples.csv"
samples_file_path = tf.keras.utils.get_file("modelSamples.csv", TRAIN_DATA_URL)
第二步是载入训练数据,我们利用 TensorFlow 自带的 CSV 数据集的接口载入训练数据。注意这里有两个比较重要的参数,一个是 label_name,它指定了 CSV 数据集中的标签列。另一个是 batch_size,它指定了训练过程中,一次输入几条训练数据进行梯度下降训练。载入训练数据之后,我们把它们分割成了测试集和训练集。
def get_dataset(file_path):
dataset = tf.data.experimental.make_csv_dataset(
file_path,
batch_size=12,
label_name='label',
na_value="?",
num_epochs=1,
ignore_errors=True)
return dataset
# sample dataset size 110830/12(batch_size) = 9235
raw_samples_data = get_dataset(samples_file_path)
test_dataset = raw_samples_data.take(1000)
train_dataset = raw_samples_data.skip(1000)
第三步是载入类别型特征。 我们用到的类别型特征主要有这三类,分别是 genre、userId 和 movieId。在载入 genre 类特征时,我们采用了 tf.feature_column.categorical_column_with_vocabulary_list 方法把字符串型的特征转换成了 One-hot 特征。在这个转换过程中我们需要用到一个词表,你可以看到我在开头就定义好了包含所有 genre 类别的词表 genre_vocab。
在转换 userId 和 movieId 特征时,我们又使用了 tf.feature_column.categorical_column_with_identity 方法把 ID 转换成 One-hot 特征,这个方法不用词表,它会直接把 ID 值对应的那个维度置为 1。比如,我们输入这个方法的 movieId 是 340,总的 movie 数量是 1001,使用这个方法,就会把这个 1001 维的 One-hot movieId 向量的第 340 维置为 1,剩余的维度都为 0。
为了把稀疏的 One-hot 特征转换成稠密的 Embedding 向量,我们还需要在 One-hot 特征外包裹一层 Embedding 层,你可以看到 tf.feature_column.embedding_column(movie_col, 10) 方法完成了这样的操作,它在把 movie one-hot 向量映射到了一个 10 维的 Embedding 层上。
genre_vocab = ['Film-Noir', 'Action', 'Adventure', 'Horror', 'Romance', 'War', 'Comedy', 'Western', 'Documentary',
'Sci-Fi', 'Drama', 'Thriller',
'Crime', 'Fantasy', 'Animation', 'IMAX', 'Mystery', 'Children', 'Musical']
GENRE_FEATURES = {
'userGenre1': genre_vocab,
'userGenre2': genre_vocab,
'userGenre3': genre_vocab,
'userGenre4': genre_vocab,
'userGenre5': genre_vocab,
'movieGenre1': genre_vocab,
'movieGenre2': genre_vocab,
'movieGenre3': genre_vocab
}
categorical_columns = []
for feature, vocab in GENRE_FEATURES.items():
cat_col = tf.feature_column.categorical_column_with_vocabulary_list(
key=feature, vocabulary_list=vocab)
emb_col = tf.feature_column.embedding_column(cat_col, 10)
categorical_columns.append(emb_col)
movie_col = tf.feature_column.categorical_column_with_identity(key='movieId', num_buckets=1001)
movie_emb_col = tf.feature_column.embedding_column(movie_col, 10)
categorical_columns.append(movie_emb_col)
user_col = tf.feature_column.categorical_column_with_identity(key='userId', num_buckets=30001)
user_emb_col = tf.feature_column.embedding_column(user_col, 10)
categorical_columns.append(user_emb_c
第四步是数值型特征的处理。 这一步非常简单,我们直接把特征值输入到 MLP 内,然后把特征逐个声明为 tf.feature_column.numeric_column 就可以了,不需要经过其他的特殊处理。
numerical_columns = [tf.feature_column.numeric_column('releaseYear'),
tf.feature_column.numeric_column('movieRatingCount'),
tf.feature_column.numeric_column('movieAvgRating'),
tf.feature_column.numeric_column('movieRatingStddev'),
tf.feature_column.numeric_column('userRatingCount'),
tf.feature_column.numeric_column('userAvgRating'),
tf.feature_column.numeric_column('userRatingStddev')]
第五步是定义模型结构。 这一步的实现代码也非常简洁,我们直接利用 DenseFeatures 把类别型 Embedding 特征和数值型特征连接在一起形成稠密特征向量,然后依次经过两层 128 维的全连接层,最后通过 sigmoid 输出神经元产生最终预估值。
preprocessing_layer = tf.keras.layers.DenseFeatures(numerical_columns + categorical_columns)
model = tf.keras.Sequential([
preprocessing_layer,
tf.keras.layers.Dense(128, activation='relu'),
tf.keras.layers.Dense(128, activation='relu'),
tf.keras.layers.Dense(1, activation='sigmoid'),
])
第六步是定义模型训练相关的参数。 在这一步中,我们需要设置模型的损失函数,梯度反向传播的优化方法,以及模型评估所用的指标。关于损失函数,我们使用的是二分类问题最常用的二分类交叉熵,优化方法使用的是深度学习中很流行的 adam,最后是评估指标,使用了准确度 accuracy 作为模型评估的指标。
model.compile(
loss='binary_crossentropy',
optimizer='adam',
metrics=['accuracy'])
第七步是模型的训练和评估。 TensorFlow 模型的训练过程和 Spark MLlib 一样,都是调用 fit 函数,然后使用 evaluate 函数在测试集上进行评估。不过,这里我们要注意一个参数 epochs,它代表了模型训练的轮数,一轮代表着使用所有训练数据训练一遍,epochs=10 代表着训练 10 遍。
model.fit(train_dataset, epochs=10)
test_loss, test_accuracy = model.evaluate(test_dataset)
print('\n\nTest Loss {}, Test Accuracy {}'.format(test_loss, test_accuracy)
如果一切顺利的话,你就可以看到模型的训练过程和最终的评估结果了。从下面的训练输出中你可以看到,每轮训练模型损失(Loss)的变化过程和模型评估指标 Accuracy 的变化过程。你肯定会发现,随着每轮训练的 Loss 减小,Accuracy 会变高。换句话说,每轮训练都会让模型结果更好,这是我们期望看到的。需要注意的是,理论上来说,我们应该在模型 accuracy 不再变高时停止训练,据此来确定最佳的 epochs 取值。但如果模型收敛的时间确实过长,我们也可以设置一个 epochs 最大值,让模型提前终止训练。
Epoch 1/10
8236/8236 [==============================] - 20s 2ms/step - loss: 2.7379 - accuracy: 0.5815
Epoch 2/10
8236/8236 [==============================] - 21s 3ms/step - loss: 0.6397 - accuracy: 0.6659
Epoch 3/10
8236/8236 [==============================] - 21s 3ms/step - loss: 0.5550 - accuracy: 0.7179
Epoch 4/10
8236/8236 [==============================] - 21s 2ms/step - loss: 0.5209 - accuracy: 0.7431
Epoch 5/10
8236/8236 [==============================] - 21s 2ms/step - loss: 0.5010 - accuracy: 0.7564
Epoch 6/10
8236/8236 [==============================] - 20s 2ms/step - loss: 0.4866 - accuracy: 0.7641
Epoch 7/10
8236/8236 [==============================] - 20s 2ms/step - loss: 0.4770 - accuracy: 0.7702
Epoch 8/10
8236/8236 [==============================] - 21s 2ms/step - loss: 0.4688 - accuracy: 0.7745
Epoch 9/10
8236/8236 [==============================] - 20s 2ms/step - loss: 0.4633 - accuracy: 0.7779
Epoch 10/10
8236/8236 [==============================] - 20s 2ms/step - loss: 0.4580 - accuracy: 0.7800
1000/1000 [==============================] - 1s 1ms/step - loss: 0.5037 - accuracy: 0.7473
Test Loss 0.5036991238594055, Test Accuracy 0.747250020503997
最终的模型评估需要在测试集上进行,从上面的输出中我们可以看到,最终的模型在测试集上的准确度是 0.7472,它意味着我们的模型对 74.72% 的测试样本作出了正确的预测。当然了,模型的评估指标还是很多,我们会在之后的模型评估篇中进行详细的讲解。

小结

这节课是我们深度学习模型实践的第一课,我们要掌握两个重点内容,一是 Embedding+MLP 的模型结构,二是 Embedding+MLP 模型的 TensorFlow 实现。
Embedding+MLP 主要是由 Embedding 部分和 MLP 部分这两部分组成,使用 Embedding 层是为了将类别型特征转换成 Embedding 向量,MLP 部分是通过多层神经网络拟合优化目标。具体来说,以微软的 Deep Crossing 为例,模型一共分为 5 层,从下到上分别是 Feature 层、Embedding 层、Stacking 层、MLP 层和 Scoring 层。
在 TensorFlow 实践部分,我们利用上节课处理好的特征和训练数据,实现了 Sparrow Recsys 项目中的第一个深度学习模型。在实践过程中,我们要重点掌握类别型特征的处理方法,模型的定义方式和训练方式,以及最后的模型评估方法。
我也把这些重点知识总结在了一张表格里,你可以利用它来认真回顾。
今天,我们一起完成了 Embedding MLP 模型的实现。在之后的课程中,我们会进一步实现其他深度学习模型,通过模型的评估进行效果上的对比。另外,我们也会利用训练出的深度学习模型完成 Sparrow Recsys 的猜你喜欢功能,期待与你一起不断完善我们的项目。

课后思考

在我们实现的 Embedding+MLP 模型中,也有用户 Embedding 层和物品 Embedding 层。你觉得从这两个 Embedding 层中,抽取出来的用户和物品 Embedding,能直接用来计算用户和物品之间的相似度吗?为什么?
欢迎把你的思考和疑惑写在留言区,也欢迎你把这节课转发给希望用 TensorFlow 实现深度推荐模型的朋友,我们下节课见!
分享给需要的人,Ta购买本课程,你将得20
生成海报并分享

赞 23

提建议

上一篇
模型实战准备(二) | 模型特征、训练样本的处理
下一篇
18|Wide&Deep:怎样让你的模型既有想象力又有记忆力?
 写留言

精选留言(45)

  • 范闲
    2020-12-02
    无法直接计算相似度. user embedding 和 item embedding 虽然输入数据来源自同一个数据集,但是本身并不在一个向量空间内.

    作者回复: 是的

    共 4 条评论
    23
  • Geek_f9ea8a
    2020-11-20
    请问老师: 1.看了您实现的MLPRecModel, 由于对tf2.x 版本不是很熟悉,没有看出来 是否 针对 发布时间、电影阅读数等等统计字段 进行了 标准化, 我当时用keras 实现了一下,没有对统计特征进行标准化,效果很差,只有56%左右,损失一直不降,然后最那些统计指标进行标准化话,训练完第一轮,测试集就能达到73%。 2. 您这次实现的MLPRecModel,针对用户、电影,先直接给出的初始化Embedding,然后训练对应的Embedding 权重, 在训练集中,假如 一个用户 有10条样本数据集,那么模型训练该用户Embedding 是根据这10条数据最终训练成能表示该用户Embedding吗? 数据集特征中, 针对一条样本,没有特征表示: 用户历史观看电影 【电影1,电影2 电影3。。。】(按照时间排序) 这样一条特征,对训练Embedding有影响吗,我总感觉好像丢了这部分信息。
    展开

    作者回复: 1. 确实没有加normalization,当然可以在tensorflow预处理时候加上normalization,或者在spark中生成训练样本的时候加上特征预处理的一些操作,没问题。而且也确实推荐在实际工作中尝试用normalization,bucketize,maxminscaling去做不同的预处理查看效果,这一点我们之前在特征工程部分介绍过。 2.是个好问题,如果embedidng层是在模型中,通过e2e训练的,那么你如果细致的理解梯度下降的过程就知道,某个用户的embedding确实是只用TA自己的历史数据生成的。 这样的弊端当然有,就是收敛慢,而且在用户历史行为过少的时候,这个用户的embedding不稳定。所以也可以采用embedding预训练的方式,就像我们之前embedding部分讲解的。 推荐其他同学也思考这两个问题,非常好的实践问题。

    共 4 条评论
    19
  • 科西嘉的怪物
    2021-03-08
    如果这个模型的结构变一下,把拼接操作变成user emb点乘item emb直接得到预测评分,那训练出来user emb和item emb就在一个向量空间了吧

    作者回复: 是这样

    共 2 条评论
    16
  • 月臻
    2021-06-29
    老师,您好,我使用Pytorch实现了项目中用到的模型:https://github.com/hillup/recommend

    作者回复: 赞,推荐其他同学参考。

    共 3 条评论
    15
  • 浣熊当家
    2020-11-22
    想请教下老师,关于embedding训练的原理, 比如图二中Word2Vec的训练我们有输入值X(one-hot向量), 和输出Y(作为label, multi-hot向量),所以我们可以训练我们的的Word2Vec的词向量,使其得到最贴近训练样本标签的结果。但是我们这节课讲的embedding层只有前一部分,并没有Y(label)这部分,embedding是通过什么原理训练出来的呢?embedding本质是个unsupervised learning吗?

    作者回复: 这里的embedding层是跟上层神经网络一起end2end训练出来的。当然是标签的,就是样本中的标签。 embedding层是通过上层逐层传导回来的梯度来进行更新的。

    11
  • 张程
    2020-12-03
    如果是电商推荐商品。没有 0和1 的label, 只有buy还是click的区别,这样的话请问应该如何处理?lable列全部为1吗?谢谢!

    作者回复: 怎么可能只有buy和click,有impression没被click和buy的商品不就是最合适的负样本吗。

    9
  • Geek_b4af04
    2020-12-08
    王喆老师,你好,我最近准备吧这几个模型改写为pytorch版本的代码,在进行category features的embedding的时候,是需要先将这些features变为one hot向量,再将这些one hot的向量变成embedding向量吗?但这样的话有些问题,这样数据大小就爆炸了,比如movie id 的features(19000个数据),从(19000,) -> (19000, 30001) -> (19000, 30001, 10)

    作者回复: 按照embedding层的构造,是一定要把id转换成onehot的,否则id这个数字本身怎么能输入到网络中呢? 参数爆炸这个事情也是肯定的,这也是为什么说embedding layer是最费时,费空间的部分,一个神经网络有可能超过90%的参数和时间都花在训练embedding层上。

    共 3 条评论
    7
  • 那时刻
    2020-11-19
    课后思考题,我的想法是在Stacking 层把不同的 Embedding 特征和数值型特征拼接在一起,即把电影和用户的 Embedding 向量拼接起来,形成新的包含全部特征的特征向量,该特征向量保存了用户和电影之间的相似性关系,应该可以直接用来计算用户和物品之间的相似度。

    作者回复: 其实不可以,因为二者不在一个向量空间。直接用dot product或者cosin similarity计算相似度都不可以。

    共 3 条评论
    7
  • 那时刻
    2020-11-19
    请问老师,对于数值型特征都有均值和标准差,比如电影评分均值和电影评分标准差两个特征。您在实际工作中,对于数值型特征都会额外加上均值和标准差两个特征吗?

    作者回复: 不一定,关于特征选择,不要纠结于这样的问题,自己去尝试。

    5
  • 灯灯灯
    2021-01-19
    老师你好, 我在运行时会出现以下的waring。请问是我设置的原因还是什么其他原因呢? WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'collections.OrderedDict'> input: OrderedDict([('movieId', <tf.Tensor 'ExpandDims_4:0' shape=(None, 1) dtype=int32>), ('userId', <tf.Tensor 'ExpandDims_17:0' shape=(None, 1) dtype=int32>), ('rating', <tf.Tensor 'ExpandDims_7:0' shape=(None, 1) dtype=float32>), ('timestamp', <tf.Tensor 'ExpandDims_9:0' shape=(None, 1) dtype=int32>), ('releaseYear', <tf.Tensor 'ExpandDims_8:0' shape=(None, 1) dtype=int32>), ('movieGenre1', <tf.Tensor 'ExpandDims_1:0' shape=(None, 1) dtype=string>), ('movieGenre2', <tf.Tensor 'ExpandDims_2:0' shape=(None, 1) dtype=string>), ('movieGenre3', <tf.Tensor 'ExpandDims_3:0' shape=(None, 1) dtype=string>), ('movieRatingCount', <tf.Tensor 'ExpandDims_5:0' shape=(None, 1) dtype=int32>), ('movieAvgRating', <tf.Tensor 'ExpandDims:0' shape=(None, 1) dtype=float32>), ('movieRatingStddev', <tf.Tensor 'ExpandDims_6:0' shape=(None, 1) dtype=float32>), ('userRatedMovie1', <tf.Tensor 'ExpandDims_18:0' shape=(None, 1) dtype=int32>), ... ('userGenre5', <tf.Tensor 'ExpandDims_16:0' shape=(None, 1) dtype=string>)]) Consider rewriting this model with the Functional API.
    展开

    作者回复: 大量TF的warning是平台自己的问题,暂时不用过于纠结

    4
  • 。LEAF
    2020-11-24
    老师好,想问一个问题,分布式训练模型的时候,loss是直接做sum好,还是求mean呢?

    作者回复: 这是parameter sever的问题了,绝大部分都是求sum,因为loss本身就是累加的。

    4
  • 小强
    2021-04-23
    通过学习code,推荐模型篇的Embedding都是通过tensorflow直接生成。请问在实际应用中,深度学习的模型的Embedding和线上服务篇生成的Embedding (Item2Vec, Graph Embedding)一般都是独立的吗?线上服务篇生成的用于Recall?模型篇生成的用于Sorting?

    作者回复: 模型篇中应该没有直接生成embedding,而是直接生成的预测分数对吧,所以模型篇主要用于ranking,之前讲过的item2vec等方法生成的embedding,可以用于召回,当然也可以作为ranking的一部分特征。

    3
  • Sebastian
    2020-11-19
    老师,在实战中由于数据量庞大,用tf搭建的模型是否需要进行分布式训练?一般是如何分布式训练?之后会有类似的章节讲到吗?

    作者回复: tensorflow的分布式训练也是一个非常大的话题。涉及到parameter server模式的训练方式和分布式环境的部署。 推荐参考官方资料 https://www.tensorflow.org/guide/distributed_training 因为这个问题上,没有环境我们几乎没法实践,所以咱们课程暂时不会涉及到。

    共 3 条评论
    4
  • 2021-08-09
    老师您好,userGenre1-userGenre5,movieGenre1-movieGenre3 里面的数据是一致的,one-hot大小是1 *19 ,对应的embedding参数矩阵大小就是19*10 ,那么这八列数据对应要训练8个 19*10的矩阵参数,但是他们的one hot是一样的,请问可否可以共享一个19*10的参数矩阵

    作者回复: 是的,最好的方法是共享emb矩阵,可以在这个版本技术上进行修改

    2
  • 挖掘机
    2021-06-03
    老师好,最近正好在做dssm,其中的好几个有疑惑的点一起讨论 1. 当id类特征,比如movieId和userId数量很大时,目前userId大概每天有1000w级别。我选择了先使用hash_bucket来做散列,然后再压缩到300维的embedding。但是我对这种方法有怀疑,就是这么大的数量,会不会出现大量的冲突。这样对准确性是不是有影响。 2. mlp的每层的维度如何确定,是越大越好,还是越小越好。 3. 模型特征可选的目前大概有几千个,如何从中选出重要性最大的特征呢?
    展开

    作者回复: 1. 会有冲突,在硬件允许情况下,最好把hashbucket数量加大。 2. 自己调参,一般不建议非常大 3. 经典面试题,自己去搜一下相关资料。

    3
  • FayeChen
    2021-03-11
    对于multi_hot(比如说历史的观影序列)的特征应该怎么生成embedding呢,感觉还是需要建立字典通过embedding_lookup查找pooling,或者矩阵相乘的方法么

    作者回复: 大致的思路是利用tf中的embedding_lookup_sparse操作来生成multi hot的embedding。 生成embedding之后,可以用一些pooling的操作或者其他embedding间的操作把多个embedding合并成一个。

    3
  • Sebastian
    2020-12-07
    老师,想问下在划分训练集测试集,怎么就直接使用 test_dataset = raw_samples_data.take(1000)train_dataset = raw_samples_data.skip(1000) 这里的take和skip的意思是选1000条样本作为训练,然后选1000条样本作为测试集吗? 难道不需要按照时间划分吗?

    作者回复: 这是个好问题,你觉得划分和不划分各有哪些优劣?按时间划分就一点好吗?有没有基于按时间划分的更好的评估方法?

    共 8 条评论
    2
  • Geek_59735b
    2021-09-26
    请问下对于 Word2Vec 这样的任务,我们可以清楚的知道 embedding 后的 vector 之间的距离有其现实意义,因为 loss 函数的设计会使得在数据集中常常相邻的词距离相近,但是请问对于 这种 End2End 的应用,embedding 出来的 vector 有具体的现实意义吗 ? 看 loss 好像看不出其有何具体的意义;

    作者回复: 只有在计算距离时才有现实意义,embedding本身你是根本没法解读出现实意义的。

    1
  • Yvonne
    2021-06-20
    老师,请问为什么不同的genres要分开embedding呢,他们可以用shared_embedding_columns吗?如果ta们是一个embedding universe的话

    作者回复: 可以,建议使用shared embedding。

    1
  • Geek_cabb26
    2021-03-18
    这里训练的不在一个向量空间,如果想直接拿user,item的,可以构图做一个metapath2vec,同时产出两个向量~

    作者回复: 是这样。

    共 2 条评论
    1