您当前的位置：首页 > 新闻 > 科技

用机器学习分析完 YouTube 网红视频后，我发现了播放量暴涨的秘密

时间：2020-03-13 12:56:56 来源：作者：

在视频成为重要媒介，vlog、视频博主也成为一种职业的当下，如何提高自己视频的播放量，是广大内容生产者最头秃的问题之一。网络上当然有许多内容制作、热点跟踪、剪辑技巧的分享，但你可能不知道，机器学习也可以在其中发挥大作用。

join into data上两位作者 Lianne 和 Justin 做了一个硬核的技术分析。他们的分析对象是 YouTube 一个新近崛起的健身博主 Sydney Cummings 。

Sydney 拥有美国国家运动医学会(NASM)的私人教练证，同时也是一位跳高运动员。她的账号注册于 2016 年 5 月 17 日，累计播放量 27,031,566，目前拥有 21 万粉丝，每天都稳定更新，很有研究意义。请注意，以下研究都将通过 Python/ target=_blank class=infotextkey>Python 实现。

Sydney Cummings 的标题都有一定套路，比如最近一个标题是《30 分钟手臂和强壮臀肌锻炼！燃烧 310 卡路里！》，通常涵盖时间、身体部位、消耗的卡路里以及其他关于锻炼的描述性词汇。观众点击这段视频之前，就会知道几个信息：

30 分钟——我将在 30 分钟内完成整个训练；
锻炼手臂和臀肌——我将致力于手臂和臀肌，专注于力量；
燃烧 310 卡路里——我会燃烧相当多的卡路里。

掌握以上关键信息是预先的准备，接下来还有六个步骤：观察数据、用自然语言处理技术对视频进行分类、选择特征、创建目标、构建决策树、阅读决策树。接下来就和雷锋网一起看看作者究竟是怎么一步一步展开研究的。

事前准备：抓取数据

其实有很多不同的方法来抓取 YouTube 数据。由于这只是个一次性项目，所以作者选择了一个只需要手工操作，不依赖额外工具的简单方法。

以下是分步步骤：

选中所有视频；

右键单击最新的视频并选择“Inspect“；

将光标悬停在每一行上，找到高亮显示了所有视频的最低级别的 html 代码/元素级别；

例如，如果使用 Chrome 浏览器，它看起来就像这样：

【图片来源：Sydney’s YouTube Video page所有者：Sydney 】

右键单击元素并选择“复制”，然后选择“复制元素”；

将复制的元素粘贴到文本文件中并保存，这里使用 JupyterLab 文本文件并将其保存为 sydney.txt；

使用 Python 提取信息并清理数据。

接下来就是有趣的部分了，他们将从这个数据中集中提取特征，并研究是哪些因素影响着播放量。

步骤 1：观察数据

将数据导入到 Python 中是在最后一节中完成的，以下是数据集 df_videos，一共有 837 个视频。

df_videos 有 8 个特征来描述每个视频细节，包括：标题、多久前发布的、视频长度、播放量、地址、卡路里、发布具体日期、发布至今的天数。

此外，他们注意到数据有重叠，因为博主曾经多次上传同一个视频，在接下来的分析中将会忽略这部分不大的样本。

步骤 2：用 NLP 对视频进行分类

在这一步中，他们根据标题中的关键词对视频进行分类。

分组标准是：

这个视频针对的是身体哪个部位？
这个视频的目的是增肌还是减肥？
或者还有什么其他关键词？

作者使用了自然语言工具包(NLTK)，Python 中一个常用的开源 NLP 库，来处理标题。

生成关键词列表

首先，标记化视频的标题。此过程使用分隔符（如空格（" "）将标题文本字符串拆分为不同的标记（单词）。这样，计算机程序就可以更好地理解文本。

这些标题中有 538 个不同的单词，以下列出了使用频率最高的标记/单词。可以发现，频繁使用的就是那几个词，这也再次证明博主确实喜欢起标准格式的视频标题。

基于高频词列表，作者创建了 3 个关键字列表，可用于接下来环节对视频进行分类。

body_keywords（正文—关键词）——这标识了视频针对的身体部位，如“完整”身体、“腹肌”、“腿”。
workout_type_keywords（健身—类型关键字）——区分锻炼类型，如“有氧”、“伸展”、“力量”。
其他关键字——这包括常用但难以归类的关键词，如“训练营”、“精疲力竭”、“纤体”（toning）。

词干关键词列表

在形成这些关键字列表后，作者还提取了词干。这是为了确保计算机能够识别近义词。例如，ABS 是 Abdominal Exercise（腹部锻炼）的简写，单词“abs”和“ab”有相同的词干“ab”。

YouTube 标题的标记和词干

除了关键词，作者还需要标记和提取标题词干。这些过程可为进一步匹配关键字和标题列表做准备。

步骤 3：特征工程

经过头脑风暴，他们选择了两种特征——基于关键词和基于时间。

基于关键词的特征

Indicator Features

由于前一步的工作，现在有 3 个关键词列表和精简的标题，可以匹配它们来对视频进行分类。

按照 body_keywords 和 workout_type_keywords 分类，一个视频中有许多关键词。所以在匹配之前，作者还创建了 2 个特征：area 区域和 workout_type 健身类型。这些特征将一个视频的所有身体部位和锻炼类型连接成一个字符串。

例如，一个健身视频可以同时做“腹肌”和“腿”，或者同时做“有氧”和“力量”。该视频的特征区域为“腹肌+腿”，健身类型为“有氧+力量”。

同时，作者也识别出了相似的关键字，如“总共”和“完全”、“核心”和“腹肌”，将它们归在一组。

最后，他们创建了三种不同类型的虚拟特征（dummy features）：

is _ { } _区域，识别视频是否包含特定身体部位；
is_ { } _健身，确定健身类型；
title_contains_{}，查看标题是否包含其他关键词。

为了清楚起见，视频标题“腿部力量消耗训练”应该是 _leg_area = True, is_strength_workout = True， title_contains_burnout = True，而所有其他都为 False。

Frequency Features

除以上特征外，作者还创建了三个特征：num_body_areas， num_workout_types，和 num_other_keyword，用来计算一个视频标题中提到的关键词的数量。

举个例子，一个标题是“腹肌和腿部有氧力量训练”的 num_body_areas 和 num_workout_types 都是 2。

这些特征有助于确定视频中应包含的身体部位或锻炼类型的最佳数量。

Rate Features

最后同样重要的是，作者创建了一个特征：calories_per_min（每分钟卡路里数）看看卡路里的燃烧速度。毕竟，观众都想要一些明确的（可量化的）锻炼目标。

当然整个过程中也难免存在一些被错误分类的视频，作者也在转向时间特征前进行了手动修复，这里不再赘述。

基于时间序列的特征

有了上述基于关键词的特征，作者已经发现受欢迎视频的类型。但这是否意味着博主应该一直发相同类型的视频？

为了回答这个问题，他们还创建了一些基于时间序列的特征：

num_same_area，过去 30 天内发布的针对同一区域的视频（包括当前视频）数量。例如，特征= 6，说明除了当前视频针对上半身时，过去 30 天中还有 5 个上身健身视频。
num_same_workout ，该特征类似 num_same_area，只是统计的是健身类型。例如，特征= 3，说明除了当前视频 HIIT 健身，在过去 30 天内还有 2 个 HIIT 健身视频。
last_same_area，距离上一个针对同一块身体部位视频过去的天数。例如，该特征= 10，说明针对腹肌的上一个视频，发布在 10 天前。
last_same_workout，同 last_same_area，只是针对健身类型。
num_unique_areas，过去 30 天内锻炼了几块不同的身体部位。
num _ unique _workouts，过去30天发布的不同健身类型视频的数量。

这些特征将帮助了解观众是喜欢相同的还是不同类型的视频。

需要说明的是，博主偶尔会发布与健身无关的视频，播放数差距很大，所以作者未将这些列入分析。另外他们也过滤掉了前 30 天的视频，因为它们缺乏足够的历史数据。

接下来请看下面特征工程的具体过程。

多重共线性检验Test for Multicollinearity

什么是多重共线性检验，维基百科的解释是，多重共线性(也称共线性)是一种现象，其中多元回归模型中的一个预测变量可以以相当高的准确度从其他预测变量中线性预测。多重共线性不会降低模型整体的预测能力或可靠性，至少在样本数据集中是如此；它只影响单个预测因子的计算。

为什么这很重要？

假设博主只在周一发布力量训练，而且她的视频在周一的播放量总是更高。那么分析播放量时，应该归因它们发布在周一，还是因为它们是力量训练呢？为了获得真实的答案，作者必须确保特征之间没有强共线性。

成对相关( pairwise correlations)是常用的方法，但当出现多个特征(多于一对)时，可能会同时存在共线性。

因此，作者使用了一种更复杂的方法——k折交叉验证（ K-fold cross-validation）来达到目的。

详细过程如下:

根据判断，选择一组关键特征来测试共线性。

作者选择了对于YouTube视频播放量至关重要的特征，同时还添加了三个由随机数组成的特征：rand0,rand1, rand2。当比较特征之间的关系时，它们充当anchor。如果一个特征与这些随机特征相比不太重要或不太相似时，那么它就不是目标特征的重要自变量。

为k折交叉验证准备这些特征。

在此过程中，他们转换分类特征（categorical features）：area和workout_type。这种转换确保每个类别级别至少有K个值。

使用其中一个特征作为目标，其余特征作为自变量，来训练预测模型。

接下来，作者遍历每个特征，并使用其他特征拟合一个模型来预测它，他们用了一个简单的梯度提升模型（Gradient Boosting Model ，GBM)和K折验证，并且根据目标特征是数字的还是分类的，应用不同的模型和分数(模型预测能力评估指标)。

当目标特征是数字时，作者使用Gradient Boosting Regressor模型和均方根误差(RMSE)；当目标特征是分类特征时，则使用Gradient Boosting Classifier 模型和Accuracy(精度)。

对于每个目标，他们打印出K折验证分数(平均分)和最重要的5个自变量。

研究得分和每个目标特征的重要自变量。

作者试图研究每个目标特征及其与自变量的关系。当然本文不会列举整个过程，将举两个例子。

作者发现length（视频长度）和 calories特征是相关的。这个发现很直观，因为健身的时间越长，消耗的卡路里就越多。

这种关系不难理解。

length和 calories之间存在正相关，但这种强度还不足以将它们直接归到一块。因为40-45分钟的视频消耗的热量与30-35分钟、50-55分钟，甚至与60多分钟的视频，都有重叠部分。因此，两个特征都保留。

此外，作者发现num_same_area和area_full，两个特征也是相关的，这个发现有点令人惊讶，接下来开始解密。

下图显示了num_same_area和area之间的关系。

num_same_area特征，统计的是在过去30天内发布的针对于同一部位视频(包括当前视频)的数量。area_ful代表全身锻炼，这是Sydney视频中最常见的类型。因此，当num_same_area很大时，那么这些视频就是针对全身的锻炼。

假设我们发现更高的 num_same_area(>=10) 确实会导致更高的YouTube浏览量，但我们无法知道这是因为area_full 还是因为 num_same_area。因此，作者放弃了 num_same_area特征，也因为相同的逻辑放弃相num_same_workouts特征。

步骤 4：创建目标

你可能还记得，这个研究的目标是增加YouTube的播放量。是不是说明，我们可以直接拿播放量作为目标呢？

但请注意！播放量呈偏态分布。播放量中值是27，641次，而最高的视频达到130万。这种不平衡会给模型的解释性带来问题。

因此，作者创建了特征views_quartile，以它作为目标。

他们将视频分为两类——高播放视频(“high”)和低播放视频(“low”)。“high”占总播放量的75%，也就是播放数35578及以上的视频，剩下的都归到“low”。

通过这种方式，作者使用预测模型来找到播放量最高的25%的视频的特征组合。

步骤 5：构建决策树

准备好了一切工作，我们根据目标views_quartile建立一个决策树模型啦！

为了避免过度拟合，作者将一个叶子节点的最小样本设置为10。为了让我们更容易理解，作者将树的最大深度设置为8层。

步骤 6：阅读决策树

在最后一步中，作者将研究并总结导致高或者低播放量的“分支”。他们到底发现了什么呢？

发现 1：calories_per_min是最重要的特征

没错，calories_per_min是最重要的特征。人们似乎不太关心健身类型或身体部位。

每分钟消耗的卡路里≥ 12.025属于高消耗，60%（51/(34+51) ）的视频都有较高的观看率。

每分钟燃烧的卡路里少于(≤ 9.846)的视频则远没有受欢迎，只有 7.2%（12/(154+12) =）有较高的播放。

而每分钟消耗卡路里在9.846到12.025之间的视频，其他因素也会产生较大作用。

发现 2：不同部位、多种方式锻炼并不能提高播放量

这个发现超乎作者想象，难道不是各种各样的锻炼更好吗？

当过去一个月，身体不同部位的锻炼数量(num_unique_area)很高，≥ 10时，视频的观看倾向低。即使每分钟燃烧的卡路里很高，这种情况依然成立。

结合前两个观点，78%（42/(12+42) ）的视频在以下情况下获得了更多的播放：

每分钟燃烧的热量很高(≥ 12.025)
过去一个月中身体不同部位的锻炼数量较少 (

发现 3：臀部健身很受欢迎

当一段视频消耗的卡路里较少(calories_per_min ≤ 9.846)时，但只要是臀部锻炼，33%（5/(10+5) ）仍能获得高播放；不然，只有4.6%（7/(144+7) ）视频拥有较高播放。

建议：如何提高播放

综上，作者给Sydney提出了三条建议：

建议 1：燃烧卡路里

正如我们所见，每分钟消耗的卡路里是最重要的特征，12.025是个魔法数字。

下表是不同时长的视频应该燃烧多少卡路里的节点：

30分钟健身：361卡路里
40分钟健身：481卡路里
50分钟健身：601卡路里
60分钟健身：722卡路里

作者还提出了一个猜想：数字(时长和卡路里)对人的刺激只是心理上，大家可能就是喜欢看到卡路里的前两位数比时长大得多，这说明可以用更短的时间，消耗更多的卡路里。

建议 2：少用不同的身体部位关键词

Sometimes less is more.

人们不喜欢健身标题中有太多不同的身体部位。根据模型，在一个月内针对少于10个身体部位的组合更好。

作者注意到Sydney在她最近的视频中使用了更少的身体部位关键词。最明显的一点是，她一直在使用“手臂”或“上身”，而不是像“二头肌”或“背部”这样的词。

建议 3：多多发布臀部健身

Sydney的订阅者可能更多是女士，她们倾向于“臀部”塑性，而不是增加手臂肌肉。人们愿意牺牲燃烧更少的卡路里来获得更健美的臀部。也许Sydney应该一直为燃烧更少卡路里的视频加入一些臀部运动。

建议 4：未经验证的想法

比如说在月初发起新的活动。月初发布的视频更有可能获得更高的浏览量。也许人们喜欢设定新的目标来开始新的一个月。第二，避免在5天内发布相同类型的锻炼。

最后作者也表示，这个研究也有一些限制：

这些建议是基于过去的表现。而 YouTubers经常会打破过去套路，尝试新想法。鉴于此，我们可以将机器学习应用到他们的竞争对手身上。
只集中分析了标题，还有一些其他信息，比如订阅者人数、性别、区域的统计，其中可能蕴藏着更多的特征、更准确的发现和解释。

雷锋网雷锋网

Tags：YouTube 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

YouTube涨粉：广告投放效果怎么样？详解!

YouTube推广介绍YouTube是谷歌旗下的视频网站，也是全球视频网站。YouTube广告可以用在你的视频广告、图片广告、图文广告等各种广告形式中，是企业推广海外视频非常好的选择...【详细内容】

2022-11-02　　Tags: YouTube 点击:(0)　　评论:(0)　　加入收藏

浅谈YouTube广告优势以及有哪几种广告类型？

为什么要在 YouTube 上做广告？YouTube有哪几种广告类型？在本文中，Hotlist小编将回答这一问题。YouTube 拥有庞大的追随者——事实上，它拥有超过150 万的每月登录用户...【详细内容】

2022-11-01　　Tags: YouTube 点击:(1)　　评论:(0)　　加入收藏

YouTube营销是怎么做的,能给我们带来生意吗?

YouTube是一家什么样的平台?YouTube是一家目前全球最大的视频搜索和分享平台,同时YouTube又是Google旗下的子公司,因此,通过YouTube营销上传的短视频能同时同步在Google收录...【详细内容】

2022-10-29　　Tags: YouTube 点击:(44)　　评论:(0)　　加入收藏

Google正尝试让部分人付费才能在YouTube上观看4K视频

Google试图将客户转化为YouTube高级用户的手段正在成为话题。该公司正在努力用多个横幅宣传Premium，而内容创作者可以在其视频中使用的不可跳过的广告的增加也可以被人们看作...【详细内容】

2022-10-02　　Tags: YouTube 点击:(156)　　评论:(0)　　加入收藏

“不感兴趣”形同虚设，YouTube是在耍用户？

推荐算法作为移动互联网时代最为划时代的工具，如今早已浸透在互联网的几乎每一个角落。而通过收集用户行为的相关数据，互联网厂商在大数据基础上拿出的推荐算法，甚至可以做到“...【详细内容】

2022-09-23　　Tags: YouTube 点击:(254)　　评论:(0)　　加入收藏

YouTube将向短视频制作者提供45%广告分成

美国谷歌旗下视频网站“YouTube”20日宣布，2023年起采用将短视频“YouTube Shorts”的广告收入分配给制作者的机制。在中资短视频APP“TikTok”（抖音海外版）受年轻人等青睐的背...【详细内容】

2022-09-21　　Tags: YouTube 点击:(96)　　评论:(0)　　加入收藏

YouTube的九大变现渠道，一个人一部手机轻松玩转

某网站预估某位大咖在YouTube上的广告收入不少人开始做油管，是看上了广告收入这块大肥肉，其实在油管众多的变现渠道之中，它只是小小的一块瘦肉，YouTube还有很多变现渠道。这期我...【详细内容】

2022-09-16　　Tags: YouTube 点击:(49)　　评论:(0)　　加入收藏

如何在 YouTube 上屏蔽特定广告

您是否曾经在 YouTube 上狂欢，却一遍又一遍地看到同样烦人的前贴片广告？由于谷歌的用户定位广告算法，这是一个系统性问题。解决此问题的最简单方法是为 YouTube Red 付费并摆脱...【详细内容】

2022-08-09　　Tags: YouTube 点击:(75)　　评论:(0)　　加入收藏

自媒体人都知道YouTube，但并不了解

youtube，也是大家通常说的油管，是指国外知名视频网站youtube，网络名词。由于youtube在国内属于封禁状态，因为读音You读作“油”，而tube的英文意思是“管子”。为了能正常表达意思...【详细内容】

2022-08-09　　Tags: YouTube 点击:(545)　　评论:(0)　　加入收藏

推荐十三款最佳下载YouTube视频的APP

尽管某些 YouTube 视频可供下载和离线观看，但使用第三方应用程序下载 YouTube 视频是违反其条款的。YouTube 的服务条款明确提到，除非 YouTube 在特定服务上显示下载按钮或链...【详细内容】

2022-07-21　　Tags: YouTube 点击:(2408)　　评论:(0)　　加入收藏

▌简易百科推荐

马斯克收购推特让这些人发了大财最多分得10亿美元

11月3日消息，上周四，特斯拉首席执行官埃隆·马斯克（Elon Musk）完成了斥资440亿美元收购推特的交易，这让许多人变得非常富有，其中最多的人可获益10亿美元。持有推特三分之二...【详细内容】

2022-11-03　　　　网易科技报道　　Tags:推特　点击:(5)　　评论:(0)　　加入收藏

花钱开会你行吗？在线办公软件结束免费时代，会员包月30元

图源：unsplash来源：时代财经文/李婷“xx邀请您参加在线会议。”顺着对方发来的链接点进会议室，打开摄像头和麦克风，对着屏幕里的参会人员，随时随地开启一场远隔千里的在线会议，已...【详细内容】

2022-11-03　　时代财经　　新浪网　　Tags:软件　点击:(4)　　评论:(0)　　加入收藏

中国五部门：2026年虚拟现实产业规模要超过3500亿元

中新社北京11月1日电 (记者刘育英)中国工业和信息化部等五部门11月1日对外发布的《虚拟现实与行业应用融合发展行动计划(2022—2026年)》提出，到2026年，虚拟现实产业总...【详细内容】

2022-11-02　　　　中国新闻网　　Tags:虚拟现实　点击:(7)　　评论:(0)　　加入收藏

网速是5G的10倍，5.5G又要来了？

在近日举行的2022全球移动宽带论坛“5.5G与2030智能世界”媒体圆桌上，GSMA（全球移动通信系统协会）首席技术官Alex Sinclair表示，根据3GPP标准节奏，预计5.5G将于2024年进入商用阶...【详细内容】

2022-10-31　　　　每日经济新闻　　Tags:5.5G 　点击:(7)　　评论:(0)　　加入收藏

施工图来了！政务大数据将全国一体化

10月28日，国务院办公厅发布《全国一体化政务大数据体系建设指南》(以下简称《指南》)，要求各地区各部门按照《指南》要求，加强数据汇聚融合、共享开放和开发利用，促进数据依法有...【详细内容】

2022-10-31　　　　北京商报　　Tags:大数据　点击:(9)　　评论:(0)　　加入收藏

TP-LINK 宣布 11 月 14 日发布旗下首款 Wi-Fi 7 路由器

IT之家 10 月 31 日消息，据 hardwareinside 消息，TP-Link 将于 2022 年 11 月 14 日发布其首款 WiFi 7 产品，开启家庭和商业网络的新时代。TP-Link 表示，在 WiFi 5 之后，WiFi 6E...【详细内容】

2022-10-31　　　　IT之家　　Tags:Wi-Fi 7 　点击:(11)　　评论:(0)　　加入收藏

Netflix：如果用户向家庭成员外的用户共享账户则需额外收费

IT之家 10 月 29 日消息，Netflix 已确认，一旦用户将自己的账号密码与家庭以外的其它人共享，则将向用户收取额外费用。该公司表示，他们将在 2023 年初开始针对账户共享收费，此类费...【详细内容】

2022-10-29　　　　IT之家　　Tags:Netflix 　点击:(11)　　评论:(0)　　加入收藏

苹果 iOS 这个重磅更新，救得了退潮的 NFT 吗？

NFT 可以卖绕过应用购买苹果：不可以今天你可能错过的大新闻...【详细内容】

2022-10-28　　爱范儿　　　　Tags:NFT 　点击:(12)　　评论:(0)　　加入收藏

马斯克会把Twitter变成Web 3.0平台吗？

　·科技博主Jane Manchen Wong近日称，Twitter正在开发支持加密货币钱包的原型。Twitter于2021年9月开始支持比特币支付小费，2022年初支持以太坊，还增加了对NFT的支持。...【详细内容】

2022-10-28　　　　澎湃新闻　　Tags:Twitter 　点击:(12)　　评论:(0)　　加入收藏

苹果公布卫星通信专利装备可直接与卫星网络通信！

近日，据手机中国了解，天眼查App显示，苹果公司“用于使非地面网络通信符合地面标准和规定的方法”专利正式公布。苹果据该专利摘要，用户装备可将发射器或接收器配置为符合地理区...【详细内容】

2022-10-28　　CNMO　　新浪网　　Tags:卫星通信　点击:(12)　　评论:(0)　　加入收藏

推荐资讯

中央广播电台的各个频	请收下这 10 个安全相
前三季度居民收入榜：上	电脑里只有一个C盘怎
才知道，电动车锂电池和	进博会8大亮点抢“鲜
违法违规App，全部下架！	查你的身份信息有没有