【破事氵】聊聊“刷数据”-小刀资源网

2024-05-10 0 688

    从当年爱奇艺几百亿播放量的电视剧,到如今微博无处不在的僵尸粉、水军,“刷数据”在当今的互联网中可以说是一个司空见惯的现象了。虽然B站的数据含水量一向比较低,但情况可能也没有想象中的那么乐观。
    现在B站上有没有刷数据的稿件呢?显然是有的,比如我可以随便列出一大串播放量个位数、硬币/收藏/点赞几百上千的稿件(例子1例子2例子3,……)。哪怕没有官方背书,称这样的数据是刷出来的想必也不会有人有异议。但是这种“一眼假”的例子毕竟是少数,更多的情况下即使刷了数据也难以直接看出问题,就算觉得有问题也难以让他人信服。
    那么怎样判断一个视频是否刷了数据呢?记录数据随时间变化的趋势大概是一个可行的方案。自然增长的数据会遵循一定的规律,如果某稿件的数据增长历史与规律出入很大,就可以认为有较大的“刷数据”嫌疑。不过即使如此也不能断定是刷了数据,而且刷数据时也可以通过调整算法使得增长曲线贴近自然增长规律,因此将这种情况称为“数据异常”以做区分。
    “数据异常”和“刷数据”虽然并无互相包含关系,但有较大重合。而且相比难以举证的“刷数据”,“数据异常”作为一个客观现象更容易分析,因此后文主要通过分析“数据异常”情况来讨论“刷数据”现象。

    要分析数据异常,首先要明确正常的数据应该是什么样的。根据我的观察和生活经验意思就是懒得做定量分析了,自然增长的数据一般有以下几个规律:
    1. 相邻时段的增速接近
    2. 播放、硬币、收藏、点赞同步增长
    3. 白天、晚上和凌晨的增速有显著区别
    当然这些规律并不绝对,比如大V转发、上推荐等都会导致增速的突变。但是如果同时违反其中几条,那么数据异常的概率还是很大的。
    为了更直观地展现数据异常的特点,我写了一个简陋的脚本从演奏区1万8千多个口琴相关的稿件中筛选出了几个典型的例子。为了防止误会这里特别强调下:本文只是讨论数据异常这一现象,没有任何针对up主的意思。事实上数据异常可能的来源有很多,比如热心粉丝、捣乱的仇家甚至测试工具的技术宅,贸然指责up主是很可能冤枉好人的。

    例子中的数据和截图均来自这里介绍的小工具,感兴趣的读者可以根据av号自行验证。

【破事氵】聊聊“刷数据”-小刀资源网
【破事氵】聊聊“刷数据”-小刀资源网
AV29129146,19/06/17凌晨异常增长

    为了证明确实不是针对up主,第一个例子先从我自己的投稿开始。这个例子从图上看其实已经很明显了:一个已经凉得差不多的稿件播放量增速突然暴涨,在凌晨1点多到6点多这个一般人都已经休息了的时段,播放量以近乎线性的速度持续增长,且增长期间硬币、收藏、点赞没有任何变化;增长结束后,播放量增速没有任何过渡地回落到之前的水平,可以说是3个规律全部违反了一遍。虽然这一通操作只涨了大概50播放量,但也是一个比较典型的数据异常例子了。19.2.23凌晨的情况与此类似,篇幅所限这里就不放图了,有兴趣的观众可以自己去看。
    还有两个相近的例子,一并放在这里,就不展开分析了~

【破事氵】聊聊“刷数据”-小刀资源网
AV41190437,19/02/12夜


【破事氵】聊聊“刷数据”-小刀资源网
AV56416357,19/06/25夜

    上一部分的几个例子都是播放暴涨而硬币/收藏/点赞不变,可能是没有掌握相应的技术。下面介绍几个高科技的:

【破事氵】聊聊“刷数据”-小刀资源网
AV50919494

    这是一个典型的各项数据增长不同步的例子,尤其是硬币。值得注意的是在图上重点标注的时刻,硬币数量接近播放量的3倍,这显然是不合常理的。虽然确实会有“先投币回去再看”的操作,但大量观众短期内同时这样无疑是个极小概率事件。而且其他几个时间段也有播放暴涨而硬币/收藏/点赞几乎不变的情况。

【破事氵】聊聊“刷数据”-小刀资源网
AV60788393

    同样是播放与其他数据不同步,而且在播放量在深夜增速未见放缓。

【破事氵】聊聊“刷数据”-小刀资源网
AV65494243

    问题同上,不过夜间播放量增速放缓了。   

【破事氵】聊聊“刷数据”-小刀资源网
AV73039197

    不同步,不减速。

【破事氵】聊聊“刷数据”-小刀资源网
AV69328500

    再 放 送

【破事氵】聊聊“刷数据”-小刀资源网
AV60870184

    这个播放量倒是挺自然的,夜间几乎停滞,而且增速有减慢的过程。但是这个线性增长的点赞量就太假了。

【破事氵】聊聊“刷数据”-小刀资源网
AV67185129

    你看这个线,它又直又平;就像这个拐角,它又尖又硬。

【破事氵】聊聊“刷数据”-小刀资源网
AV62804817

    这个说实话我是有点拿不准的。如果关掉硬币的曲线,看上去就是一个挺正常的稿件,凌晨附近的收藏/点赞波动也在正常范围之内。但这个台阶状的硬币曲线着实有些诡异,尤其是收藏点赞都稳步增长时硬币纹丝不动,显得有些不合常理。姑且作为一个存疑的例子放在最后供大家自行感受吧。

    前面展示了11个例子,涉及的异常数据量从几十到几千不等,我觉得可以在某种程度上说明一些问题了:这些视频是我从演奏区口琴相关的18716个视频里粗筛出来的,没有筛出来的可能还会更多,而B站现在有接近4700W有效视频。而且从这些例子的对比中可以看出,只要刷数据时稍微注意一点合理性,把曲线拉漂亮一点、把各项数据的增长同步一下、模拟下正常的作息时间,就很难再从数据曲线中发现问题。

    当然了,数据对于大部分观众和不指望能火的up主比如我也并没有什么卵用,所以这篇文章的标签是【破事氵】写这篇文章的诱因是上周看到中V数据站关于刷数据的言论引发的风波,希望在尽量不引起争论的情况下谈谈我对刷数据的认识。其实主要目的还是参加专栏区的任务蹭奖金

    如果有人对文中的数据或观点有疑问或不同看法,欢迎讨论~

相关文章

猜你喜欢
官方客服团队

为您解决烦忧 - 24小时在线 专业服务

  • 0 +

    访问总数

  • 0 +

    会员总数

  • 0 +

    文章总数

  • 0 +

    今日发布

  • 0 +

    本周发布

  • 4975 +

    运行天数

你的前景,远超我们想象