山寨facemash最终排名&数据简易分析

前文链接点此

经过一个多礼拜有效+无效共4200票左右选出如下结果。

http://yangzhe1991.org/facemashresult.htm

首先可以看到我突然就排在前面了。。。。前几天前20还没我。。。这个绝对是人民的选择,跟我没有关系……

有效票数很好算,每个人至少出现十次,都按十次算就是10*390/2=1950,有的人超过十次于是加一起两千多点。剩下的就是eggacher的垃圾数据了。好在研究出个简易的屏蔽恶意post的方案,省了一些处理多于数据的麻烦。

其实这有一定运气的成分,但可以确定一旦样本充分,是可以体现整体情况的。不然国际象棋、魔兽世界、战网排名也不会用ELO算法。

——————————————————————————

接下来是数据挖掘部分:

首先,本人校内好友共390人,含本人小号。其中女性110人,占28.2%。

在这次排名的前100中,头像明确展示男性特征的大约占33%,卡通头像不分男女的7%,猫猫狗狗等照片的4%,大合照、风景或人的大小忽略不计等抽象派的6%。露出明显女性特征的50%。

本人好友中没有伪娘,也没有伪娘头像。

因为设定选取照片严格按照左面的是历史出现次数最少的,因此可以保证所有人都出现了一定次数以上。因为刚好最后一个人变为10次时停止,因此10次肯定是最普遍的情况,如下图(若RSS订阅或淫淫RSS导入无法显示图片请点击看原文):

可以看到极端数据的时候会有点偏差。

然后是分数分布情况。因为ELO算法基于所有人的水平符合正态分布,因此这个算法得到的分数也是正态分布。即大多数人的分数在一个范围内,最高和最低都很少。如下图:

有一个问题值得注意,因为采取K=40、基准分1500,可以看出1500为中点大致呈正态分布,但因为选取的对手均为积分相近,因此每次得失分均在20上下,很少低于16或高于24,因此十位数是偶数的情况更常见。

然后就能看到两个美女和两个倒霉蛋的极端分布情况了……

此外,因为有人没有头像,所以有无头像的男女两个版本。这两个头像的排名均不在最后,就是说有的人有头像还不如没有……


已发布

分类

来自

标签:

评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注