山寨facemash最终排名&数据简易分析

经过一个多礼拜有效+无效共4200票左右选出如下结果。

首先可以看到我突然就排在前面了。。。。前几天前20还没我。。。这个绝对是人民的选择，跟我没有关系……

有效票数很好算，每个人至少出现十次，都按十次算就是10*390/2=1950，有的人超过十次于是加一起两千多点。剩下的就是eggacher的垃圾数据了。好在研究出个简易的屏蔽恶意post的方案，省了一些处理多于数据的麻烦。

其实这有一定运气的成分，但可以确定一旦样本充分，是可以体现整体情况的。不然国际象棋、魔兽世界、战网排名也不会用ELO算法。

——————————————————————————

接下来是数据挖掘部分：

首先，本人校内好友共390人，含本人小号。其中女性110人，占28.2%。

在这次排名的前100中，头像明确展示男性特征的大约占33%，卡通头像不分男女的7%，猫猫狗狗等照片的4%，大合照、风景或人的大小忽略不计等抽象派的6%。露出明显女性特征的50%。

本人好友中没有伪娘，也没有伪娘头像。

因为设定选取照片严格按照左面的是历史出现次数最少的，因此可以保证所有人都出现了一定次数以上。因为刚好最后一个人变为10次时停止，因此10次肯定是最普遍的情况，如下图（若RSS订阅或淫淫RSS导入无法显示图片请点击看原文）：

可以看到极端数据的时候会有点偏差。

然后是分数分布情况。因为ELO算法基于所有人的水平符合正态分布，因此这个算法得到的分数也是正态分布。即大多数人的分数在一个范围内，最高和最低都很少。如下图：

有一个问题值得注意，因为采取K=40、基准分1500，可以看出1500为中点大致呈正态分布，但因为选取的对手均为积分相近，因此每次得失分均在20上下，很少低于16或高于24，因此十位数是偶数的情况更常见。

然后就能看到两个美女和两个倒霉蛋的极端分布情况了……

此外，因为有人没有头像，所以有无头像的男女两个版本。这两个头像的排名均不在最后，就是说有的人有头像还不如没有……

评论