经过一个多礼拜有效+无效共4200票左右选出如下结果。
http://yangzhe1991.org/facemashresult.htm
首先可以看到我突然就排在前面了。。。。前几天前20还没我。。。这个绝对是人民的选择,跟我没有关系……
有效票数很好算,每个人至少出现十次,都按十次算就是10*390/2=1950,有的人超过十次于是加一起两千多点。剩下的就是eggacher的垃圾数据了。好在研究出个简易的屏蔽恶意post的方案,省了一些处理多于数据的麻烦。
其实这有一定运气的成分,但可以确定一旦样本充分,是可以体现整体情况的。不然国际象棋、魔兽世界、战网排名也不会用ELO算法。
——————————————————————————
接下来是数据挖掘部分:
首先,本人校内好友共390人,含本人小号。其中女性110人,占28.2%。
在这次排名的前100中,头像明确展示男性特征的大约占33%,卡通头像不分男女的7%,猫猫狗狗等照片的4%,大合照、风景或人的大小忽略不计等抽象派的6%。露出明显女性特征的50%。
本人好友中没有伪娘,也没有伪娘头像。
因为设定选取照片严格按照左面的是历史出现次数最少的,因此可以保证所有人都出现了一定次数以上。因为刚好最后一个人变为10次时停止,因此10次肯定是最普遍的情况,如下图(若RSS订阅或淫淫RSS导入无法显示图片请点击看原文):
可以看到极端数据的时候会有点偏差。
然后是分数分布情况。因为ELO算法基于所有人的水平符合正态分布,因此这个算法得到的分数也是正态分布。即大多数人的分数在一个范围内,最高和最低都很少。如下图:
有一个问题值得注意,因为采取K=40、基准分1500,可以看出1500为中点大致呈正态分布,但因为选取的对手均为积分相近,因此每次得失分均在20上下,很少低于16或高于24,因此十位数是偶数的情况更常见。
然后就能看到两个美女和两个倒霉蛋的极端分布情况了……
此外,因为有人没有头像,所以有无头像的男女两个版本。这两个头像的排名均不在最后,就是说有的人有头像还不如没有……
发表回复