山寨facemash最终排名&数据简易分析

作者: yangzhe1991 分类: 我是搞技术的 发布时间: 2011-03-15 00:59 ė 65条评论

前文链接点此

经过一个多礼拜有效+无效共4200票左右选出如下结果。

http://yangzhe1991.org/facemashresult.htm

首先可以看到我突然就排在前面了。。。。前几天前20还没我。。。这个绝对是人民的选择,跟我没有关系……

有效票数很好算,每个人至少出现十次,都按十次算就是10*390/2=1950,有的人超过十次于是加一起两千多点。剩下的就是eggacher的垃圾数据了。好在研究出个简易的屏蔽恶意post的方案,省了一些处理多于数据的麻烦。

其实这有一定运气的成分,但可以确定一旦样本充分,是可以体现整体情况的。不然国际象棋、魔兽世界、战网排名也不会用ELO算法。

——————————————————————————

接下来是数据挖掘部分:

首先,本人校内好友共390人,含本人小号。其中女性110人,占28.2%。

在这次排名的前100中,头像明确展示男性特征的大约占33%,卡通头像不分男女的7%,猫猫狗狗等照片的4%,大合照、风景或人的大小忽略不计等抽象派的6%。露出明显女性特征的50%。

本人好友中没有伪娘,也没有伪娘头像。

因为设定选取照片严格按照左面的是历史出现次数最少的,因此可以保证所有人都出现了一定次数以上。因为刚好最后一个人变为10次时停止,因此10次肯定是最普遍的情况,如下图(若RSS订阅或淫淫RSS导入无法显示图片请点击看原文):

可以看到极端数据的时候会有点偏差。

然后是分数分布情况。因为ELO算法基于所有人的水平符合正态分布,因此这个算法得到的分数也是正态分布。即大多数人的分数在一个范围内,最高和最低都很少。如下图:

有一个问题值得注意,因为采取K=40、基准分1500,可以看出1500为中点大致呈正态分布,但因为选取的对手均为积分相近,因此每次得失分均在20上下,很少低于16或高于24,因此十位数是偶数的情况更常见。

然后就能看到两个美女和两个倒霉蛋的极端分布情况了……

此外,因为有人没有头像,所以有无头像的男女两个版本。这两个头像的排名均不在最后,就是说有的人有头像还不如没有……

本文出自 杨肉的演讲台,转载时请注明出处及相应链接。

本文永久链接: https://yangzhe1991.org/blog/2011/03/facemash-result/

0

5条评论

  1. 波斯狗儿 2011 年 3 月 15 日 01:13 回复
    Unknown Unknown Unknown Unknown

    哲哥好帅~狗狗排名57压力好大

    1. yangzhe1991 2011 年 3 月 15 日 01:14 回复
      Unknown Unknown Unknown Unknown

      =____=

  2. Xiao Nan 2011 年 3 月 24 日 23:12 回复
    Unknown Unknown Unknown Unknown

    山寨facesmash很不错, 不过:
    人的视觉对长度敏感, 对角度不敏感. 所以尽量不要用饼图. 另外Excel风格的图不是很受待见, 至少用maplotlib画, 最好用R画.

    可以研究一下TrueSkill排名算法, 你懂的.

    1. yangzhe1991 2011 年 3 月 25 日 01:10 回复
      Unknown Unknown Unknown Unknown

      之前真没听说过,一会看看,谢谢提醒 😎

    2. McKelvin 2012 年 7 月 2 日 15:11 回复
      Unknown Unknown Unknown Unknown

      有数据之处就有肖大神的身影!

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

 
Ɣ回顶部