研究团队将两组照片样本展示给22名中国男性研究生,发现尽管他们对于照片上贴的标签高度认同,但他们无法具体解释他们是如何做出这样的判断的。他们几乎都给出了非常模糊的回答,比如我就是这么感觉的。那么,人工智能否把握这种模糊的感觉,由女性长相推断出她们的内在性格呢?
武筱林团队首先进行了半自动化的样本采集。他们在百度图片上用单纯美女、甜美少女等关键词进行检索,并把照片分为S+和S-两组。
S+包含带有以下标签的美女照片:清纯、柔美、甜美、秀美、单纯、大方
S-则包含以下标签:娇艳、俗气、张扬、风骚、轻佻、轻浮、妩媚
S+和S-分别倾向于褒义和贬义的标签,且在女性的支配力、可信赖度、单纯程度等内在个性上有不同程度的暗示,本文简单将这两组称为褒义组和贬义组。
然后,所有搜索结果又由中国男性研究生进行了人工排查,去掉一些由于复杂语义造成的错误搜索结果,比如有些照片带有反讽性质的标签。
研究团队最后得到了共3954张中国美女照片,其中褒义组2000张,贬义组1954张。
由于受访的研究生们无法指出他们做出判断的细节依据,武筱林团队采用了深度卷积神经网络(CNN)进行研究。在实验中,他们用数据集中的80%进行训练,10%用于验证,剩余10%进行测试。
实验的结果是,经过训练的机器鉴别褒义组和贬义组的准确率达到了80%。
接着,由于受访男性研究生普遍认为贬义组的照片不自然,研究者怀疑影响男性做出审美判断的重要依据是女性的化妆程度。但这个猜测很快被实验推翻了。当把所有照片调成灰阶图,重复上面的过程后,CNN分类器的识别准确率只下降了6%。
此外,浓妆还可能造成面部色彩的对比度和饱和度变高。这点得到了数据分析的证实。褒义组的色彩对比度比贬义组平均低了14%,饱和度平均低了5%。此外,贬义组照片在色彩对比度和饱和度上差异性更大。这与中国传统推崇的自然美一致。研究者猜测,这种色彩对比度和饱和度上的差异是机器做出判断的重要依据之一。
最后,武筱林团队排除了机器过度学习的可能性。他们将数据集随机打乱后训练机器,结果机器只能以50%的概率随机猜分类。
文章最后总结道,这篇论文是上一篇论文《基于面部识别的犯罪性推断》的续集,再次证明了人工智能不仅可以通过人脸识别鉴别生物性特征,还可以鉴别社会心理层面的特征。