【评委费思量】几个具体问题

字数：5191字访问原帖评论数：115条评论 TXT下载

发表时间：2021-08-22 06:40:58 更新时间：2021-08-25 03:20:30

楼主：公理力时间：2021-08-21 22:40:58

结束评选，公某便有些懒散。犹豫、拖延了这两日，看到版友仍在继续讨论相关问题，还是决定，就几个具体问题再扯一扯。

楼主：公理力时间：2021-08-21 22:59:19

1）关于评奖结果

只要是评奖类活动，无论多么公正，有人欣喜，有人失落，都是不可避免的结局。何况，任何评选都无法做到绝对公平，除非评委不是人，而是足够先进的AI机器。

作为评委，对该结局总的感觉，是欣慰。

终于能够打破自己的预设“立场”，为鱼小溅的作品打满分，而该作品又恰恰获得一等奖，小确幸也。
颇欣慰的另一点是，14篇获奖作品中，公某看好的入选13篇，仅有一篇失误。这是一个比预想好很多的结局，禁不住也要为几位同仁点赞！

如果非要说意外，小鱼（费爷不悔）、小九、那江、风絮扬的作品也在本人评分表应获奖的17篇中（并列多位），此次落选算是小意外。但考虑到本人偏爱的作品已经有13篇获奖，有几篇不入选也就完全可以理解。毕竟，个人主观因素是不能否认的。

楼主：公理力时间：2021-08-21 23:25:17

2）评委构成与风格

热情似乎永远燃不尽的小芳，日前曾发主帖提议，由她赞助再弄个评委奖。在回应花叶子关于评委打分准确性问题时，我随口说了一句：把每位评委给14篇获奖作品的打分与平均分相对比，统计14个分差之和，差距越小，意味着打分越准确。这是一个简单又客观的标准，可谓铁律。
没想到，临窗先生竟熬通宵给出一组系统、完成的数据分析！其认真负责的劲头，公某只能自愧弗如，倒是与青蛙版这一段的干劲交相辉映！
而临窗君的统计结果，一不小心，就让公某成了打分最准确的评委。这个结果是公某不曾想过的，当即撤销了对小芳提议的支持。

而公某真正想说的是，这次不同背景和风格的6位评委，在很大程度上，都是不可或缺的，尽管尽可能提高打分准确性，对每位评委都是需要的。
重点是，假如评委能够代表主要读者群体的口味，无疑是更理想的。而这一点，唯有不同口味与风格的评委构成才可能接近之。
至于有人诟病，评委都不是“实名认证”的文学专家，不考虑现实可行性，果真由一色的文学专家来评判网文，脱离实际的可能性只会更高。
一个基本事实是，最好的文学评论者不是作家，而是文艺评论家；最后的电影评论者也不是导演或演员，而是影评家。
这个问题一定会有不同观点，公某愿意听听大家的看法。

楼主：公理力时间：2021-08-22 01:48:47

3）关于评委的打分标准
青蛙版曾把六位评委分为有标准的系统派（临窗、马花和公某）和无系统标准的直觉派（段子、秦老和叶子），这个划分大体反映实际。
公某之前就说过，平时看网文，完全按照自己的直觉来是肯定的。无论是喜欢，还是相反，大可抓住一点，不及其余。
但作为评委，首要的是公正性，这就很能靠直觉来保证，一个自洽的、系统性的评分标准就是体现公正性的必要手段。捅个大词儿，这就是科学方法的意义所在。

而两派打分的准确性，临窗君的数据分析结果已经一目了然（下表），为上述说法提供了最新证据。

注意到段子发了主帖，基本都是对这一结果的误解。在此，顺便简单回应一下。

段子：“将同一个评委对十四篇文章的评论误差加总在一起，那么这一做法本身就是暗示，存在一篇大文章同时融会了十四篇文章的优缺点，请问，请问始作俑者这篇大文章在哪里呢？"
不清楚段子是否没有起码的统计常识，你某门课试卷有14道题，14道题总得分或总失分的累加，反映你该课程考试成绩的优劣，但并不意味着这14道题必然是相关的。任何评委给14篇作品的打分偏差累加，仅反映该评委在这场征文评判中的准确性高下，不存在“同时融会了十四篇文章的优缺点”的一篇大文章，这点很难理解吗？

【只有明确说出什么是"道"来，"段干随性，叶子直觉，马花严格，秦川厚道，临窗中道，公理精准"才能有充实准确的含义。否则，空话耳。】
这里如果说有什么“道”，就是打分的准确性。充实准确的含义就是统计误差，这是客观存在。

【"段干随性"，具体在什么地方偏离"道"？总不能像交警罚款说超速20%，却指不出何时何地超速，对不啦。】
呵呵，临窗的表格中已经列出：你被去掉的无效分是11个，累计误差19.8（每篇平均误差1.41），还提供了你每一篇的情况。这就比警察记录下你超速情况还具体。你还能怎么否认？

楼主：公理力时间：2021-08-22 05:43:42

4）关于绿凌霄质疑评分标准

一般而言，对评委的工作和打分标准提出质疑，该是一件好事。但有理有据，有合适的度也是必要的。而一旦到了蛮不讲理，恣意纠缠，甚至臆测造谣的地步，事情就完全走向反面了。

在得知公某给她那篇游记打了7.5分后，绿凌霄扛起为众多作者谋福利的大旗，开启其正大光明的质疑之旅，这并未妨碍她承认对打分不满。之后更将矛头对准了同样没有给她打高分的马花和段子评委。

公某评分标准的第一项是“立意：扣题性、真善美”。她的第一项质疑是：“网络的审丑功能是高于审美功能的”，立意项中的真善美应该剔除！
在此，公某怯怯地问两个简单问题：
——116篇作品中有审丑文吗？为啥审美反而成了大忌？
——所有广受好评的作品中，有一篇能离开“真”吗？真为啥也成了禁忌？

绿凌霄又言：把“真”“善”“美”设置为评分点，这是窄化小确幸的范畴！
很遗憾，真善美的“容量”远比小确幸要大得多！说出前者“窄化”后者的话，属于概念范畴不清。头一个真字就是所有小确幸作品都该有的要素之一。

理屈词不穷的绿版友不得不改口称：真善美是大词，空洞，不适应“小确幸”这个主题！
不客气地讲，这是曲解真善美的肤浅理解。“真”是一个十分接地气的概念，更不空泛。惹人们日常一个简单行为，一句简单话语，甚至是一个简单表情，都可能存在真假之别。善与美也是同理。生活中，一个没有明显其它缺点的虚伪者也不受待见，而一个有缺点的真性情也会有不少朋友。公然反对真善美，往轻里说，也是不知道自己在说什么！

之后，绿版友仍不肯善罢甘休，又东扯西拉了另外几个问题，包括：“评分点为何没有内容的稀缺性和独创性？”
什么是独创性？在文字领域，首次提出躺平、高富帅、白富美这类新概念，可以认为有独创性。只要不是新创一种文体，任何特色鲜明的极品文章也不能算有独创性。绿版友竟然还说什么“文字上让人眼前一亮的话题”就是独创性，还是典型的概念不清。
而重点是，“小确幸”属于人们共通共情的经历与体验范畴，要把“稀缺性和独创性”作为标准，这是无厘头。原创性才是征文不言自明的最低要求，独创性远不是一篇“小确幸”这类主题所必需的。

实在找不出理由了，绿凌霄又开始指责评委对某些作品打分过低——标准当然是她的；尤其是对没有给草帽和老鹰等跑题作品打零分愤愤不平！她甚至没有意识到，这与她刻意打造的替“90%不得奖征文选手”代言者形象是矛盾的。
被指责者范围已不限于公某，也包括马花和段子评委。至于花叶子，是给她的游记打9分的评委，即使没有给草帽、老鹰等人打零分，当然也不在受指责者之列。

不能不提的是，这位义正词严的质疑者，最后的说法竟然是：“其实就是不要搞征文大赛，别去打分，就ok了。这样一来，评委失业，板油拥抱，不会有人想退坛了。踏浪也省下了1000元。”

哦，原来这位绿版友压根儿就反对搞征文活动呢！

可问题来了：那又该如何解释绿同学又是最积极的支持者和投稿者呢（作品排05号）？
只要你的作品能获奖，活动就没问题，大家都该积极支持。一旦你的作品没有机会获奖，那就整个活动都是错的！这样的逻辑与你的表现一点都不矛盾呢？

楼主：公理力时间：2021-08-22 08:21:57

5）关于征文主题“小确幸”

已有多位评委和版友曾先后解读过这个源自日文的新概念。这些解读与辨析对于大家深化对这个舶来品的认识，无疑是必要的，有启发的。

而公某想强调的一点是，“小确幸”毕竟属于一个还相当新的概念，大家对这个概念的准确内涵和外延的把握，征文开始前，尚处于不甚了了的阶段，是一个基本事实。
而此次征文活动启动得又相当仓促。资助者沓浪先生提议一出，诗情的发令枪还没准备就绪呢，青蛙版和静山岚就一马当先出发啦！
版主组也就不可能有诸如“小确幸”主题题解、游戏规则制定、评分标准建立之类完善的准备工作。
在这种情况下，热情高涨的征文作者们，也包括胃口大开的评委段子女士，都是在并未明确“小确幸”概念的情况下就上场了。
作为评委，在评判一篇作品是否扣题的时候，也就不宜不考虑这一特殊情况。

立意在确定的小幸福感上是切题；理解为幸运的体验也不能说跑题；就是写出了万幸性质的大难不死，公某也不认为应该视为完全跑题。

这种在立意一项上的宽容，完全是由这场征文特殊情况下的特别主题所决定的。没有更合理的万全之策。

鉴于此，对于绿凌霄以所谓跑题为理由，主张对草帽、老鹰等作者的作品打零分，公某是完全不能接受的。
没错，草帽的主题是一场万幸的大难不死，老鹰的主题是爷孙之间的天伦之乐。严格说来，这些都不能算完全切题“小确幸”。而纵观116篇作品，这种情况还有很多。
不分青红皂白，就对这些作品都打零分，不仅情理上站不住脚，这种处理也是鲁莽的、不明智的。

而按照公某的5项评分标准，这个问题仅限于第一项立意的打分。考虑到还有完美扣题的作品，其立意理应打满分2分。对于这类部分扣题的作品，公某根据不同情况，一般给1.5或1.0分。

楼主：公理力时间：2021-08-22 22:08:40

6）关于数字化评分标准

记得，当年，《我是歌手》节目在国内刚刚面世时，曾受到诸多诟病。不少评论者，包括一些名歌手，提出一个反对观点，歌手是不能比赛的。其基本理由是，歌手属于艺术工作者，而艺术品是不能用简单的比赛方式决定其高下的！

这个观点有没有道理？有。艺术品——包括声乐演唱，可谓人类认识对象中处于最高端、最复杂的那个集合。仅仅靠一组简单的分数决定其高下，尤显粗暴、简陋。难免给人糟蹋艺术的感觉。有不少人，特别是歌者中的大腕，对《我是歌手》这类节目有抵触情绪，也就完全可以理解。

但是，这种认识又有局限性。大而言之，人类文明发展史，特别是科技发展史，其一方面的实质，就是一个把种种不可行一步步变成可行的历程。例如，只能存在于古人幻想中的千里眼、顺风耳，与今天探索外太空的现实相比，早已属于“原始”技术。

即使在人工智能尚处于差强人意阶段的今天，所谓艺术品不可以靠数字决定其高下的观念，也已经开始落伍。

还是拿《我是歌手》这档综艺节目举例。对500位现场观众——相当于抽样，根据年龄化分为60、70、80、90、00等几大组别统计得票数，不仅能够提供某一首歌曲的演唱和歌手本人当下受欢迎程度信息，还可以提供在不同年龄段中的受众接受度。这就是一种比较科学的打分体系，尽管还有瑕疵。

回到这场征文活动上来，评委——可理解为不够理想的抽样，对征文作品进行独立打分，在代表不同读者口味的意义上，也是一种有一定科学性的评价模式。顺便说一句，在这个意义上，公开打分、评论从可能相互影响的角度看，并不可取。

至于公某进一步细化的5项打分标准——肯定有不完善之处，形式上只是把评价模式向数字化方向多走了一步而已。但就其实质而言，这已经属于AI技术的一个原始思路。

假如依靠AI技术，完全可以对一篇作品作更进一步的细化打分。例如，
——标点符号的正确性；
——字词正确性、精准度、新颖度等；
——句子的正确性、通顺度、易读性、简洁性、信息量，等等；
——采用类似的方式，还可以对段落、整篇文章进行各方面设定指标进行打分，就不继续举例罗列了。

而在这一思路上，还可以针对不同体裁的作品，设计出不同的评分体系和打分标准。甚至可以对同一体裁作品，设计不同风格与口味的打分标准，以满足不同评价需要，如70后们喜欢的文风、00后们偏爱的风格，等等。

AI未来的发展，必将把今天诸多不可行变成明天的可行。例如，人之大欲搞对象这事儿，你靠所谓的缘分、巧遇、意外、英雄救美、相亲、逼婚、既成事实等方式，情愿或半推半就地取得与另一半的上岗证，问题是，怎么知道你的选择有几分合理呢？你最合理的对象又是什么样的呢？

相信用不了多久，就会有AI恋爱顾问成果出现。只要让AI顾问记录下你足够多的个人信息——包括但不限于从人生观、价值观到捡到一毛钱是否交给警察叔叔，从喜欢卡姿兰大眼（其实我不懂这是啥眼）或挺拔的鼻梁到钟意8块腹肌或蛇精脸，从口味轻重、体型偏好到喜欢仰卧或侧睡（包括是否鼾声如雷），从是否偏爱红凉鞋配蓝袜子到能否忍受咖啡加奶油…… 只要让AI获取足够详尽的可靠信息，在可选范围内，就能精准选出当前最适合你的另一半——比你相亲一千回还靠谱。

当然，如果你迷恋段子，也可以使出浑身解数——但千万别违法，搜集她足够多公开或半公开信息——包括她说过的每一句话，然后交给AI顾问。它会告诉你，段子会对你含情脉脉，还是一脚把你踢出三丈开外……

最后，本楼无意试图说服你接受公某的“数字化评语”——你不满意很正常，更无意消除段子对公某之恨。俺只是纯属吃多了，消化消化。

楼主：公理力时间：2021-08-22 22:23:13

关于AI已经发展到了何种程度，机器人碾压国际象棋和围棋世界冠军、机器人跳舞、表演特技等例子已经不新鲜。这里再举一个与文字有关的例子。

可能很多人还没意识到，或许你已经读过AI机器人写得文章。包括《纽约时报》在内的一些国际大媒体，早在几年前就已开始“雇佣”机器人写文章。据称，AI更适合撰写某具体领域发展趋势类的文章。

想一下，机器人既然可以写文章，有什么理由不能评价文章？

天涯脱水

【评委费思量】几个具体问题

大家都在看

猜你喜欢

热门帖子