【评委费思量】几个具体问题

字数:5191访问原帖 评论数:115条评论 TXT下载

发表时间:2021-08-22 06:40:58 更新时间:2021-08-25 03:20:30

楼主:公理力  时间:2021-08-21 22:40:58
结束评选,公某便有些懒散。犹豫、拖延了这两日,看到版友仍在继续讨论相关问题,还是决定,就几个具体问题再扯一扯。
楼主:公理力  时间:2021-08-21 22:59:19
1)关于评奖结果

只要是评奖类活动,无论多么公正,有人欣喜,有人失落,都是不可避免的结局。何况,任何评选都无法做到绝对公平,除非评委不是人,而是足够先进的AI机器。

作为评委,对该结局总的感觉,是欣慰。

终于能够打破自己的预设“立场”,为鱼小溅的作品打满分,而该作品又恰恰获得一等奖,小确幸也。
颇欣慰的另一点是,14篇获奖作品中,公某看好的入选13篇,仅有一篇失误。这是一个比预想好很多的结局,禁不住也要为几位同仁点赞!

如果非要说意外,小鱼(费爷不悔)、小九、那江、风絮扬的作品也在本人评分表应获奖的17篇中(并列多位),此次落选算是小意外。但考虑到本人偏爱的作品已经有13篇获奖,有几篇不入选也就完全可以理解。毕竟,个人主观因素是不能否认的。
楼主:公理力  时间:2021-08-21 23:25:17
2)评委构成与风格

热情似乎永远燃不尽的小芳,日前曾发主帖提议,由她赞助再弄个评委奖。在回应花叶子关于评委打分准确性问题时,我随口说了一句:把每位评委给14篇获奖作品的打分与平均分相对比,统计14个分差之和,差距越小,意味着打分越准确。这是一个简单又客观的标准,可谓铁律。
没想到,临窗先生竟熬通宵给出一组系统、完成的数据分析!其认真负责的劲头,公某只能自愧弗如,倒是与青蛙版这一段的干劲交相辉映!
而临窗君的统计结果,一不小心,就让公某成了打分最准确的评委。这个结果是公某不曾想过的,当即撤销了对小芳提议的支持。

而公某真正想说的是,这次不同背景和风格的6位评委,在很大程度上,都是不可或缺的,尽管尽可能提高打分准确性,对每位评委都是需要的。
重点是,假如评委能够代表主要读者群体的口味,无疑是更理想的。而这一点,唯有不同口味与风格的评委构成才可能接近之。
至于有人诟病,评委都不是“实名认证”的文学专家,不考虑现实可行性,果真由一色的文学专家来评判网文,脱离实际的可能性只会更高。
一个基本事实是,最好的文学评论者不是作家,而是文艺评论家;最后的电影评论者也不是导演或演员,而是影评家。
这个问题一定会有不同观点,公某愿意听听大家的看法。
楼主:公理力  时间:2021-08-22 01:48:47
3)关于评委的打分标准
青蛙版曾把六位评委分为有标准的系统派(临窗、马花和公某)和无系统标准的直觉派(段子、秦老和叶子),这个划分大体反映实际。
公某之前就说过,平时看网文,完全按照自己的直觉来是肯定的。无论是喜欢,还是相反,大可抓住一点,不及其余。
但作为评委,首要的是公正性,这就很能靠直觉来保证,一个自洽的、系统性的评分标准就是体现公正性的必要手段。捅个大词儿,这就是科学方法的意义所在。

而两派打分的准确性,临窗君的数据分析结果已经一目了然(下表),为上述说法提供了最新证据。


注意到段子发了主帖,基本都是对这一结果的误解。在此,顺便简单回应一下。

段子:“将同一个评委对十四篇文章的评论误差加总在一起,那么这一做法本身就是暗示,存在一篇大文章同时融会了十四篇文章的优缺点,请问,请问始作俑者这篇大文章在哪里呢?"
不清楚段子是否没有起码的统计常识,你某门课试卷有14道题,14道题总得分或总失分的累加,反映你该课程考试成绩的优劣,但并不意味着这14道题必然是相关的。任何评委给14篇作品的打分偏差累加,仅反映该评委在这场征文评判中的准确性高下,不存在“同时融会了十四篇文章的优缺点”的一篇大文章,这点很难理解吗?

【只有明确说出什么是"道"来,"段干随性,叶子直觉,马花严格,秦川厚道,临窗中道,公理精准"才能有充实准确的含义。否则,空话耳。】
这里如果说有什么“道”,就是打分的准确性。充实准确的含义就是统计误差,这是客观存在。

【"段干随性",具体在什么地方偏离"道"?总不能像交警罚款说超速20%,却指不出何时何地超速,对不啦。】
呵呵,临窗的表格中已经列出:你被去掉的无效分是11个,累计误差19.8(每篇平均误差1.41),还提供了你每一篇的情况。这就比警察记录下你超速情况还具体。你还能怎么否认?

楼主:公理力  时间:2021-08-22 05:43:42
4)关于绿凌霄质疑评分标准

一般而言,对评委的工作和打分标准提出质疑,该是一件好事。但有理有据,有合适的度也是必要的。而一旦到了蛮不讲理,恣意纠缠,甚至臆测造谣的地步,事情就完全走向反面了。

在得知公某给她那篇游记打了7.5分后,绿凌霄扛起为众多作者谋福利的大旗,开启其正大光明的质疑之旅,这并未妨碍她承认对打分不满。之后更将矛头对准了同样没有给她打高分的马花和段子评委。

公某评分标准的第一项是“立意:扣题性、真善美”。她的第一项质疑是:“网络的审丑功能是高于审美功能的”,立意项中的真善美应该剔除!
在此,公某怯怯地问两个简单问题:
——116篇作品中有审丑文吗?为啥审美反而成了大忌?
——所有广受好评的作品中,有一篇能离开“真”吗?真为啥也成了禁忌?

绿凌霄又言:把“真”“善”“美”设置为评分点,这是窄化小确幸的范畴!
很遗憾,真善美的“容量”远比小确幸要大得多!说出前者“窄化”后者的话,属于概念范畴不清。头一个真字就是所有小确幸作品都该有的要素之一。

理屈词不穷的绿版友不得不改口称:真善美是大词,空洞,不适应“小确幸”这个主题!
不客气地讲,这是曲解真善美的肤浅理解。“真”是一个十分接地气的概念,更不空泛。惹人们日常一个简单行为,一句简单话语,甚至是一个简单表情,都可能存在真假之别。善与美也是同理。生活中,一个没有明显其它缺点的虚伪者也不受待见,而一个有缺点的真性情也会有不少朋友。公然反对真善美,往轻里说,也是不知道自己在说什么!

之后,绿版友仍不肯善罢甘休,又东扯西拉了另外几个问题,包括:“评分点为何没有内容的稀缺性和独创性?”
什么是独创性?在文字领域,首次提出躺平、高富帅、白富美这类新概念,可以认为有独创性。只要不是新创一种文体,任何特色鲜明的极品文章也不能算有独创性。绿版友竟然还说什么“文字上让人眼前一亮的话题”就是独创性,还是典型的概念不清。
而重点是,“小确幸”属于人们共通共情的经历与体验范畴,要把“稀缺性和独创性”作为标准,这是无厘头。原创性才是征文不言自明的最低要求,独创性远不是一篇“小确幸”这类主题所必需的。

实在找不出理由了,绿凌霄又开始指责评委对某些作品打分过低——标准当然是她的;尤其是对没有给草帽和老鹰等跑题作品打零分愤愤不平!她甚至没有意识到,这与她刻意打造的替“90%不得奖征文选手”代言者形象是矛盾的。
被指责者范围已不限于公某,也包括马花和段子评委。至于花叶子,是给她的游记打9分的评委,即使没有给草帽、老鹰等人打零分,当然也不在受指责者之列。

不能不提的是,这位义正词严的质疑者,最后的说法竟然是:“其实就是不要搞征文大赛,别去打分,就ok了。这样一来,评委失业,板油拥抱,不会有人想退坛了。踏浪也省下了1000元。”

哦,原来这位绿版友压根儿就反对搞征文活动呢!

可问题来了:那又该如何解释绿同学又是最积极的支持者和投稿者呢(作品排05号)?
只要你的作品能获奖,活动就没问题,大家都该积极支持。一旦你的作品没有机会获奖,那就整个活动都是错的!这样的逻辑与你的表现一点都不矛盾呢?
楼主:公理力  时间:2021-08-22 08:21:57
5)关于征文主题“小确幸”

已有多位评委和版友曾先后解读过这个源自日文的新概念。这些解读与辨析对于大家深化对这个舶来品的认识,无疑是必要的,有启发的。

而公某想强调的一点是,“小确幸”毕竟属于一个还相当新的概念,大家对这个概念的准确内涵和外延的把握,征文开始前,尚处于不甚了了的阶段,是一个基本事实。
而此次征文活动启动得又相当仓促。资助者沓浪先生提议一出,诗情的发令枪还没准备就绪呢,青蛙版和静山岚就一马当先出发啦!
版主组也就不可能有诸如“小确幸”主题题解、游戏规则制定、评分标准建立之类完善的准备工作。
在这种情况下,热情高涨的征文作者们,也包括胃口大开的评委段子女士,都是在并未明确“小确幸”概念的情况下就上场了。
作为评委,在评判一篇作品是否扣题的时候,也就不宜不考虑这一特殊情况。

立意在确定的小幸福感上是切题;理解为幸运的体验也不能说跑题;就是写出了万幸性质的大难不死,公某也 不认为应该视为完全跑题。

这种在立意一项上的宽容,完全是由这场征文特殊情况下的特别主题所决定的。没有更合理的万全之策。

鉴于此,对于绿凌霄以所谓跑题为理由,主张对草帽、老鹰等作者的作品打零分,公某是完全不能接受的。
没错,草帽的主题是一场万幸的大难不死,老鹰的主题是爷孙之间的天伦之乐。严格说来,这些都不能算完全切题“小确幸”。而纵观116篇作品,这种情况还有很多。
不分青红皂白,就对这些作品都打零分,不仅情理上站不住脚,这种处理也是鲁莽的、不明智的。

而按照公某的5项评分标准,这个问题仅限于第一项立意的打分。考虑到还有完美扣题的作品,其立意理应打满分2分。对于这类部分扣题的作品,公某根据不同情况,一般给1.5或1.0分。
楼主:公理力  时间:2021-08-22 22:08:40
6)关于数字化评分标准

记得,当年,《我是歌手》节目在国内刚刚面世时,曾受到诸多诟病。不少评论者,包括一些名歌手,提出一个反对观点,歌手是不能比赛的。其基本理由是,歌手属于艺术工作者,而艺术品是不能用简单的比赛方式决定其高下的!

这个观点有没有道理?有。艺术品——包括声乐演唱,可谓人类认识对象中处于最高端、最复杂的那个集合。仅仅靠一组简单的分数决定其高下,尤显粗暴、简陋。难免给人糟蹋艺术的感觉。有不少人,特别是歌者中的大腕,对《我是歌手》这类节目有抵触情绪,也就完全可以理解。

但是,这种认识又有局限性。大而言之,人类文明发展史,特别是科技发展史,其一方面的实质,就是一个把种种不可行一步步变成可行的历程。例如,只能存在于古人幻想中的千里眼、顺风耳,与今天探索外太空的现实相比,早已属于“原始”技术。

即使在人工智能尚处于差强人意阶段的今天,所谓艺术品不可以靠数字决定其高下的观念,也已经开始落伍。

还是拿《我是歌手》这档综艺节目举例。对500位现场观众——相当于抽样,根据年龄化分为60、70、80、90、00等几大组别统计得票数,不仅能够提供某一首歌曲的演唱和歌手本人当下受欢迎程度信息,还可以提供在不同年龄段中的受众接受度。这就是一种比较科学的打分体系,尽管还有瑕疵。

回到这场征文活动上来,评委——可理解为不够理想的抽样,对征文作品进行独立打分,在代表不同读者口味的意义上,也是一种有一定科学性的评价模式。顺便说一句,在这个意义上,公开打分、评论从可能相互影响的角度看,并不可取。

至于公某进一步细化的5项打分标准——肯定有不完善之处,形式上只是把评价模式向数字化方向多走了一步而已。但就其实质而言,这已经属于AI技术的一个原始思路。

假如依靠AI技术,完全可以对一篇作品作更进一步的细化打分。例如,
——标点符号的正确性;
——字词正确性、精准度、新颖度等;
——句子的正确性、通顺度、易读性、简洁性、信息量,等等;
——采用类似的方式,还可以对段落、整篇文章进行各方面设定指标进行打分,就不继续举例罗列了。

而在这一思路上,还可以针对不同体裁的作品,设计出不同的评分体系和打分标准。甚至可以对同一体裁作品,设计不同风格与口味的打分标准,以满足不同评价需要,如70后们喜欢的文风、00后们偏爱的风格,等等。

AI未来的发展,必将把今天诸多不可行变成明天的可行。例如,人之大欲搞对象这事儿,你靠所谓的缘分、巧遇、意外、英雄救美、相亲、逼婚、既成事实等方式,情愿或半推半就地取得与另一半的上岗证,问题是,怎么知道你的选择有几分合理呢?你最合理的对象又是什么样的呢?

相信用不了多久,就会有AI恋爱顾问成果出现。只要让AI顾问记录下你足够多的个人信息——包括但不限于从人生观、价值观到捡到一毛钱是否交给警察叔叔,从喜欢卡姿兰大眼(其实我不懂这是啥眼)或挺拔的鼻梁到钟意8块腹肌或蛇精脸,从口味轻重、体型偏好到喜欢仰卧或侧睡(包括是否鼾声如雷),从是否偏爱红凉鞋配蓝袜子到能否忍受咖啡加奶油…… 只要让AI获取足够详尽的可靠信息,在可选范围内,就能精准选出当前最适合你的另一半——比你相亲一千回还靠谱。

当然,如果你迷恋段子,也可以使出浑身解数——但千万别违法,搜集她足够多公开或半公开信息——包括她说过的每一句话,然后交给AI顾问。它会告诉你,段子会对你含情脉脉,还是一脚把你踢出三丈开外……

最后,本楼无意试图说服你接受公某的“数字化评语”——你不满意很正常,更无意消除段子对公某之恨。俺只是纯属吃多了,消化消化。










楼主:公理力  时间:2021-08-22 22:23:13
关于AI已经发展到了何种程度,机器人碾压国际象棋和围棋世界冠军、机器人跳舞、表演特技等例子已经不新鲜。这里再举一个与文字有关的例子。

可能很多人还没意识到,或许你已经读过AI机器人写得文章。包括《纽约时报》在内的一些国际大媒体,早在几年前就已开始“雇佣”机器人写文章。据称,AI更适合撰写某具体领域发展趋势类的文章。

想一下,机器人既然可以写文章,有什么理由不能评价文章?
TOP↑