本人关注、使用、参与编写百度百科有十多年了,我贡献的词条也很多。首先应当肯定,百度百科为网友检索、查询一些信息提供了极大的便利,而且绝大多数人在工作、生活中都有使用百度百科,搜索引擎也是使用百度的居多。作为使用者、参与编写者,我也明白百度百科的内容存在大量的错误(其实用海量也不为过),百度百科在词条收录、编辑方面也存在很多很多问题。
百度百科最大的优点可能还是方便,虽然错误信息很多,但有不少词条编写得确实不错。而且他在中文网络百科领域基本上一家独大,中文维基百科收录的词条相对而言比较少,很多词条内容比较简单,但在质量上确实要远胜于百度百科,两者可以互补。至于其他中文百科,做得实在太差,百度百科固然存在很多问题,但其他百科距离百度百科仍然差距很远。
简要谈一下,百度百科存在的几个明显不足:
- 词条滥而不精。百度百科目前有超过2500 0000个词条,并且日均增加词条在6000以上,有些时候甚至能达到8000。但当具体去看百度百科新增加的词条,至少有一半都是没有什么意义的词条,比如我们检索“杨帆”词条,数量高达258个。这是一个明显的人名词条,这258个人名(其实还存在重复的,百度百科有大量重复词条,这个后文再说)都有收录的价值吗?
百度百科这种泛滥的收录,毫无专业度和精度可言,纯粹追求一种量上的增加,就像一个大杂烩,什么都能往里放。
一个词条能创建的标准很简单,只要有相关报道,我举个简单的例子,有一条新闻:“被解职的三位大臣分别是教育大臣加文·威廉姆森,住房、社区与地方政府事务大臣罗伯特·詹里克和司法大臣罗伯特·巴克兰。”这一条新闻,至少可以创建三个词条:(1)加文·威廉姆森,原英国教育大臣。(2)罗伯特·詹里克,原英国住房、社区与地方政府事务大臣。(3)罗伯特·巴克兰,原英国司法大臣。词条内容基本上也就是这简单的一句话,而且极大可能未来这个词条也就是这么简单的一句话,百度百科超过2500 0000个词条中有很大一部分都是这样的“烂尾词条”,只追求词条的创建,词条创建之后完善与否,从此无人问津。作为一个人物词条,先不论一个人物是否值得收录,一个词条只有简单的一句话,这也能算词条?一个人物词条最起码得有人物生平吧。
百度百科词条数量能飞速增长,很大一个原因是收录了大量政府工作人员,在政府信息公开的情况下,各级政府网站都会有政府工作人员的介绍,有些政府工作人员可能只是一个普通的职员,也有很多只是一个普通的干部。收录公职人员,本身是没有问题的,但是不是应该有个基本标准,比如县、市最起码副处级以上,省级以上机关副厅级以上,这个标准真的不算高,维基百科厅级干部都很少收录。其他干部不是全部不予收录,对于有重大突出事迹,受过省部级以上表彰,担任过省级以上两代表一委员的,也可以予以收录。
还是以“杨帆”词条举例,258个词条中大量都是普通的政府工作人员,这样收录的结果同样是产生海量的“烂尾词条”,大量的词条内容都只有简单的一句话,而且可以预见绝大多数词条内容未来不会再进行完善补充。
政府工作人员职务一般隔一段时间是会变化的,百度百科的编写者并不知道两个看似担任不同职务的人其实是同一人,从而又产生了大量重复的“烂尾词条”。
……
举几个例子(不胜枚举),上述标红线的都是同一人,但百度百科的编辑者对此并不知情,或者知情而置若罔闻。
百度百科对词条收录无原则,“来者全收”,只创建词条,却不完善词条,最后就形成了海量的“烂尾词条”、“僵尸词条”,这些词条的数量占了很大的比例。
2.词条的版权问题。首先承认,确实百度百科确实形成了很多内容完善、质量上乘的词条(不然我也不会一直用它),但词条内容说实话就是东抄抄、西抄抄,东拼西凑,有些词条更过分,整篇词条的内容都是直接抄袭他人拥有著作权的内容,充分体现了百度百科过分追求数量而不重视质量的精神。百度百科目前有超过2500万词条,除去大量的“烂尾词条”外,在比较完善的词条中,能真正不存在著作权纠纷的不多,只是没有人或者机构主张权利罢了,百度百科本身是带有明显商业性质的。这一点维基百科就做得很好,维基百科不允许侵犯第三方知识产权,百度百科完全没有版权意识,各种或明或暗地剽窃。
3.词条编写太不专业。百度百科词条主要依靠网友编写,编写的网友水平参差不齐,词条质量自然难以保障。很多词条的内容相当混乱,感觉就是把一堆和词条有关或无关的信息堆在一起,而且是散乱无规则地随意堆放,反正只要有参考资料的信息就能添加,至于这个信息有没有添加的必要、添加完之后会对词条造成什么样的影响,并不考虑。很多词条的信息根本没有整合加工,在格式上也很混乱。
部分“蝌蚪团”、“繁星团”成员水平不敢恭维,百科理论上专业性应该是比较强的,但真的看不出来专业性,一些常识性错误也很多。当然这个要求其实是有点高了,因为百科业务真的不太赚钱,百度也抠门,编写词条也没有报酬,编写者大多是自愿、无私奉献,其实已经很了不起了。很多专家学者也不可能花时间去编写网络百科,没有那个时间和精力,做科研的人连看电视都是一种奢侈。很多特色词条确实编得不错,但是特色词条真的太少太少,另一方面,编写质量上乘的词条也确实花精力、花心思、花时间。
举一个例子,这个词条其实已经比较完善,但词条的“获奖记录”部分的混乱显而易见:(“烂尾词条”存在的问题太多,就不举例了)
4.医生词条编辑规则奇葩。百度百科要求,创建、编辑医生词条,都必须有国家卫健委网站的医生备案信息作为参考资料。但事实上,在国家卫健委网站上查询医生备案信息,得到的网址是一次性的,在地址栏中再次输入该网址,是打不开的,并且每次查询之后得到的网址都是不一样的。
比如,我在国家卫健委网站中查询一位医生的备案信息,该信息页面的网址为:http://zgcx.nhc.gov.cn:9090/Doctor/Details/026e4af44cf44dc39e1c2f0b622718bc-637843577131980102-864DB8789E4266B4F78D2C3F784770A4-0
当我们刷新这个页面,或者在地址栏中再次输入这个网址,或者直接访问这个链接,会得到这个页面,网址也会变为:http://zgcx.nhc.gov.cn:9090/Message/Notice
重新进行医生备案信息查询,又会得到新的不一样的网址,每次键入,都会得到新的网址,并且都是一次性的网址。这样的网址其实是没有任何意义的。但是百度百科就要求医生词条内必须有这样一个网址,不然在创建、编辑过程中就不会通过。
这样的要求本身就没有意义,再次展现了百度百科的不专业性。(百度一些特殊用户权限比较高,他们创建编写医生词条不受此限制,但这样的用户数量极少,可以忽略)其实我明白百度百科对医生词条编辑进行严格限制,是由于之前出过Wei Zexi这样的事件,但是也不能这样瞎制定规则,这种规则严重妨碍用户创建、编写医生词条。
5.词条编辑受到限制。这个有时也不能怪百度百科,因为百度也需要遵守有关相关政策规定,不然可能会被处罚。举两个简单的例子:(1)2021年院士增选,清华大学有5位学者(含外籍院士)当选两院院士,但是其中一位李姓院士的词条是无法创建的,究其原因,不作叙述。(2)“董建华”、“何厚铧”、“梁振英”这些词条原先内容挺完善的,现在因为某些原因改得非常简单。
百度百科官方也明白百科存在的一些问题,并对百科的审核机制进行了完善,但有些机制,不但没有解决原先的问题,反而加重了原先的问题。
大概是2021年10月左右,百度百科在词条审核中增加了一个机制:无法证明是同一人的参考资料,不能使用。这个机制乍看好像很有道理,有助于避免将两个同名人物的信息进行混淆。但事实上这一机制是有问题的,根据我多年的百科编辑经验,将一个同名的人的信息添加到另一个重名的人的词条中的情况确实有存在,但发生的情况极少,基本上是由于词条编辑者“智障”造成的。也就是说,只要词条编辑者稍微用点心,进行一下查证,都基本上可以避免这一现象的发生。即使发生了这一情况,也可以很容易地及时予以纠正。另外,百科的shengbu级以上ganbu词条是锁定的,由专人维护编辑,因此也不用担心可能发生政治事件。
但是,这一机制却带来了明显的负面影响。
这是我之前编辑过的一个词条,词条人物由新jiangba州ji委shuji调任zizhi区ji委changwei,我对词条进行了修改完善。但是百科要求我证明同名的ba州ji委shuji和zizhi区ji委changwei是同一人,实话说这个很难证明,甚至除了官方提供的完整履历(现在官方已经不再公布履历了),几乎无法证明。后来,半个多月之后,百科蝌蚪团的人修改了这一词条。修改成了下面这个鬼样子。
可能一般人看不出来,这个修改有什么问题。这个修改有很大的问题:1.词条人物已经不再担任ba州dang委changwei、ji委shuji、jian委zhuren职务了,官方的修改结果将这一信息仍然保留;2.词条人物的准确职务表达应该是zizhi区ji委changwei、jian委weiyuan(可以看下图zjw网站的权威表述),而不是什么第十jieji委changwei;3.词条人物担任zizhi区ji委changwei的时间也不是2021年10月。因此现有词条完全就是乱七八糟。
这一机制导致的一个严重的后果就是原有词条难以完善,特别是海量的“烂尾词条”,我想给它更正完善,也无能为力,因为机制不允许我这么做。同时,又产生了大量重复的“烂尾词条”。比如,我上述举例的重复的“烂尾词条”,明明知道两个词条是同一人,却无法将两个词条合并到同一个词条中,我也有向官方提合并词条的建议,但是得到的回复,同样是需要我提供两个词条是同一人的证明。这也意味着这一机制使得“烂尾词条”无法完善,并且会产生新的重复的“烂尾词条”,错误迭出。
所以百科的这一机制,不仅没有解决原先的问题,反而使原有问题更加严重。百科其实完全可以调整一下思路,首先赶紧取消要求编辑者举证证明两个同名人物为同一人的机制,仅仅对于在同一个人物词条中出现明显并非该人物词条的信息进行修改即可。这么做主要还是基于百科词条的实际情况,因为百度百科本身并非专业权威的百科全书,不是大辞海,也不是大百科全书,按目前的情况,也不可能成为专业的百科全书,因为百度百科本身不具备专业的编辑团队,编辑过程本身就很业余、机械,专业的百科怎么可能出现一个人名词条有258个同名人物,也不可能出现大量“烂尾词条”,还有很多是重复的。
百度百科虽然有这样那样的糟点,但它确实也为广大网友提供了知识检索普及方面的便利,节约了很多获取信息的时间。因为对于很多信息,绝大部分人并不需要做细致专业的研究,只需要了解一个大致情况即可,真正需要做专业研究的,百度百科显然也不是他的参考文献。而且,这么多年来,也能看到百度有希望做好百科的想法,百度做了很多事情在努力地提升百科的质量,不过实话说现在还是一地鸡毛,问题还是很多。希望百度能够虚心学习、反思,完善百度百科的编辑、收录机制,组建专业的编写团队,能有做好百科的意愿和行动。
2022.03.31 更新
百度百科还缺乏对参考资料的原始内容存档或者永久失效链接。佐证词条信息的参考资料随时是可能失效的,一旦参考资料失效又没有存档,词条的相关信息就会陷入无参考资料佐证的情况。参考资料失效确实有可能是因为参考资料错误,参考资料的提供者将其删除,但更多情况是因为非参考资料本身信息错误的其他因素致使参考资料失效,这会致使有价值信息缺失。
我举个例子说明,有这样一个词条,目前已经因为参考资料失效被删除。
这个词条本身其实较为完善,并且有一定收录价值,论质量和价值要高于百度百科一半以上的词条。但百度百科宁可创建保留一堆“烂尾词条”“僵尸词条”,也不允许一个参考资料失效的词条存在。词条中的信息是有参考资料佐证的,但是在近期参考资料失效了,词条就被百度百科以“没有权威来源佐证词条内容,已不符合百科现行规则”为由删除了。(特别声明,对于以侵犯公民个人隐私为由删除词条,我是绝对支持的。如果有词条主体认为自己信息被百度百科收录,有侵犯隐私可能,是可以向百度百科申请删除词条的)但如果仅是百度百科没有对参考资料进行存档,致使参考资料失效,并以此为由删除词条,这肯定是不妥的。
但也存在例外情形,比如我前文所提的“烂尾词条”“僵尸词条”,词条内容极不完善,词条人物无收录价值,此类情形词条本身就无收录必要,无论有无有效参考资料佐证,均可予以删除。
再举个例子,以下是另一个前后的两个版本。
这是该词条2021-12-06 09:23的版本。
这是该词条2022-01-21 16:26的版本。
明眼人都能发现,词条内容被大幅度删减,原先的优质词条,被删改得十分简单。至于删改理由,“报道失效了,要根据中国政治大学的官网介绍”,这理由不知大家如何理解。我是挺困惑的。
p.s. 内地没有中国政治大学,只有中国政法大学。