![]() | 本页為操作指南,用於介紹中文维基百科社群的一些实现和操作方式。 本文只是論述,不屬於方針或指引。如果本指南與方針或指引起衝突或不一致,請以方針或指引的條文為準。 |
![]() | 本頁簡而言之:
|
在维基百科,搜索引擎测试包括Google和其他任何搜索引擎。通过这个方法,部分种类的信息能够被准确地收集。但值得强调的是,所有的搜索引擎,都不能得到确凿的答案,而只是简单的初级启发或经验推导。
网页搜索并不是搜索引擎的全部。进行某项搜索引擎测试的时候,试着搜索Groups(Usenet)。这是一个迥然不同的例子表示。
尽管维基不是一个网页目录,但是我们收集那些满足维基收录条件的关于网站的文章。
如果你有兴趣撰写一篇关于某个特定网站的维基文章,不如在Alexa(http://www.alexa.com),查一下这个网站是否足够重要。多数人认同维基应该收录前100名的网站,当然也可能是前1000名。但是对于甚至没有在前100000名的网站,一般认为我们将很难认证相关文章的准确性而不能收录在维基之中。但是,这个中间的灰色区域则很难达成一致意见。
对于有些在前1000名内的网站(如microsoft.com),有必要对其指向进行一些调整,如Microsoft。(目前仍略有争议)
我们也注意到,因为各种原因的影响,alexa排行也有很大的争议。例如,alexa软件仅对Microsoft Windows操作系统和微软Internet Explorer的用户有效。所以,例如专门针对Apple Macintosh的相关主题可能将无法进行能够精确反映其流量的排名。反之,有些网站管理者仅仅为了提升他们的网站排名便安装Alexa工具条,然后自己访问自己的网站。Alexa工具栏用户基数非常小,对于单个用户频繁不断的访问将对整个结果产生明显的影响。
参见這裡以获得更多关于web comics的信息。
当使用搜索引擎来测试重要性或存在性的时候,请牢记偏见的可能,即这个工具倾向于偏向发达国家有互联网接入条件的人群的当代的标题,所以测试者必须有一定的判断能力。比如,一个美国当代流行乐坛的音乐组合也许需要几千个来自搜索引擎的点击才能够被大部分维基人认为值得包括,而另一个没有太多互联网接入的国家的相同重要的组合就需要少得多的点击数。而14世纪的大音乐家也许根本从搜索引擎上查询不到。
Q. 当我要测试一个条目时,我应该看多少个搜索结果?(3个?27个?81个?)
A.也许有上百个!这决定于以下因素:
更长远的判断: 搜索引擎测试查到的是 流行度,而不是正确性。比如,一个不正确的搜索 en:Charles Windsor 得到了比正确的搜索en:Charles Mountbatten-Windsor多10倍的结果。
而且,有的话题可能不存在于互联网上,这可能是因为文化因素或者某些地区互联网的低普及率。
很多(也可能是大部分)公开的网页并未被索引。每个搜索引擎都会捕捉不同的部分。没有人可以准确说出哪一部分被捕捉。
万维网的大小估计至少有20亿个页面,但是更深(同时更广)的网页预计会超过5千亿,因为搜索引擎不会索引数据库中的内容。这些“动态的”页面当用户请求时由网络服务器生成,因而不会被传统的搜索引擎索引。美国专利及商标局网站就是一个例子;虽然搜索引擎可以找到它的主页,用户也只能通过输入请求以搜索个人专利的数据库。