搜索引擎和网站的目录结构
发布时间: 2006-11-14 00:00:00

对一个网站来说,搜索引擎是否会检索其子目录下的网页?譬如对于,搜索引擎是否会索引?敷衍了事的答案是“会”。对一个站点中包含的子目录,只要链向该层子目录的链接提供有搜索引擎能够跟进的导航配置和URL结构,那么所有的搜索引擎都会对子目录提供遍历。网络目录结构 理想情况下,尤其对于一个规模比较小的站点来说,其目录结构应该是单一的(flat),即对实际的网页不存在或只有一层子目录。而对规模大一些的站点来说,两到三层子目录是最理想的。从搜索引擎的角度看,一个单一的目录结构为最佳。图形、脚本、CGI-BIN和样式表除外。它们应被放入子目录中而不是根目录下。


  URL结构同时向搜索引擎和你的访问者清晰地表明了在你的网站中,你认为哪些网页是最重要的。换言之,如果你觉得有一个页面是非常重要的,则该网页的URL就应使用顶级URL而不应将其放在子目录下。
  顶级网页的URL结构一般如下所示:
  

  含一层子目录的URL结构一般为:
 
 其中:chinahtml.com是域名,archives一级子目录名,000063.html是网页名。
  含两层子目录的URL的结构一般为:
  
其中:wuyue.cn是域名,curtain是一级子目录名,2是二级子目录名,product1.html是二级子目录下网页名,等等,依此类推。


  在对一个网站的检索中,只要你的网站提供有搜索引擎能够跟进的导航配置和URL结构,则搜索引擎通常会遍历至少三层子目录。不过,比子目录的层次数更为重要的一点却是:在你的子目录下是否有来自其它网站的外部链接。假如你的网站有第四层目录,且在该目录下提供了非常重要的内容,同时又包含了大量的外部链接,那么你尽可以放心,搜索引擎照样会对你的这个第四层目录进行检索的。
搜索引擎营销的小伎俩


  在搜索引擎的营销中,有很多搜索引擎营销商都喜欢使用这样一个小伎俩:由于他们知道搜索引擎会自动检索多层子目录,于是他们就有意用复合关键词/短语专门创建一个子目录,以确保搜索引擎能够看到这个目标关键词。但在我看来,这种伎俩其实不会有什么实际的效果,因而并不可取。
  例如,一个销售有机茶的公司,如果使用以上策略,则可能有如下的URL和目录结构:
  
  其中:
  1. tranquiliteasorganic.com是域名。
2. Oolong-tea是一级子目录名,在其域名中包含了关键词“oolong tea”,以连字符分开。
  3. Oolong.html是二级目录下的网页名。
  对使用了子目录的URL结构
和顶级URL ,哪一种要更好呢?对我来说,我是不会纯粹为了能够在搜索引擎中取得好排名而去更改子目录结构的。原因就在于在域名或URL中使用关键词这个办法或者压根不重要,或者效果微乎其微。


  我的答案要取决于这是一个什么样的网站。如果有机乌龙茶有很多种,而且这个网站提供了相当数量的关于乌龙茶的内容独特和质量高的网页,那么我推荐使用子目录结构。同样,为了保证网站的一致性和易用性,我还希望他们能够为提供的所有类型的茶都设立子目录。可是既然我很难相信会有大量关于乌龙茶的内容独特和质量高的网页,因而我怀疑这个子目录是否有必要。
使用Robots Exclusion Protocol协议(拒绝Robots访问协议)
  在一个用数据库驱动的网站上,在不同子目录中放入类似或完全相同的内容是颇为普遍的,因为这样可以提高用户体验。
  我们再以上面的那个茶叶站点为例,假设该站点对每种茶叶都设立了不同子目录,并提供有大量内容独特和高质量的网页,那么对乌龙茶(oolong tea),绿茶(green tea)和茶具这三者,它们的URL结构分别如下:
  1. 乌龙茶页:
  2. 绿茶页:

  3. 茶具页:


  如果该网站亦提供有散装的乌龙茶和绿茶,那么对于该网站下一个关于泡茶茶具的网页,将其放入乌龙茶,绿茶和茶具子目录这三个目录下也是合乎逻辑的。从易用性和用户体验的角度来看,这不失为一个好策略。然而对于搜索引擎来说,它们却往往把这样的内容视为冗余内容。搜索引擎不喜欢比较多数据库驱动的站点的一个原因就是,它们常常一次又一次地得到相同的内容。
  因而,如果泡茶茶具这个网页在上述三个一级子目录中都存在,搜索引擎是否会认为这是冗余内容,而且可能因为这个站点提供这样的内容而处罚它呢?最有可能发生的是,搜索引擎只显示该网站上包含很多链入链接的那个网页,而不会显示网站上的其它网页。


  同时,也有很多缺乏职业道德的搜索引擎营销商过分使用该策略,对完全相同的信息生成大量冗余内容。因而极有可能被搜索引擎认为是SPAM而受到处罚。
  为了使网站百分百的安全,你可以在网站的冗余内容中放入一个纯文本文件robots.txt(Robots Exclusion Protocol),在这个文件中声明该网站中不想被robot访问的部分,这样就可以限定搜索引擎对你网站的检索范围。不过,你还需要对站点的统计数据进行仔细的分析,看看哪个子目录是最常用到的,对这样的子目录可不要放robots.txt文件哦。


  在上述情形下,使用robots.txt文件解决了两个问题。首先,它向搜索引擎传达了你并非故意传输冗余内容。其次,由于相关的容在适当的子目录下仍然有效,所以对用户体验并无负面影响。
结论:
  一般来讲,搜索引擎在对子目录的检索上不存在问题。如果你发现把你的网站划分为子目录结构能够为用户提供更好的用户体验,那么你尽可以这么做。但是不要只是为了引起搜索引擎的注意而创建子目录。有许多策略都能够达到这样的目的,它们不但无需花费你很多时间,而且还会给你的网站带来比较好的投资回报(ROI)。


  这个用户提出的问题引出了在搜索引擎业界中引发激烈争论的问题:一个网站何时使用子目录(subdirectories),子域(subdomains)或迷你网站(mini-sites)最合适?网站业主是否应利用目标关键短语创建自己网站的URL?是否子目录的名称中应包含关键短语?那又是后话了。



[返回上一级]

一站式服务