让您的404页面更有用



原文:Make your 404 pages more useful
发表于:2008年8月19日星期二,上午10:13

网站的访问者会由于多种原因在访问您的网站时碰到404“网页不存在”的情况:
  • 输错了网址,或者复制粘贴网址时出错
  • 所点击的网页上或者email信息里的链接已经失效或不完整
  • 该网页的内容已经被移动或删除

在碰到404页面时,访问者可能会尝试手动纠正这个错误的网址,或者点击返回按钮,甚至会直接离开您的网站。正如较早前发表在“网站管理员中心404专题周”的一篇文章中提到的,您可以采取多种方法帮助网站访问者走出这个死胡同。为了将404页面变得更加有用,我们刚刚在网站管理员工具里添加了“增强型404页面”工具。如果您已经创建了一个自定义404页面,此功能允许您在404页面嵌入一个小工具。这个小工具可以基于错误的网址提供建议,从而帮助访问者找到他们想找的东西。


举例来说:Jamie在email里收到这样一个链接www.example.com/activities/adventurecruise.html。由于email客户端的格式问题,这个网址被删减成www.example.com/activites/adventur。所以,一个404页面就自然而然地出现了。然而,在嵌入这个404小工具后,她就可以看到如下信息:


除了试着纠正错误网址以外,这个404小工具还提供下面的建议(如果可用的话):
  • 一个指向上一级子目录的链接
  • 一个网站地图页面
  • 网站查询的建议和搜索框

那么您怎么才能添加这个小工具呢?请访问网站管理员工具的“工具”板块,其中的“增强型404页面”工具,可以让您生成一段JavaScript代码片段。您可以将其复制粘贴到您的自定义404页面的代码里。当然,请不要忘记返回正确的404状态码

我可以改变它的外观吗?当然可以。我们在初始状态下没有对HTML页面进行任何修饰,但是我们已经将CSS代码部分包括进来,您可以对其进行编辑。想要了解更多这方面的信息,请查阅更改自定义404小工具的外观的帮助文章

此功能目前处于实验阶段,我们可能无法为您的网站提供更多改善的建议,但我们会努力提高覆盖面。与此同时,欢迎您在文末的评论栏或者网站管理员支持论坛里发表您的看法。感谢您帮助我们使Internet变得更友好更便捷!

(译者注:本文译自英文网站管理员博客,所以所有图示均采用英文原图,文中提到的小工具已有中文版本,欢迎您注册谷歌网站管理员工具并使用“增强型 404 页面”小工具! )

标签: ,



再谈404状态代码



原文:More on 404
发表于:2008年8月15日星期五,下午2:52

既然我们已经跟软404代码说再见了,作为404代码专题周的继续,本文将继续回答一些与
404状态代码相关的比较迫切的问题。

你们如何处理
410已删除”状态代码?
404代码的处理相同。

对于返回
404状态代码的网页,你们是否对网页的内容进行收录或者抓取上面的链接呢?
我们会尽可能地去了解您的网站及其内容。所以,尽管我们不想在搜索结果里向用户展示返回
404状态代码的页面,但是我们可以把该页面上的内容或者链接(如果能探测到的话)作为一个线索来帮助我们更好地了解您的网站。

同时,请记住如果您想让您的链接和内容被有效抓取和收录的话,将这些链接和内容放在一个非
404页面上会更有益处。

如果返回
404状态代码,然后使用meta refresh 10秒后进行页面刷新呢?
Yahoo!公司现在对于他们的404页面使用这种方法进行处理。他们返回404代码,同时其页面内容也包括:


<meta http-equiv="refresh" content="10;url=http://www.yahoo.com/?xxx">


我们赞同此项技术,因为这样做可以减少对用户的困扰,用户有
10秒钟时间来做一个新的选择,如果在此期间用户没有任何输入,10秒钟结束后页面就会自动跳转到主页。

我应该将网址拼写错误导致的
404页面使用301永久重定向到正确的网址吗?
如果重定向
/301重定向返回404代码的页面对用户有帮助(比如,不像软404代码那样让人困惑),那么这样做就是一个不错的主意。举个例子,如果您看到您的网站管理员工具的抓取错误栏里显示了一个对于拼写错误的网址返回404抓取错误,您就可以将此拼写错误的网址301重定向到正确的网址。

比如,如果我们在抓取错误里看到这样一个
404错误:

http://www.google.com/webmsters
<-- webmasters拼写错误

如果网站真的存在这个拼写错误的网址的话,我们可以首先纠正它,然后使用
301将其永久重定向到正确的网址(因为这个无效链接可能在其它网站也存在):

http://www.google.com/webmasters


你们有没有见过一些好的
404页面?
是的,我们见过!(坦白地说:从来没有人问过我们这个问题,但是没有几个问题能像讨论响应代码这么有趣。
:))这里我们把一些我们比较喜欢的404页面收集起来,以飨读者。如果您还有更多404相关的问题,请告诉我们。同时,谢谢您参与“404代码专题周”活动!

http://www.metrokitchen.com/nice-404-page
“如果您找的东西没有存货了(像我一样),这个页面可以很容易让您找到替代品。

-
Riona, 国货粉丝

http://www.comedycentral.com/another-404
要怪就怪搜索引擎机器人吧。
-Reid, 爱好讲冷笑话

http://www.splicemusic.com/and-another
“这样的404页面可以吸引用户在您的网站上停留更长的时间。”
-Susan, 音乐和分析方面的业余爱好者

http://www.treachery.net/wow-more-404s
“这个页面虽然看上去肯定不是真的,但是它传达的信息很明确。”
-Jonathan, 曾经训练蜘蛛去创建网站,训练蚂蚁去处理404错误

http://www.apple.com/iPhone4g
“从可用性的角度来说非常好。”

http://thcnet.net/lost-in-a-forest
“至少还有一个信箱吧。”
-JohnMu, 爱好冒险

http://lookitsme.co.uk/404
“这个看起来非常可爱。:)
-Jessica, 喜欢一切可爱的事物

http://www.orangecoat.com/a-404-page.html
“流程图引领您找到正确的方向。”
-Sahala, 互联网漫步者

http://icanhascheezburger.com/iz-404-page
“如果有问题的话,我可以使用有用的链接或者e-mail地址。但是他们如果能够加上‘噢,此页面不存在!您或许打错了网址,或者此链接无效?’,这样大家就可以知道发生了什么。”
-Adam, 摇摆舞爱好者

标签: ,



跟软404代码说再见



原文: Farewell to soft 404s
发表于: 2008年8月12日星期二,下午2:54

在网络上,我们可以看到两种404文件无法找到)响应代码:"404代码""404代码"。我们不鼓励使用所谓的"404代码",因为它们可能会对用户和搜索引擎造成困惑。对一个不存在的URL,那些提供"404代码"的网站不是返回一个404响应代码,而是返回一个200响应代码。然而,伴随这种200响应代码的内容通常是该网站的首页或者是一个错误信息的页面。


一个软404代码的用户体验是怎样的呢?这里有一个软404代码的模型:这个网站对一个不存在的URL返回一个200相应代码以及这个网站的首页。



如上图所示,软404代码会给用户带来困惑,而且搜索引擎也会花很多时间在您的网站上爬行和索引一些并不存在、而且经常重复的URL。这会给您网站的索引覆盖率造成负面影响——由于谷歌机器人被这种代码误导并花了大量时间爬行一些并不存在的网页,您的一部分含有独特内容的网页反而有可能无法被及时发现,或者不能被经常性访问。


如果不返回一个软404代码,我应当怎么做呢?
更好的做法是返回一个404响应代码,而且向用户清晰地说明这个文件无法找到。这样做将使搜索引擎和用户都得到更愉快的体验。


返回404响应代码



向用户返回更明确的信息



我的服务器可以返回404代码,但同时向用户发送一个有帮助意义的"无法找到"的消息么?
当然可以做到!在今后的"404专题周"里您可以看到更多相关信息!

标签: ,



网站管理员中心404代码专题周

It's 404 week at Webmaster Central
近期我们将发表一系列博客,帮助您正确使用
404响应代码。

响应代码是网络服务器在响应一个URL的浏览请求时返回的数字形式的状态代码(比如200代表“成功”,301代表“永久移动”)。如果请求的某一文件“无法找到”,那么服务器端将返回一个404响应代码。

当用户对您的网页发送请求时,您的服务器就会搜索这个
URL所对应的文件。如果这个文件存在,您的服务器就会返回一个200状态代码以及相应信息(通常就是这个网页的内容,比如该页的HTML代码)。
200 response code flow chart

那么什么是404呢?以图示中的指向“Visit Google Apps”的链接为例,由于在进行编码时出现了拼写错误,这个链接失效了。如果有用户点击”Visit Google Apps”,这个特定的网页(文件)无法被服务器正确定位。这时,服务器将会返回一个404响应代码,表示“无法找到”。


404 response code flow chart

现在我们了解了404代码的基本知识,欢迎您继续关注近期即将推出的更多关于“如何使用对用户和搜索引擎都友好的404代码”的相关信息。

标签: ,



怎样建立一个多语种的网站

Charlene Perez, Juliane Stiller

原文:How to start a multilingual site
发表于:2008年8月7日星期四,上午9:50

您考虑过使用不同语种建立一个或多个网站么?比如说您想做一个关于在欧洲背包旅行的旅游网站,而且您想把自己的内容提供给使用英语、德语和西班牙语的访问者。您或许希望把网站结构、地理和语言定位以及内容组织等方面都考虑进来,下文就将为您一一介绍。


网站结构

您首先需要考虑的就是: 是否需要为您想开展业务的所有有关国家购买针对各个国家的顶级域名
(TLD)。如果回答是肯定的话,您的域名可以选择ilovebackpacking.co.uk,ichlieberucksackreisen.deirdemochilero.es.es。如果您想把自己的网站定位在与每个顶级域名相对应的国家的话,您可以选择这种被称为地理定位的方式,在这种情况下,地理定位的方式对您是有利的。地理定位是与语言定位不同的,关于语言定位我们稍后会专门介绍。打个比方说,您的德语内容是专门为德国用户设计的,而不适合于来自奥地利或瑞士的讲德语的访问者。在这种情况下,您应该注册一个.de顶级域名。德国用户会把这个域名看作是本土的域名,从而更加信赖这个域名。另一方面,地理定位也有些不尽人意之处,比如专门买特定国家对应的域名可能花费不菲,而且更新和维护也颇费精力。所以,如果您的时间和资源有限,您可以考虑买一个非特定国家的域名,用它来涵盖您网站的各种语言版本。在这种情况下,我们建议您考虑以下两种选择:

  1. 把各种语言的内容分别放在不同的子域名下。我们上文提到的例子,可以对应使用:en.example.comde.example.com es.example.com
  2. 把各种语言的内容分别放在不同的子目录下。这种方式较便于内容的更新与维护。我们上文提到的例子,可以对应使用:example.com/en/example.com/de/ example.com/es/
Matt Cutts曾经写过一篇很好的关于子目录和子域名的文章,或许能够帮助您做出选择。

地理定位
vs
语言定位
如上所述,如果您的内容专门针对世界上的某一特定区域的话,您可以在网站管理员工具中设定目标地理区域。通过这个工具,您可以为自己不同的子目录和子域名设置不同的目标地理区域(比如说,
/de/针对德国访问者)。如果您想把自己的内容传达给遍布世界各国的所有讲这种语言的用户,您或许不想把自己的网站局限在某一特定区域,那么您可以使用语言定位方式,在这种情况下,您就不必使用地理定位设定工具了。

内容组织

在不同语种中出现的相同内容不会被认为是重复内容,只要您确保内容井然有序就可以了。如果您按照上文中网站结构的建议组织自己的网站的话,那么这一点您大可放心。请避免在每一页中交错使用多种语言,因为这样做不但会让
Google机器人困惑,也会使访问者不明所以。所以,请您尽量保持每一页的导航栏和内容都使用同一种语言。

如果您想查看您网站中有多少页是被认定为某种特定语言的网页,您可以进行基于指定语种的网站搜索(site search)。举例来说,您可以到google.de google.com 做一下网站搜索(site:google.com),选择如下图所示的选项您就可以只展示那些属于德语的搜索结果。

如果您对这一话题有其他疑问的话,欢迎您加入谷歌网站管理员支持论坛得到更多的帮助。

标签: , ,



利用数据与网络垃圾作斗争



原文:Using data to fight webspam
发表于:2008年6月27日星期三 下午4:51

这篇博客是讲述我们如何利用所收集的数据来改善我们的产品和服务系列文章中的最新一篇

作为谷歌反网络垃圾小组的负责人,我的职责是确保您得到的搜索结果尽可能的相关与翔实。也许您没有听说过网络垃圾,
网络垃圾就是搜索结果中的垃圾结果,这些垃圾结果要么狡猾地骗取了搜索结果中较高的排名位置,要么违反了搜索引擎质量指南。如果您从来没有见过网络垃圾,下面是一个很好的例子:如果您在搜索结果中点击了这样一个垃圾链接,就可能会看到以下画面(点击可浏览大图)。



您可以看到,这是一个没有任何价值的网页。这个例子中的网页几乎没有任何原创内容,还充斥着大量无关链接以及对用户没有多大用处的信息。我们努力确保您不会看到这样的搜索结果。可以想象,如果您点击了一个谷歌搜索结果的链接却最终看到了这类网页会是多么的不愉快。

现在,搜索用户并不会经常在搜索结果中看到这样露骨的、纯粹的网络垃圾。但是,早在谷歌普及之前,在我们找到有效的反网络垃圾的方法之前,网络垃圾就已经是一个大问题了。一般而言,网络垃圾真的令人非常恼火,例如您搜索自己的名字,返回结果的链接却指向了色情网页。而对于许多非常注重获得相关性信息的搜索来说,网络垃圾成了一个严重的问题。例如,一个关于前列腺癌的搜索,获得的结果却充斥着网络垃圾而不是相关信息的链接,这会大大削弱搜索引擎作为一种有用工具的价值。

来自搜索日志的数据是我们用来与网络垃圾作斗争,力求返回更纯净、更相关的搜索结果的一种工具。
IP地址和cookie信息等日志数据,使建立和使用指标系统、从不同方面衡量我们的搜索质量(例如索引的规模和覆盖范围、结果的"新鲜"程度,垃圾链接的数量等)成为可能。

每当我们创建新的衡量指标时,很重要的一点是能够审阅我们的日志数据,并利用先前的查询或搜索结果生成衡量网络垃圾的新的指标。我们使用搜索日志实现
"时间回溯",看看谷歌几个月来在用户查询方面改进了多少。当我们建立了一个新的指标能够更加精准地衡量一种新型的网络垃圾时,我们不仅可以跟踪今后我们阻击这种网络垃圾的进展情况,更可以使用日志数据分析我们在几个月前甚至几年前对同一类型网络垃圾的处理效果。

IP
cookie信息非常重要,它们能帮助我们把这种方法的应用范围仅限于"合法"的用户搜索,而不是那些由机器产生的搜索以及其他虚假搜索。举例来说,如果一个自动程序一遍又一遍地将相同的查询发送至谷歌,那么在我们衡量用户看到了多少网络垃圾之前,就应把这些搜索查询剔除出去。所有这一切——日志数据、IP地址和cookie信息——都会让您得到的搜索结果更纯净、更相关。

如果您认为网络垃圾已经不再成为一个问题了,请再仔细想想吧。去年,谷歌的索引体系遭遇了来自
.cn顶级域名的网络垃圾的疯狂攻击。一些网络垃圾制造者大量购买廉价的.cn域名,并在这些网站上堆满故意拼错的词汇和色情词汇。资深的用户可能还记得曾经读过几篇与此相关的博客,但绝大多数普通用户甚至可能从来没有注意到这些。普通的搜索用户没有注意到这些异常搜索结果的原因,是因为谷歌及时识别出了这些.cn网络垃圾,并通过一个快速跟踪项目,很好地应对了此类网络垃圾的攻击。如果没有日志数据帮助我们识别问题发生的速度和范围,可能会有更多的谷歌用户受到此类攻击的影响。

理想的情况是,绝大多数用户甚至不需要知道谷歌有这样一个反网络垃圾小组。如果我们的工作做得很出色,您可能偶尔会看到质量不高的搜索结果,但您无需面对恶意的
JavaScript重定向、令人反感的色情内容、充斥着无意义内容的页面或其他类型的网络垃圾。我们的日志数据有助于确保我们追踪到网络垃圾的新动向,并且在它们影响您的搜索体验之前采取相应的行动。

标签: , ,



Matt Cutts谈搜索引擎排名、网络垃圾和搜索的未来



原文: Matt Cutts on ranking, spam and the future of search
发表于:2008年7月18日星期五,上午8: 36

在最近一次访问Mountain View Google总部的时候,我代表德语网站管理员博客对Matt Cutts做了一次采访。沐浴在加州明媚的阳光中,我们聊起了搜索引擎排名、网站管理员可利用的资源和Matt与网络垃圾的第一次接触等话题。我想这些话题可能不仅德国读者会感兴趣,正在阅读博客的您或许也会感兴趣,所以在这里将访谈的视频与您分享。看了这个视频,您或许能够体会到这位首席反网络垃圾工程师是怎样艰难而又执着地履行他的职责的 :)


译者:以下是Matt对这次采访问题的回答摘要(译自上述视频)

Q:你还记得第一次与网络垃圾接触的情形是怎样的?
A:我第一次接触到的网络垃圾是一个色情网站。在我们的印象中,如果一个网站有较高的Page Rank,它应该是一个比较好的网站。可是我遇到的这个色情网站,却有着很好的反向链接结构和很高的Page Rank,这使我第一次意识到原来网络垃圾制造者们是可以通过一些不正当方式针对任何搜索引擎提高自己的搜索排名的。由于第一次接触的网络垃圾就是一个色情网站,所以我印象深刻。

Q:你认为在未来的五年内,搜索引擎面对的最大挑战是什么?
A:搜索引擎面临着很多挑战,其中一个很大的挑战恐怕是人们对搜索引擎的期望越来越高。Udi ManberGoogle的一位工程事务副总裁,曾经对此做出了很有趣的总结:几年前对我们来说是很难的那部分搜索查询,如今看起来已经不那么难了,因为我们对搜索查询的理解和处理能力有了很大的提升。但是与之相对应的是,用户对搜索引擎的期望也越来越高,他们不断提出难度越来越高的搜索查询。虽然我们的处理能力在不断进步,但是要不断满足用户日益提高的检索要求,挑战性还是很大的。

Q:中小网站的网站管理员怎样才能与互联网市场中的大型网站相抗衡?
A:在中小网站成立的初期,他们通常是很难与那些大型网站直接竞争的。在这种情况下,他们或许可以更精确地为网站定位。打个比方说,或许我不能制造所有种类的鞋子,但是或许我可以专门为那些脚型特别大的人制造鞋子。当您逐渐成为某一专门领域的专家和领导者后,那么您就可以逐步扩展自己的事业了。另外,作为中小网站,可以充分发挥自己富有创造性和决策迅速灵活的特点。这是中小网站与大网站相比,最具有优势的地方。中小网站可以积极尝试各种新的技术和经营形式,如果它们可行,就要果断地执行,或许不久您就会发现自己已经成为这一领域的权威来源了。

Q:每一个网站管理员都应该知道的是….
A网站管理员中心!这或许带有一点个人倾向,不过它确实提供了很多非常棒的功能,比如您可以查询自己的网站有哪些反向链接,用户是用什么搜索词进行检索时找到您的网站的,您的网站有没有失效的链接被Google抓取到等等。。。除此之外,您还可以看到很多关于您网站的统计数据。我个人最喜欢的一个功能是,如果您的网站上有隐藏文本或Google认为您的网站有垃圾结果嫌疑或您网站上有被黑掉的页面,那么您会在消息中心收到来自Google的讯息,提醒您注意并积极处理这些问题。另外,您还可以向Google举报您发现的可疑垃圾结果。网站管理员中心是我个人非常推荐您使用的工具,它们不仅功能强大,而且完全是免费的!

Q:你有没有这样的习惯,检查每一个日常生活中你遇到的网站,看有没有付费链接等问题?
A呵呵,我确实有这样的职业习惯。我们经常开玩笑说,当你知道如何寻找和发现网络垃圾的时候,你会用一种不同于普通用户的视野,对每一个你遇到的网站,研究他们有什么好的地方,有什么不好的地方,为什么他们会把某些链接放在那里,等等。同时,我很高兴我们能够从我们的用户那里得到很多反馈意见,比如他们会举报自己发现的垃圾搜索结果,或者提出其他的建议。即使很多人仅仅是日常在网上冲浪,他们同样在探索怎样使Google变得越来越好,我们对此由衷感谢。

Q:你在各种会议上被问到的最有趣的问题是什么?
A:我记得曾经有一个与会者提问说:我有很多不同的网站,可是在Google Yahoo的排名情况都不好,我应该怎么做才能改善我在搜索引擎的排名呢?Yahoo的代表在回答问题之前首先反问这个网站管理员大约有多少网站,是五个还是十个呢?没想到这个网站管理员左顾右盼,迟疑了许久,才回答说:我有大约1500个不同的网站。全场人都惊呆了,他居然有这么多网站!

我还记得一个很有趣的问题是,有人问我Google对以不正当方式提高搜索排名的忍耐底线是什么?我觉得这就好比一个学生缠着老师,反复询问某某题目是否会出现在今后的试卷上。实际上,只要您建立了一个好的网站,用合理的方式对它进行推广,您就可以安枕无忧,不必担心什么是我们的忍耐底线了。

Q:如果Google最终把所有的网络垃圾都消灭了,你突然有了很多的时间,那么你会做什么呢?
A:我对各种各样的开源程序和小工具(Gadgets)很感兴趣,另外,我还非常喜欢各种各样的插件,比如Firefox插件,Photoshop插件等等。如果我有大把的时间,或许我会写很多这样的插件,帮助人们实现和改善软件的功能,这是一件非常有趣的事情。

标签: , , ,



使用网站管理员工具申请重新审核

Requesting reconsideration using Google Webmaster Tools


如果您的网站没有出现在
Google搜索结果内,您可能会有一点担心。在这里,我们收集了一些信息,帮助您确定何时及如何为您的网站提交一份申请重新审核的请求。

您可以按照Bergy(我们的视频资料中example.com网站的管理员)的做法,在片中他试图确定是否需要为自己的古罗马政治博客提交一份重新审核的申请。当然,并非所有网站管理员的问题可以追溯到Wysz (-:,但下面列出的简单步骤可以帮助您根据自己的情况找到正确的解决方案。


检查可访问性方面是否存在问题

您可能希望检查您的网站是否存在任何不能正常访问的问题——您可以登录到您自己的网站管理员工具账户,完成这项检查。在概述页面上,您可以看到Google机器人上次成功抓取到您网站主页的时间。另一种方式是检查您网站主页的快照日期。如需了解有关Google机器人如何抓取您网站的更详细信息,可以查看抓取速度图示(您可以选择:工具>设置抓取速度)。

在概述页面上,您还可以查看是否发生过任何抓取错误。例如,当我们试图访问您的网站时,如果您的服务器处于正忙或无法使用的状态时,您就会看到一个"网址无法访问"的错误讯息。另外一种可能是,您网站中有些URLrobots.txt文件屏蔽了。您会看到"网址受 robots.txt 限制"的字样。如果列出的网址中有些是您不希望被抓取的,您可以打开“工具”,并选择"分析robots.txt" ——在这个选项中,您可以确认自己的robots.txt文件使用了正确格式,并且仅屏蔽您的网站上不希望被Google抓取到的部分。

除上述例子以外,还有其他几种类型的抓取错误——例如HTTP错误和URL超时错误等。尽管在这里我们并没有单独强调它们,但您仍能在网站管理员工具账户内的概述页面上看到所有这些错误的警示。

检查是否有未读消息

如果Google访问您的网站时没遇到任何问题,请查看网站管理员工具账户的消息中心内是否有未读消息。在这里Google会就有关您的网站管理员工具账户以及您所管理的网站等重要信息与您沟通。如果我们注意到您的网站出现了某些问题,我们可能会向您的消息中心发送消息,详细说明一些您需要修正的问题,使您的网站符合网站管理员指南的要求。

阅读网站管理员指南

如果您在消息中心内没有看到任何消息,那么请检查您的网站是否有哪些地方违反了网站管理员指南。您可以通过我们的"帮助中心"获得更多信息。

修复您的网站

如果您的网站违反了网站管理员指南,而且您认为这可能会影响Google对您网站的收录,您最好及时提交一份申请重新审核的请求。但在此之前,请修改您的网站,使它符合我们指南的要求。

提交重新审核的请求

现在您可以提交一份重新审核申请。请登录到您的网站管理员工具账户。在“工具”界面上点击"请求重新审核"并完成后续步骤。请务必解释清楚您认为您的网站的问题出在哪儿,以及您已经采取了哪些步骤来修复。

一旦您提交了请求,您将会在消息中心收到由我们发出的邮件,确认我们已收到请求。然后,我们将审核您的网站是否符合网站管理员指南的要求。

我们希望这篇文章能帮助您了解何时及如何申请重新审核。如果您不能确定Google为什么没有收录您的网站,我们的网站管理员支持论坛是一个寻求帮助的好地方。在那里,您会遇到许多既有丰富经验又很友好的的网站管理员和Google员工,他们会很乐意查看您的网站,并为您提出如何修复网站的建议。您可以在google.cn/webmasters/上找到指向帮助中心和网站管理员支持论坛的链接。

标签: , ,



改进后的Flash索引

Improved Flash indexing
发表于:2008年6月30日星期一,晚上9: 31

我们收到过许多期望我们改进对Adobe Flash文件索引问题的建议。今天,索引团队的软件工程师 Ron Adler Janis Stipins,将就我们最近在Flash文件索引编制上取得的改进与大家进行更深入的探讨和交流。

问:
目前哪些Flash文件能更好地被谷歌索引到呢?
我们改善了对所有类型
SWF文件中的文字内容的索引能力,其中包括像按钮或菜单这样的Flash“小工具”,独立自成一体的 Flash 网站,以及所有介于两者之间的Flash形式。

问:这些
Flash文件中的哪些内容能被谷歌更好地索引呢?
用户在与您的
Flash文件互动过程中所看到的一切文本内容都将得到更好地索引。如果您的网站包含Flash,其中的文字内容会被Google用来生成您网站的摘要。同时,出现在Flash文件中的文字可以用来匹配用户在Google搜索框中输入的搜索查询。

除了索引
Flash文件中的文本内容,我们现在也能够识别在Flash文件中的出现的URL,并且把这些链接纳入搜索引擎机器人爬行的目标队列中,就像对待那些非Flash网页中出现的URL一样。例如,如果您的Flash 应用程序中包含指向您网站内部页面的链接,Google现在能够更好地发现并抓取您的网站。

问:那么
Flash文件中包含的非文本内容呢,比如图片?
目前,我们只能识别和索引
Flash文件中的文本内容。如果您的Flash文件里只有图片,我们将不能识别和索引出现在这些图片中的任何文字。类似地,如果一个Flash按钮没有任何附属的文字的话,我们将无法对这类指向特定链接的Flash按钮生成任何錨文本。

还应注意到的是,我们无法索引
FLV 文件,比如在 YouTube 上播放的视频,因为这些文件没有包含任何文字元素。

问:
Google是怎样识别Flash文件里的内容呢?
我们开发出了一种算法,这种算法可以使Google机器人能够模仿人类通过点击按钮、输入内容等方式来了解
Flash文件。我们的算法能够记住沿途它遇到的所有文字内容,其后这些内容都能被索引到。我们无法告诉您更多的保密细节,但是我们可以告诉您,通过使用Adobe的新型可检索性SWF数据库,这种算法的有效性得到了进一步提高。

问:我怎样做才能使
Google索引到我的Flash文件中出现的文本呢?
基本上,您不需要做任何事情。我们已经取得的技术改进,使这项功能的实现,无需网页设计者或网站管理员做任何特别的操作。如果您的网站上有
Flash内容,我们会在现有技术能力的基础上,尽最大能力对它们自动进行索引(详见接下来的问题)。

也就是说,您应该了解
Google现在已经可以识别那些展现在您网站访问者面前的文字信息。如果你希望 Google忽略一些次要内容,如"版权""加载"等信息,您可以考虑把那些文本替换为图片,这样它们就不会被我们抓取到了。

问:在索引
Flash文件上,Google遇到的主要技术难题是什么?
目前的问题主要体现在三个方面,这也正是我们在努力解决的:


1Googlebot不能执行某些类型的JavaScript程序。因此,如果您的网页通过JavaScript加载Flash文件的话,Google可能无法识别该Flash文件,在这种情况下,它将不会被索引到。
2、目前,我们还无法把那些通过您的Flash文件加载的外来内容和您的Flash文件整合起来。也就是说,如果您的Flash文件加载了一个HTML文件,或一个XML文件,或另一个SWF文件等等,Google将分别索引这些资源,但是它们将不会被认为是您Flash文件内容的一部分。
3、虽然我们能够索引在网络上出现的几乎所有语种的Flash,但在识别用双向语言书写的Flash内容还有一定困难。在这个问题解决之前,我们将无法识别和索引Flash文件中的希伯来文或阿拉伯文的内容。

但是,在这些问题上我们也已经取得了相当的进展,所以,敬请期待我们进一步的改进!


附:

改进之前搜索结果中的Flash网站


改进之后搜索结果中的Flash网站, 搜索查询 [nasa deep impact animation]

标签: , ,



由抄袭造成的重复内容

发表者:Sven Naumann,搜索质量组

原文:Duplicate content due to scrapers
发表于:2008年6月9日星期一,上午3:40

重复内容一直是网站管理员们热议的话题之一,我们觉得很有必要对在各种会议上和网站管理员支持论坛中我们被问及的常见问题作以下统一解答。

在做深入探讨之前,我想先简要谈谈网站管理员们经常担忧的一个问题:在大多数情况下,网站管理员往往对擅自抄袭和传播自己内容的第三方无能为力。我们知道这并不能归咎于网站管理员们,这也就意味着同一内容出现在许多不同网站其本身并不理所当然地被认为是违反了网站管理员指南。这仅仅导致了Google必须增加一个额外步骤,即鉴别内容的原创来源,而这正是Google所擅长的,在大多数情况下原创内容源都能被正确地识别出来,从而不会给发布真正原创内容的网站带来负面影响。

一般而言,我们把网站内容雷同问题主要分为两种情况:
  • 站内内容重复,比如同一内容(经常是无意识地)在您的网站内重复出现。

  • 站间内容重复,比如您网站的内容(同样,经常也是无意识地)在其他网站重复出现。
对于第一种情况,您可以亲自动手解决Google对您网站上的重复内容进行索引的问题。您可以阅读 Adam Lasnik 发表的Deftly dealing with duplicate content以及Vanessa Fox 发表的Duplicate content summit at SMX Advanced。这两篇文章都提供了一些很好的建议,帮助您解决站内内容重复的问题。这里还有一个特别的建议帮助您避免站内内容被重复索引:您可以将您希望被抓取的URL序列包含在您的站点地图文件中。遇到包含同一内容的不同网页时,这么做有助于我们准确收录您真正想提供给用户的那部分内容。其他有关于站内内容重复的信息您可以参阅讨论此主题的有关“帮助中心文章”。

第二种情形可能是有人剽窃了您网站中的内容,并将其展示在其他网站上牟利。同时,网络代理服务器也经常抓取通过代理方式访问的网站的部分内容。当在不同网站遇到相同内容的时候,我们会基于许多不同的依据来判断究竟哪个网站才是原创,而这样的判断通常是准确的。这也意味着,当您发现有人剽窃了您的内容时,您大可不必过分担心它对您的网站在谷歌搜索排名上的负面影响。

如果您将自己网站的内容与他人分享, 但同时还希望自己的网站被识别为原创来源的话,您需要请合作伙伴在其网站内容上添加指向您原创内容的链接。您也可以在Vanessa Fox最近发表的文章Ranking as the original source for content you syndicate找到其他有关处理这一问题的建议。

有些网站管理员会有这样的疑问: 什么原因会导致有时候抄袭内容反而比原创内容的排名还要高呢?这应该是个特例,但如果您真的遇到这种情况,请您务必做到:
  • 检查一下您的内容是否能被我们抓取。您可能无意间在 robots.txt文件中阻止了部分内容被正常访问。

  • 您可以检查一下Sitemap文件,看看您自己是否改动过那些被抄袭的特定内容。

  • 检查您的网站是否符合网站管理员指南。
最后我想指出的是,在绝大多数情况下,含有雷同重复内容并不会对您的网站在谷歌搜索上的排名有负面影响。这些内容可能已经被过滤出去了。如果您参照上述提到的一些建议,您会了解到怎样才能更精确地控制搜索引擎抓取的内容以及出现在索引中的内容版本。只有被确认为蓄意或恶意抄袭时,雷同重复内容才有可能会被视为违反了网站管理员指南。

如果您想更深入地讨论这一话题,请浏览我们的网站管理员支持论坛

如果希望阅读本文德语版,请点击阅读“Duplicate Content aufgrund von Scraper-Sites”。

标签: , ,



Copyright © 2007 Google Inc. All rights reserved.
隐私政策 - 服务条款