由于网站是一个论坛,其内容都是用户发的,内容中有很多 类似:参考出自:www.xxx.com,原文:www.xxxx.com,可以访问我的博客:www.xxxxx.com,你可以上这里看看:www.xxxxx.com 等等等。。 当刚发帖子的时候,这些链接都是可以正常访问的,可是过了一段时间后大部分链接失效了,所以现在出现这样一个情况,大部分来自搜索引擎的朋友,看到帖子后,点击用户留下的参考地址后发现页面都打不开,一个两个打不开还行,但是现在大部分都打不开,用户体验造成了极坏的影响,所以现在想先将失效的链接删除,然后在用户跟帖的时候加一个分析内容的功能,就是匹配出链接地址,将其入库,定时分析入库的地址。请大家想想具体的方案,该如何设计比较合理呢? 还有目前先想个如何高效,快速的查找站点下失效的链接的办法(只当一个脚本运行,检测出失效的链接,并记录出页面地址,方便站长删除)。

2010-11-15 20:46:00

2 Answers

我想到的:
第一种方法:
1.把所有页面URL地址收集一下
2.curl -s --connect-timeout 10 "http://xxx.com/xxx.html" 看返回的是不是404,如果是就记录下来

第二种方法:
1.wget可以下站整站,只要有链接输出在文章中都能继续下载
2.查看wget日志分析哪些是404

第三种方法:
1.从你的web access log统计一下哪个URL是404的,经济又实惠

2010-11-15 22:48:59
  1. WordPress 博客可以使用下面两种插件处理这类失效链接。

    • 检测失效链接的插件,如 Broken Links Checker
    • 自动管理 301 跳转的插件,如 Redirection

    当然,也可以手动操作,避免使用和安装插件。教程:http://www.webtechwise.com/speed-up-wordpress-blog-by-having-less-plugins/

  2. 使用 Google 网站管理员工具(GWT)检测并移除无效链接
    使用入门介绍:http://www.google.com/support/webmasters/bin/topic.py?hlrm=en&topic=8465

  3. 使用Xenu Link Sleuth来检测失效链接
    另一款检测网站失效链接的优秀工具是Xenu Link Sleuth,这里下载。
    Xenu 是一个 Windows 程序,可以输出网站的所有链接——有效或失效——将其按照便于阅读的方式分组。

  4. 如果是Mac电脑,推荐使用工具Integrity

以上资料来自:如何发现并移除网站上的失效链接
英文原文地址:How to Find and Remove Broken Links in Your Website

2010-11-16 00:26:25
您不能回答该问题或者回答已经关闭!

相关文章推荐

  • C#中using指令的几种用法

    using + 命名空间名字,这样可以在程序中直接用命令空间中的类型,而不必指定类型的详细命名空间,类似于Java的import,这个功能也是最常用的,几乎每个cs的程序都会用到

  • C#实例解析适配器设计模式

    将一个类的接口变成客户端所期待的另一种接口,从而使原本因接口不匹配而无法在一起工作的两个类能够一起工作

  • 使用托管C++粘合C#和C++代码(二)

    本文实现一下C++代码调用C#代码的过程。我构造一个简单并且直观的例子:通过C++ UI 触发C# UI.

  • C#开发高性能Log Help类设计开发

    项目中要在操作数据库的异常处理中加入写Log日志,对于商业上有要求,写log时对其它操作尽可能影响小,不能因为加入log导致耗时太多

  • Async和Await使异步编程更简单

    C#5.0中async和await两个关键字,这两个关键字简化了异步编程,之所以简化了,还是因为编译器给我们做了更多的工作

  • C#开发中的反射机制

    反射的定义:审查元数据并收集关于它的类型信息的能力。元数据(编译以后的最基本数据单元)就是一大堆的表,当编译程序集或者模块时,编译器会创建一个类定义表,一个字段定义表,和一个方法定义表等

  • C#运行时相互关系

    C#运行时相互关系,包括运行时类型、对象、线程栈和托管堆之间的相互关系,静态方法、实例方法和虚方法的区别等等

  • C#协变和逆变

    “协变”是指能够使用与原始指定的派生类型相比,派生程度更大的类型,“逆变”则是指能够使用派生程度更小的类型

  • C#中的索引器的简单理解和用法

    C#中的类成员可以是任意类型,包括数组和集合。当一个类包含了数组和集合成员时,索引器将大大简化对数组或集合成员的存取操作

  • C#基础概念之延迟加载

    延迟加载(lazy load)是Hibernate3关联关系对象默认的加载方式,延迟加载机制是为了避免一些无谓的性能开销而提出来的,所谓延迟加载就是当在真正需要数据的时候,才真正执行数据加载操作

  • 使用托管C++粘合C#和C++代码(一)

    C#在xml读写,数据库操纵,界面构造等很多方面性能卓越;C++的效率高,是底层开发的必备武器

  • 深入C# 序列化(Serialize)、反序列化(Deserialize)

    C#中的序列化和反序列化,序列化是.NET运行时环境用来支持用户定义类型的流化的机制