$content=@file_get_contents($url); 抓取其他站点的页面内容 。但是经常因为对方网站打开速度慢而内容不完整,怎么解决或者知道抓取的信息不全时提示报错;或者其他抓取网页内容的好的方法

2011-01-06 21:30:12

3 Answers

先得判断要抓取的页面能不能正常打开,如果可以打开,只是速度慢,那就很好办了。在抓取前设置一下超时时间为无限就可以了。set_time_limit(0);

2011-01-07 00:48:52

使用curl是种好方法,在使用file_get_contents函数的时候,经常会出现超时的情况,而且file_get_contents常常会使服务器的负载很高!

2011-01-07 03:09:48

取不全很多情况下是由于超时,一般服务端和客户端都会有超时设置。是否抓全可以看http head里的content length和实际抓到的是否一样。

提供一个别人写的抓取类:

<?php /* * Curl 多线程类 * 使用方法: * ======================== $urls = array("http://baidu.com", "http://www.sina.com.cn"); $mp = new MultiHttpRequest($urls); $mp->start(); * ======================== */ $urls = array("http://www.sina.com.cn"); $mp = new MultiHttpRequest($urls); $mp->start(); class MultiHttpRequest { public $urls = array(); public $curlopt_header = 1; public $method = "GET"; function __construct($urls = false) { $this->urls = $urls; } function set_urls($urls) { $this->urls = $urls; return $this; } function is_return_header($b) { $this->curlopt_header = $b; return $this; } function set_method($m) { $this->medthod = strtoupper($m); return $this; } function start() { if(!is_array($this->urls) or count($this->urls) == 0){ return false; } $curl = $text = array(); $handle = curl_multi_init(); foreach($this->urls as $k=>$v){ $curl[$k] = $this->add_handle($handle, $v); } $this->exec_handle($handle); foreach($this->urls as $k=>$v){ curl_multi_getcontent($curl[$k]); $text[$k] = curl_multi_getcontent($curl[$k]); echo $text[$k], "\n\n"; curl_multi_remove_handle($handle, $curl[$k]); } curl_multi_close($handle); } private function add_handle($handle, $url) { $curl = curl_init(); curl_setopt($curl, CURLOPT_URL, $url); curl_setopt($curl, CURLOPT_HEADER, $this->curlopt_header); curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); curl_multi_add_handle($handle, $curl); return $curl; } private function exec_handle($handle) { $flag = null; do { curl_multi_exec($handle, $flag); } while ($flag > 0); } } ?>

2011-01-06 23:37:36
您不能回答该问题或者回答已经关闭!

相关文章推荐

  • C#中using指令的几种用法

    using + 命名空间名字,这样可以在程序中直接用命令空间中的类型,而不必指定类型的详细命名空间,类似于Java的import,这个功能也是最常用的,几乎每个cs的程序都会用到

  • C#实例解析适配器设计模式

    将一个类的接口变成客户端所期待的另一种接口,从而使原本因接口不匹配而无法在一起工作的两个类能够一起工作

  • 使用托管C++粘合C#和C++代码(二)

    本文实现一下C++代码调用C#代码的过程。我构造一个简单并且直观的例子:通过C++ UI 触发C# UI.

  • C#开发高性能Log Help类设计开发

    项目中要在操作数据库的异常处理中加入写Log日志,对于商业上有要求,写log时对其它操作尽可能影响小,不能因为加入log导致耗时太多

  • Async和Await使异步编程更简单

    C#5.0中async和await两个关键字,这两个关键字简化了异步编程,之所以简化了,还是因为编译器给我们做了更多的工作

  • C#开发中的反射机制

    反射的定义:审查元数据并收集关于它的类型信息的能力。元数据(编译以后的最基本数据单元)就是一大堆的表,当编译程序集或者模块时,编译器会创建一个类定义表,一个字段定义表,和一个方法定义表等

  • C#运行时相互关系

    C#运行时相互关系,包括运行时类型、对象、线程栈和托管堆之间的相互关系,静态方法、实例方法和虚方法的区别等等

  • C#协变和逆变

    “协变”是指能够使用与原始指定的派生类型相比,派生程度更大的类型,“逆变”则是指能够使用派生程度更小的类型

  • C#基础概念之延迟加载

    延迟加载(lazy load)是Hibernate3关联关系对象默认的加载方式,延迟加载机制是为了避免一些无谓的性能开销而提出来的,所谓延迟加载就是当在真正需要数据的时候,才真正执行数据加载操作

  • 使用托管C++粘合C#和C++代码(一)

    C#在xml读写,数据库操纵,界面构造等很多方面性能卓越;C++的效率高,是底层开发的必备武器

  • C#中的索引器的简单理解和用法

    C#中的类成员可以是任意类型,包括数组和集合。当一个类包含了数组和集合成员时,索引器将大大简化对数组或集合成员的存取操作

  • 深入C# 序列化(Serialize)、反序列化(Deserialize)

    C#中的序列化和反序列化,序列化是.NET运行时环境用来支持用户定义类型的流化的机制