像百度文库和豆丁里的文档都是已经转换swf了,我想得到这些文档,有什么方能够指抓取?如果有借助第三方工具的也可以说说。

2011-01-15 08:45:26

1 Answers

刚YY问我有没有百度文库帐号,希望下载里面一个word文档。但得5个积分。。我也没有啊。最开始是试图搜索其他网络资源。docin文档有破解软件直接就可以得到了。但还是搜不到。然后就想……提交一个请求到百度文库之后,百度文库已经把相应的内容响应返回给客户端了。然后在页面上是以flash的方式展示出来滴。于是就试图找到那个flash文件。到浏览器的临时文件夹下面,为了方便。在提交请求之前先扇出以前的临时文件,然后提交请求。在去临时文件目录查找刚刚这一次请求产生的临时文件。不过看了下,没有flash文件。只有两个相关连滴,如图所示:

  By 5lulu.com

然后想了下,应该就是这个文件是保存了相应的内容了。猜想估计经过百度处理,进行加密啊之类的。展示在html页面的时候再逆向解析出来。结果……居然没有加密。直接copy出来。用记事本之类的文本工具就能现实出来了:


这样一个json格式{“totalPage”:”4″,”fromPage”:”1″,”toPage”:”4″}数据,是用来展示的时候解析时调用的吧。


word的就这样应该能搞定了。不过pdf啊之类的还有待研究……


———————————————————————————————————————


刚刚又随便搜索了一个word文档,测试了下。这个word文档页数较多了。然后临时文件产生的确实就是我想象当中的swf的flash文件。对应的intenet地址不是http://txt.……啥开头,而是 http://ai.……啥开头滴。copy一份出来试图通过flash player 打开,没有想象当中那么容易就得到内容了。打开后,白板。啥东西都没有,这还是百度做了限制吧。可能判断你的请求url啊,之类一系列参数进行判断,确保你是在百度文库的那个页面才将内容解析出来供你看。


所以……我刚才摸索出来的方法限制与文档页数较少的。:-)。当你急需要文档页数较多时,就老老实实攒积分,付分下载吧……


 In fact,还有一种方法,就是利用百度、google的搜索引擎的快照功能,在搜索引擎结果里面,点击快照功能,然后就可以把内容复制出来了。只是也没格式,看起来比较乱 

2011-01-15 10:33:32
您不能回答该问题或者回答已经关闭!

相关文章推荐

  • C#中using指令的几种用法

    using + 命名空间名字,这样可以在程序中直接用命令空间中的类型,而不必指定类型的详细命名空间,类似于Java的import,这个功能也是最常用的,几乎每个cs的程序都会用到

  • C#实例解析适配器设计模式

    将一个类的接口变成客户端所期待的另一种接口,从而使原本因接口不匹配而无法在一起工作的两个类能够一起工作

  • 使用托管C++粘合C#和C++代码(二)

    本文实现一下C++代码调用C#代码的过程。我构造一个简单并且直观的例子:通过C++ UI 触发C# UI.

  • C#开发高性能Log Help类设计开发

    项目中要在操作数据库的异常处理中加入写Log日志,对于商业上有要求,写log时对其它操作尽可能影响小,不能因为加入log导致耗时太多

  • Async和Await使异步编程更简单

    C#5.0中async和await两个关键字,这两个关键字简化了异步编程,之所以简化了,还是因为编译器给我们做了更多的工作

  • C#开发中的反射机制

    反射的定义:审查元数据并收集关于它的类型信息的能力。元数据(编译以后的最基本数据单元)就是一大堆的表,当编译程序集或者模块时,编译器会创建一个类定义表,一个字段定义表,和一个方法定义表等

  • C#运行时相互关系

    C#运行时相互关系,包括运行时类型、对象、线程栈和托管堆之间的相互关系,静态方法、实例方法和虚方法的区别等等

  • C#协变和逆变

    “协变”是指能够使用与原始指定的派生类型相比,派生程度更大的类型,“逆变”则是指能够使用派生程度更小的类型

  • C#基础概念之延迟加载

    延迟加载(lazy load)是Hibernate3关联关系对象默认的加载方式,延迟加载机制是为了避免一些无谓的性能开销而提出来的,所谓延迟加载就是当在真正需要数据的时候,才真正执行数据加载操作

  • 使用托管C++粘合C#和C++代码(一)

    C#在xml读写,数据库操纵,界面构造等很多方面性能卓越;C++的效率高,是底层开发的必备武器

  • C#中的索引器的简单理解和用法

    C#中的类成员可以是任意类型,包括数组和集合。当一个类包含了数组和集合成员时,索引器将大大简化对数组或集合成员的存取操作

  • 深入C# 序列化(Serialize)、反序列化(Deserialize)

    C#中的序列化和反序列化,序列化是.NET运行时环境用来支持用户定义类型的流化的机制