是这样的,php通过file_get_contents获取网页内容后,要获取网页中的标题title的内容,但是有时候网页标题是带有关键字的,比如:title为[仙境幻想]制胜一击新服活动-昆仑在线,我想把-昆仑在线过滤掉,当然了像这样的关键字可能有好几个。如何实现把所以的关键字去掉呢,谢谢啦!

2011-01-12 08:12:57

5 Answers

把title内容进行分割,显示第一个元素:

preg_match('/(.*)<\/title>/', $html, $title); $titles = preg_split("/[-_\s|—]/i", $title); $titlestr = $title[0];
2011-01-12 10:29:18
$preg = "/<title[^>]>([\w|\t|\r|\W]?)<\/title>/i"; preg_match($preg, $contents, $matches); $title = $matches[1]; //对标题分隔 $titles = preg_split("/[-_\s|—]/i", $title); //把字符长度最长的当做标题 $maxIndex = 0; $maxLength = 0; $loop = 0; foreach($titles as $item){ if(strlen($item)>$maxLength){ $maxLength = strlen($item); $maxIndex = $loop; } $loop++; } echo $titles[$maxIndex];

首先匹配出里的内容,然后通过‘-’或‘_’进行分割,分割出来的内容,我是根据字符串最长的最为真正的标题内容的。

2011-01-12 12:01:38

代码我就不写了,给两条思路:

1、建立过滤词汇表,将表中有的词过滤掉

2、对比多个页面获取到的title,把多个页面都有的词汇,如你举例的“_昆仑在线”这个词找出来,然后再把所有title过滤一遍

可以将两个方法结合起来使用

2011-01-12 13:26:39

这个问题很简单吧?用正则替换就能做到了。。

$title = '[仙境幻想]制胜这是标题后边为关键词-昆仑在线-一击新服活动-昆仑在线_关键词1-关键词2';

echo preg_replace("/([-_][^-_]+)/is",'',$title);

如果出现 -- 或者 __ 也要过滤的话,那么正则写成 /([-_]+[^-_]+)/is 就可以了。

2011-01-12 15:15:36
<?php $html = "<html><head><title>[仙境幻想]制胜一击新服活动-昆仑在线[仙境幻想]制胜一击新服活动_昆仑在线[仙境幻想]制胜一击新服活动-昆仑在线</title></head><body>test</body></html>"; var_dump($html); preg_match('/<title>(.*)<\/title>/', $html, $title); $title[1] = str_replace(array('-昆仑在线', '_昆仑在线'), '', $title[1]); $html = str_replace($title[0], "<title>$title[1]</title>", $html); var_dump($html); ?>
2011-01-12 16:58:31
您不能回答该问题或者回答已经关闭!

相关文章推荐

  • C#开发中的反射机制

    反射的定义:审查元数据并收集关于它的类型信息的能力。元数据(编译以后的最基本数据单元)就是一大堆的表,当编译程序集或者模块时,编译器会创建一个类定义表,一个字段定义表,和一个方法定义表等

  • C#实例解析适配器设计模式

    将一个类的接口变成客户端所期待的另一种接口,从而使原本因接口不匹配而无法在一起工作的两个类能够一起工作

  • C#中using指令的几种用法

    using + 命名空间名字,这样可以在程序中直接用命令空间中的类型,而不必指定类型的详细命名空间,类似于Java的import,这个功能也是最常用的,几乎每个cs的程序都会用到

  • C#协变和逆变

    “协变”是指能够使用与原始指定的派生类型相比,派生程度更大的类型,“逆变”则是指能够使用派生程度更小的类型

  • C#运行时相互关系

    C#运行时相互关系,包括运行时类型、对象、线程栈和托管堆之间的相互关系,静态方法、实例方法和虚方法的区别等等

  • 使用托管C++粘合C#和C++代码(二)

    本文实现一下C++代码调用C#代码的过程。我构造一个简单并且直观的例子:通过C++ UI 触发C# UI.

  • C#开发高性能Log Help类设计开发

    项目中要在操作数据库的异常处理中加入写Log日志,对于商业上有要求,写log时对其它操作尽可能影响小,不能因为加入log导致耗时太多

  • C#中的索引器的简单理解和用法

    C#中的类成员可以是任意类型,包括数组和集合。当一个类包含了数组和集合成员时,索引器将大大简化对数组或集合成员的存取操作

  • Async和Await使异步编程更简单

    C#5.0中async和await两个关键字,这两个关键字简化了异步编程,之所以简化了,还是因为编译器给我们做了更多的工作

  • 使用托管C++粘合C#和C++代码(一)

    C#在xml读写,数据库操纵,界面构造等很多方面性能卓越;C++的效率高,是底层开发的必备武器

  • C#基础概念之延迟加载

    延迟加载(lazy load)是Hibernate3关联关系对象默认的加载方式,延迟加载机制是为了避免一些无谓的性能开销而提出来的,所谓延迟加载就是当在真正需要数据的时候,才真正执行数据加载操作

  • 深入C# 序列化(Serialize)、反序列化(Deserialize)

    C#中的序列化和反序列化,序列化是.NET运行时环境用来支持用户定义类型的流化的机制