现有几千万条数据,以txt的形式保存在文件中,我需要按指定的接口文件来解析文件,并将数据入库。为了提高效率,采用了生产者消费者模式,即生产者:解析文件生成数据,消费者:获取数据并入库,有人跟我说,通过生产者消费者模式来提高效率会产生资源竞争问题,可以通过别策略来实现且不会涉及到资源竞争问题,请问谁有接触过这类问题,采用什么策略来实现的呢?

2011-01-13 16:41:11

2 Answers

生产者和消费者在同一时间段内共用同一个存储空间,生产者向空间里存放数据,而消费者取用数据,如果不加以协存储空间已满,而生产者占用着它,消费者等着生产者让出空间从而去除产品,生产者等着消费者消费产品,从而向空间中添加产品。互相等待,从而发生死锁

解决流程:对独占空间加锁,阻塞和唤醒线程。

下面是通过await()和signal(),即线程锁的方式来解决的

package com.ch.egg; import java.util.LinkedList; import java.util.concurrent.locks.Condition; import java.util.concurrent.locks.Lock; import java.util.concurrent.locks.ReentrantLock; /** * ReentrantLock 是一个可重入的互斥锁 Lock, * 它具有与使用 synchronized 方法和语句所访问的隐式监视器锁相同的一些基本行为和语义,但功能更强大 * * Condition 将 Object 监视器方法(wait、notify 和 notifyAll)分解成截然不同的对象, * 以便通过将这些对象与任意 Lock 实现组合使用,为每个对象提供多个等待 set(wait-set)。 * 其中,Lock 替代了 synchronized 方法和语句的使用,Condition 替代了 Object 监视器方法的使用。 * * @author ch * */ public class ThreadEggLock { private LinkedListeggs = new LinkedList(); private int MAX = 1; private final Lock lock = new ReentrantLock(); private final Condition full = lock.newCondition(); private final Condition empty = lock.newCondition(); private int count = 0; public void start() { new Producer().start(); new Consumer().start(); } public static void main(String[] args) throws Exception { ThreadEggLock s2 = new ThreadEggLock(); s2.start(); } class Producer extends Thread { public void run() { while (count < 5) { lock.lock(); try { while (eggs.size() == MAX) { //盘子里满了 System.out.println("------警告:盘子里满了!"); full.await(); } Object egg = new Object(); if (eggs.add(egg)) { System.out.println("放入 鸡蛋" + count); empty.signal(); } } catch (InterruptedException ie) { System.out.println("producer is interrupted!"); } finally { lock.unlock(); } } } } class Consumer extends Thread { public void run() { while (count <= 5) { lock.lock(); try { while (eggs.size() == 0) { //盘子是空的 System.out.println("------警告:现在盘子是空的"); empty.await(); } eggs.removeLast(); System.out.println("拿走 鸡蛋" + count); count++; full.signal(); } catch (InterruptedException ie) { System.out.println("consumer is interrupted!"); } finally { lock.unlock(); } } } } }

顺便总结一下线程同步:

1、线程同步的目的是为了保护多个线程访问一个资源时对资源的破坏。
2、线程同步方法是通过锁来实现,每个对象都有且仅有一个锁,这个锁与一个特定的对象关联;线程一旦获取了对象锁,其他访问该对象的线程就无法再访问该对象的其他同步方法。
3、对于静态同步方法,锁是针对这个类的,锁对象是该类的Class对象。静态和非静态方法的锁互不干预。一个线程获得锁,当在一个同步方法中访问另外对象上的同步方法时,会获取这两个对象锁。
4、对于同步,要时刻明白是在哪个对象上同步。
5、在使用synchronized关键字时候,应该尽可能避免在synchronized方法或synchronized块中使用sleep或者yield方法,因为synchronized程序块占有着对象锁,你休息那么其他的线程只能一边等着你醒来执行完了才能执行。不但严重影响效率,也不合逻辑。同样,在同步程序块内调用yeild方法让出CPU资源也没有意义,因为你占用着锁,其他互斥线程还是无法访问同步程序块。当然与同步程序块无关的线程可以获得更多的执行时间。
6、编写线程安全的类,需要时刻注意对多个线程竞争访问资源的逻辑和安全做出正确的判断,对“原子”操作做出分析,并保证原子操作期间别的线程无法访问竞争资源。
7、当多个线程等待一个对象锁时,没有获取到锁的线程将发生阻塞。
8、死锁是线程间相互等待锁锁造成的,一旦程序发生死锁,程序将死掉。

2011-01-13 18:51:17

建议如下:
1,1个线程读txt,把读到的内容放到消息队列1中,因为多个线程读写txt会造成磁头的频繁转动,这个线程的个数可以通过性能测试来得到一个最佳值
2,多个线程从消息队列1中读出消息并解析,将结果放到消息队列2中
3,多个线程从消息队列2中读取消息入库
文章中所提到的资源竞争,只是对于消息队列这个临界区,在对消息队列同步前把消息生成,不要在同步块中做复杂的事情,同步块中的指令越少越好!
文中没有提到解析的时间消耗,和解析文件所需要的条件(是整个文件一起读,还是文件是分好几个txt等等)

2011-01-13 20:14:48
您不能回答该问题或者回答已经关闭!

相关文章推荐

  • C#中using指令的几种用法

    using + 命名空间名字,这样可以在程序中直接用命令空间中的类型,而不必指定类型的详细命名空间,类似于Java的import,这个功能也是最常用的,几乎每个cs的程序都会用到

  • C#实例解析适配器设计模式

    将一个类的接口变成客户端所期待的另一种接口,从而使原本因接口不匹配而无法在一起工作的两个类能够一起工作

  • 使用托管C++粘合C#和C++代码(二)

    本文实现一下C++代码调用C#代码的过程。我构造一个简单并且直观的例子:通过C++ UI 触发C# UI.

  • Async和Await使异步编程更简单

    C#5.0中async和await两个关键字,这两个关键字简化了异步编程,之所以简化了,还是因为编译器给我们做了更多的工作

  • C#开发高性能Log Help类设计开发

    项目中要在操作数据库的异常处理中加入写Log日志,对于商业上有要求,写log时对其它操作尽可能影响小,不能因为加入log导致耗时太多

  • C#开发中的反射机制

    反射的定义:审查元数据并收集关于它的类型信息的能力。元数据(编译以后的最基本数据单元)就是一大堆的表,当编译程序集或者模块时,编译器会创建一个类定义表,一个字段定义表,和一个方法定义表等

  • C#运行时相互关系

    C#运行时相互关系,包括运行时类型、对象、线程栈和托管堆之间的相互关系,静态方法、实例方法和虚方法的区别等等

  • C#协变和逆变

    “协变”是指能够使用与原始指定的派生类型相比,派生程度更大的类型,“逆变”则是指能够使用派生程度更小的类型

  • C#基础概念之延迟加载

    延迟加载(lazy load)是Hibernate3关联关系对象默认的加载方式,延迟加载机制是为了避免一些无谓的性能开销而提出来的,所谓延迟加载就是当在真正需要数据的时候,才真正执行数据加载操作

  • C#中的索引器的简单理解和用法

    C#中的类成员可以是任意类型,包括数组和集合。当一个类包含了数组和集合成员时,索引器将大大简化对数组或集合成员的存取操作

  • 使用托管C++粘合C#和C++代码(一)

    C#在xml读写,数据库操纵,界面构造等很多方面性能卓越;C++的效率高,是底层开发的必备武器

  • 深入C# 序列化(Serialize)、反序列化(Deserialize)

    C#中的序列化和反序列化,序列化是.NET运行时环境用来支持用户定义类型的流化的机制