我这里有一个大概10万行数据的表,如果我重复添加相同内容和格式的数据,能否有方法能够确认出我插入的数据已经存在了,而不用其他多余的查询。在Google上找到一篇是关于互斥表的。

2010-11-02 14:35:04

4 Answers

给个笨点的方案,先把所有的记录导入一张临时表(不去重),新建一张表,使用
insert ingore into tb(col1,col2) select col1,col2 from tmp_tb
其中tb中的col1,col2为uk
以下是个简单的例子:

    新建临时表tmp_tb
    CREATE TABLE `tmp_tb` (
    `id` int(11) NOT NULL auto_increment,
    `col1` int(10) NOT NULL,
    `col2` int(10) NOT NULL,
    PRIMARY KEY  (`id`)
    ) ENGINE=MyISAM AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;

导入记录(不排重),如图
By 5lulu.com

新建正式表 CREATE TABLE `tb` ( `id` int(10) NOT NULL, `times` int(10) NOT NULL, PRIMARY KEY (`id`,`times`) ) ENGINE=MyISAM DEFAULT CHARSET=utf8 执行以下sql insert ingore into tb(col1,col2) select col1,col2 from tmp_tb 结果如下,已经排除了重复记录
By 5lulu.com
2010-11-02 16:28:11

有主键或唯一键吗?
如果是主键或唯一键冲突的话,我一般是用ON DUPLICATE KEY语句,例如合并A/B两个表的数据:

INSERT INTO `myTableB`(`id`,`name`) (SELECT `id`,`name` FROM `myTableA`) ON DUPLICATE KEY UPDATE `name`=VALUES(`name`);

哦,理解反了,上边这个是“当数据有冲突则更新”,如果是“当数据不存在则插入”的话,直接加上ignore语句不就行了?

2010-11-02 18:03:55

把不能重复的俩个字段或者多个做个联合索引并且标识唯一性,这样插入的时候做个try...catch捕获。有必要可以做日志统计。这样效率会高些。实现起来也方便。

CREATE TABLE test ( id int(10) unsigned NOT NULL AUTO_INCREMENT, name varchar(50) DEFAULT '', age int(4) unsigned NOT NULL, PRIMARY KEY (id), UNIQUE KEY name_age (name,age) ) ENGINE=MyISAM AUTO_INCREMENT=8 DEFAULT CHARSET=utf8

试试!插入一条 name与age相同的数据就不行

2010-11-02 20:03:40

如果你插入的数据是格式化的日志,可以用mysqlimport,这是一个非常高效的工具。

如从文件Customers.txt中把数据导入到数据库Meet_A_Geek中的表Custermers中:

mysqlimport -i Meet_A_Geek Customers.txt

其中参数

-i or --ignore mysqlimport跳过或者忽略那些有相同唯一关键字的行, 导入文件中的数据将被忽略。

另外一些参数
-d or --delete 新数据导入数据表中之前删除数据数据表中的所有信息 -f or --force 不管是否遇到错误,mysqlimport将强制继续插入数据 -l or -lock-tables 数据被插入之前锁住表,这样就防止了, 你在更新数据库时,用户的查询和更新受到影响。 -r or -replace 这个选项与-i选项的作用相反;此选项将替代表中有相同唯一关键字的记录。 --fields-enclosed- by= char 指定文本文件中数据的记录时以什么括起的, 很多情况下数据以双引号括起。 默认的情况下数据是没有被字符括起的。 --fields-terminated- by=char 指定各个数据的值之间的分隔符,在句号分隔的文件中,分隔符是句号。您可以用此选项指定数据之间的分隔符。默认的分隔符是跳格符(Tab) --lines-terminated- by=str 此选项指定文本文件中行与行之间数据的分隔字符串 或者字符。 默认的情况下mysqlimport以newline为行分隔符。 您可以选择用一个字符串来替代一个单个的字符: 一个新行或者一个回车。 mysqlimport命令常用的选项还有-v 显示版本(version), -p 提示输入密码(password)等。
2010-11-02 20:53:13
您不能回答该问题或者回答已经关闭!

相关文章推荐

  • C#中using指令的几种用法

    using + 命名空间名字,这样可以在程序中直接用命令空间中的类型,而不必指定类型的详细命名空间,类似于Java的import,这个功能也是最常用的,几乎每个cs的程序都会用到

  • C#实例解析适配器设计模式

    将一个类的接口变成客户端所期待的另一种接口,从而使原本因接口不匹配而无法在一起工作的两个类能够一起工作

  • C#开发高性能Log Help类设计开发

    项目中要在操作数据库的异常处理中加入写Log日志,对于商业上有要求,写log时对其它操作尽可能影响小,不能因为加入log导致耗时太多

  • 使用托管C++粘合C#和C++代码(二)

    本文实现一下C++代码调用C#代码的过程。我构造一个简单并且直观的例子:通过C++ UI 触发C# UI.

  • C#开发中的反射机制

    反射的定义:审查元数据并收集关于它的类型信息的能力。元数据(编译以后的最基本数据单元)就是一大堆的表,当编译程序集或者模块时,编译器会创建一个类定义表,一个字段定义表,和一个方法定义表等

  • Async和Await使异步编程更简单

    C#5.0中async和await两个关键字,这两个关键字简化了异步编程,之所以简化了,还是因为编译器给我们做了更多的工作

  • C#运行时相互关系

    C#运行时相互关系,包括运行时类型、对象、线程栈和托管堆之间的相互关系,静态方法、实例方法和虚方法的区别等等

  • C#协变和逆变

    “协变”是指能够使用与原始指定的派生类型相比,派生程度更大的类型,“逆变”则是指能够使用派生程度更小的类型

  • C#基础概念之延迟加载

    延迟加载(lazy load)是Hibernate3关联关系对象默认的加载方式,延迟加载机制是为了避免一些无谓的性能开销而提出来的,所谓延迟加载就是当在真正需要数据的时候,才真正执行数据加载操作

  • C#中的索引器的简单理解和用法

    C#中的类成员可以是任意类型,包括数组和集合。当一个类包含了数组和集合成员时,索引器将大大简化对数组或集合成员的存取操作

  • 使用托管C++粘合C#和C++代码(一)

    C#在xml读写,数据库操纵,界面构造等很多方面性能卓越;C++的效率高,是底层开发的必备武器

  • 深入C# 序列化(Serialize)、反序列化(Deserialize)

    C#中的序列化和反序列化,序列化是.NET运行时环境用来支持用户定义类型的流化的机制