记一次 mysql插入千万级别数据过程

╰+攻爆jí腚メ 2024-04-17 05:35 191阅读 0赞
  • mysql插入千万级别数据

    • 背景

      • 第一次插入数据

        • 效果
      • 第二种方式:通过批处理方式
    • 第三种方式

      • 生成csv文件
      • 加载文件到mysql中
    • 最终方式

        • 注意点
    • 参考链接

mysql插入千万级别数据

背景

项目中期,需要进行性能测试,大数据平台要测试千万级别的数据进行处理,测试性能问题,所以需要对MySQL中插入千万级别的数据

第一次插入数据

最直接的想法,就是通过jdbc方式,将数据插入到MySQL中,因为原来造测试数据,进行自测时,也是同样的做法

  1. private static final Logger LOG = LoggerFactory.getLogger(CreateLeagalPersonTest.class);
  2. private static Random rdn = new Random();
  3. private static Connection conn = null;
  4. private static int correctDataCount = 20000000;
  5. private static int errorDataCount = 10000000;
  6. @Before
  7. public void before() throws ClassNotFoundException, SQLException {
  8. //1、连接数据库
  9. Class.forName("com.mysql.jdbc.Driver");
  10. String url = "jdbc:mysql://10.117.5.223:3306/bigdata";
  11. String user = "root";
  12. String password = "123456";
  13. conn = DriverManager.getConnection(url, user, password);
  14. if (conn == null) {
  15. LOG.error("连接失败...");
  16. System.exit(1);
  17. }
  18. }
  19. //主入口
  20. @Test
  21. public void test() throws SQLException {
  22. //2、编写带?的SQL
  23. String sql = "INSERT INTO tb_test_leagal_person (ORG_CODE, ORG_NAME ,ORG_ADDRESS ,ORG_TYPE_CODE, REG_NO ," +
  24. "REG_DATE ,STATUS ,STATUS_NAME ,ECNOMIC_CODE, ECNOMIC_CODE_NAME ,INDUSTRY_CODE ,INDUSTRY_CODE_NAME ," +
  25. "REG_CAPITAL ,UNI_SCID ) VALUES(?,?,?,?,?,?,?,?,?,?,?,?,?,?)";
  26. PreparedStatement pst = conn.prepareStatement(sql);// 对带?的sql进行预编译
  27. for (int index = 0; index < correctDataCount; index++) {
  28. // 4、把?用具体的值进行代替
  29. pst.setString(1, createORGCODE(index, true)); //组织机构代码
  30. pst.setString(2, createORGNAME(index, true)); //组织机构名称
  31. pst.setString(3, creteORGADDRESS(index, true)); // 组织地址
  32. pst.setString(4, createORGTYPECODE(index, true)); //机构类型
  33. pst.setString(5, createREGNO(index, true)); //注册号
  34. pst.setDate(6, creteDate(index, true)); //成立日期
  35. pst.setString(7, createSTATUS(index, true)); //状态
  36. pst.setString(8, createSTATUSNAME(index, true)); //状态名称
  37. pst.setString(9, createECNOMICCODE(index, true)); //经济类型
  38. pst.setString(10, createECNOMIC_CODE_NAME(index, true)); //经济类型名称
  39. pst.setString(11, createStringType("行业类别", index, true)); //行业类别
  40. pst.setString(12, createStringType("行业类别名称", index, true)); //行业类别名称
  41. pst.setInt(13, createIntType(index, true));//注册资金
  42. pst.setString(14, createStringType("统一信用代码", index, true)); //同一信用代码
  43. // 5、执行sql
  44. int len = pst.executeUpdate();
  45. System.out.println(len > 0 ? "添加成功 " + index : "添加失败");
  46. }
  47. // 6、释放资源
  48. pst.close();
  49. conn.close();
  50. }

效果

很直观的发现,效率比较慢,需要进行优化

第二种方式:通过批处理方式

上面的做法是通过一条一条的记录插入的,效率比较低,那就改为批处理的

  1. //批处理插入
  2. @Test
  3. public void testInsertBatchData() {
  4. //2、编写带?的SQL
  5. String sql = "INSERT INTO tb_test_leagal_person (ORG_CODE, ORG_NAME ,ORG_ADDRESS ,ORG_TYPE_CODE, REG_NO ," +
  6. "REG_DATE ,STATUS ,STATUS_NAME ,ECNOMIC_CODE, ECNOMIC_CODE_NAME ,INDUSTRY_CODE ,INDUSTRY_CODE_NAME ," +
  7. "REG_CAPITAL ,UNI_SCID ) VALUES(?,?,?,?,?,?,?,?,?,?,?,?,?,?)";
  8. PreparedStatement pst = null;// 对带?的sql进行预编译
  9. try {
  10. pst = conn.prepareStatement(sql);
  11. for (int index = 4450000; index < correctDataCount; index++) {
  12. // 4、把?用具体的值进行代替
  13. pst.setString(1, createORGCODE(index, true)); //组织机构代码
  14. pst.setString(2, createORGNAME(index, true)); //组织机构名称
  15. pst.setString(3, creteORGADDRESS(index, true)); // 组织地址
  16. pst.setString(4, createORGTYPECODE(index, true)); //机构类型
  17. pst.setString(5, createREGNO(index, true)); //注册号
  18. pst.setDate(6, creteDate(index, true)); //成立日期
  19. pst.setString(7, createSTATUS(index, true)); //状态
  20. pst.setString(8, createSTATUSNAME(index, true)); //状态名称
  21. pst.setString(9, createECNOMICCODE(index, true)); //经济类型
  22. pst.setString(10, createECNOMIC_CODE_NAME(index, true)); //经济类型名称
  23. pst.setString(11, createStringType("行业类别", index, true)); //行业类别
  24. pst.setString(12, createStringType("行业类别名称", index, true)); //行业类别名称
  25. pst.setInt(13, createIntType(index, true));//注册资金
  26. pst.setString(14, createStringType("统一信用代码", index, true)); //同一信用代码
  27. pst.addBatch();
  28. if (index % 5000 == 0) {
  29. pst.executeBatch();
  30. System.out.println(("插入成功..." + index));
  31. pst.clearBatch();
  32. }
  33. // // 5、执行sql
  34. // int len = pst.addBatch();
  35. // System.out.println(len > 0 ? "添加成功 " + index : "添加失败");
  36. }
  37. pst.executeBatch();
  38. } catch (SQLException e) {
  39. e.printStackTrace();
  40. }finally {
  41. // 6、释放资源
  42. try {
  43. pst.close();
  44. conn.close();
  45. } catch (SQLException e) {
  46. e.printStackTrace();
  47. }
  48. }
  49. }

第三种方式

同事说使用mysql 命令可以快速加载文件到mysql中

生成csv文件

  1. //写入文件方式
  2. @Test
  3. public void testWrtieToCSV() {
  4. String outputPath = "dir/tb_test_leagal_person_2.csv";
  5. doCreateCVSData(0, correctDataCount, true, outputPath);
  6. doCreateCVSData(correctDataCount, correctDataCount + errorDataCount, false, outputPath);
  7. }
  8. private List<String> doCreateCVSData(int start, int end, boolean flag, String outputPath) {
  9. List<String> result = new ArrayList<>();
  10. for (int index = start; index < end; index++) {
  11. StringBuffer sbuffer = new StringBuffer();
  12. sbuffer.append(index);
  13. sbuffer.append(",");
  14. sbuffer.append(createORGCODE(index, flag)); //组织机构代码
  15. sbuffer.append(",");
  16. sbuffer.append(createORGNAME(index, flag)); //组织机构名称
  17. sbuffer.append(",");
  18. sbuffer.append(creteORGADDRESS(index, flag)); // 组织地址
  19. sbuffer.append(",");
  20. sbuffer.append(createORGTYPECODE(index, flag)); //机构类型
  21. sbuffer.append(",");
  22. sbuffer.append(createREGNO(index, flag)); //注册号
  23. sbuffer.append(",");
  24. sbuffer.append(creteDate(index, flag)); //成立日期
  25. sbuffer.append(",");
  26. sbuffer.append(createSTATUS(index, flag)); //状态
  27. sbuffer.append(",");
  28. sbuffer.append(createSTATUSNAME(index, flag)); //状态名称
  29. sbuffer.append(",");
  30. sbuffer.append(createECNOMICCODE(index, flag)); //经济类型
  31. sbuffer.append(",");
  32. sbuffer.append(createECNOMIC_CODE_NAME(index, flag)); //经济类型名称
  33. sbuffer.append(",");
  34. sbuffer.append(createStringType("行业类别", index, flag)); //行业类别
  35. sbuffer.append(",");
  36. sbuffer.append(createStringType("行业类别名称", index, flag)); //行业类别名称
  37. sbuffer.append(",");
  38. sbuffer.append(createIntType(index, flag));//注册资金
  39. sbuffer.append(",");
  40. sbuffer.append(createStringType("统一信用代码", index, flag)); //同一信用代码
  41. System.out.println(sbuffer.toString());
  42. result.add(sbuffer.toString());
  43. if (result.size() % 1000000 == 0) {
  44. for (String s : result) {
  45. try {
  46. writeLinesToFile1(outputPath, s);
  47. } catch (Exception e) {
  48. e.printStackTrace();
  49. }
  50. }
  51. result.clear();
  52. }
  53. }
  54. return result;
  55. }
  56. public static boolean writeLinesToFile1(String fileName, String line) throws Exception {
  57. FileWriter fw = new FileWriter(fileName, true);
  58. fw.write(line + "\n");
  59. fw.flush();
  60. fw.close();
  61. return true;
  62. }

加载文件到mysql中

  1. #mysql加载csv文件
  2. LOAD DATA LOCAL INFILE 'C:\\Users\\wangyg\\Desktop\\tb_test_leagal_person_2.csv' INTO TABLE bigdata.tb_test_leagal_person_2 FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n';

缺陷:

将数据写入csv文件时,同样会有大量的IO,导致所花费的时间很长,所以从某种角度来讲,时间还是一样长,不能解决问题

最终方式

最终。在网上查询资料,使用这种方式,2千万+数据 不到半小时就完成

  1. @Test
  2. public void testInsert() throws SQLException, ClassNotFoundException {
  3. initConn();
  4. insert(0, 2000000, true);
  5. // insert(correctDataCount, correctDataCount+errorDataCount, false);
  6. }
  7. private void initConn() throws ClassNotFoundException, SQLException {
  8. //1、连接数据库
  9. Class.forName("com.mysql.jdbc.Driver");
  10. String url = "jdbc:mysql://10.117.5.223:3306/bigdata";
  11. String user = "root";
  12. String password = "123456";
  13. conn = DriverManager.getConnection(url, user, password);
  14. if (conn == null) {
  15. LOG.error("连接失败...");
  16. System.exit(1);
  17. }
  18. }
  19. private static int singleCount = 100000;
  20. //批量插入
  21. public static void insert(int startCount, int endCount, boolean flag) {
  22. // 开时时间
  23. Long begin = new Date().getTime();
  24. // sql前缀
  25. String prefix = " INSERT INTO tb_test_leagal_person_3 (ORG_CODE, ORG_NAME ,ORG_ADDRESS ,ORG_TYPE_CODE, REG_NO ," +
  26. "STATUS ,STATUS_NAME ,ECNOMIC_CODE, ECNOMIC_CODE_NAME ,INDUSTRY_CODE ,INDUSTRY_CODE_NAME ," +
  27. "REG_CAPITAL ,UNI_SCID ) VALUES";
  28. try {
  29. // 保存sql后缀
  30. StringBuffer suffix = new StringBuffer();
  31. // 设置事务为非自动提交
  32. conn.setAutoCommit(false);
  33. // Statement st = conn.createStatement();
  34. // 比起st,pst会更好些
  35. PreparedStatement pst = conn.prepareStatement("");
  36. // 外层循环,总提交事务次数
  37. for (int i = 0; i <= endCount / singleCount; i++) {
  38. // 第次提交步长
  39. for (int j = 1; j <= singleCount; j++) {
  40. // 构建sql后缀
  41. // suffix.append("(" + j * i + ", SYSDATE(), " + i * j
  42. // * Math.random() + ",'" + randomStr(6) + "'),");
  43. int index = i * singleCount + j;
  44. //字符串类型添加'引号
  45. suffix.append("(");
  46. suffix.append("'");
  47. suffix.append(createORGCODE(index, flag));
  48. suffix.append("'");
  49. suffix.append(",");
  50. suffix.append("'");
  51. suffix.append(createORGNAME(index, flag));
  52. suffix.append("'");
  53. suffix.append(",");
  54. suffix.append("'");
  55. suffix.append(creteORGADDRESS(index, flag));
  56. suffix.append("'");
  57. suffix.append(",");
  58. suffix.append("'");
  59. suffix.append(createORGTYPECODE(index, flag)); //机构类型
  60. suffix.append("'");
  61. suffix.append(",");
  62. suffix.append("'");
  63. suffix.append(createREGNO(index, flag)); //注册号
  64. suffix.append("'");
  65. // suffix.append(",");
  66. // suffix.append(creteDate(index, flag)); //成立日期
  67. suffix.append(",");
  68. suffix.append("'");
  69. suffix.append(createSTATUS(index, flag)); //状态
  70. suffix.append("'");
  71. suffix.append(",");
  72. suffix.append("'");
  73. suffix.append(createSTATUSNAME(index, flag)); //状态名称
  74. suffix.append("'");
  75. suffix.append(",");
  76. suffix.append("'");
  77. suffix.append(createECNOMICCODE(index, flag)); //经济类型
  78. suffix.append("'");
  79. suffix.append(",");
  80. suffix.append("'");
  81. suffix.append(createECNOMIC_CODE_NAME(index, flag)); //经济类型名称
  82. suffix.append("'");
  83. suffix.append(",");
  84. suffix.append("'");
  85. suffix.append(createStringType("行业类别", index, flag)); //行业类别
  86. suffix.append("'");
  87. suffix.append(",");
  88. suffix.append("'");
  89. suffix.append(createStringType("行业类别名称", index, flag)); //行业类别名称
  90. suffix.append("'");
  91. suffix.append(",");
  92. suffix.append(createIntType(index, flag));//注册资金
  93. suffix.append(",");
  94. suffix.append("'");
  95. suffix.append(createStringType("统一信用代码", index, flag)); //同一信用代码
  96. suffix.append("'");
  97. suffix.append("),");
  98. }
  99. // 构建完整sql
  100. String sql = prefix + suffix.substring(0, suffix.length() - 1);
  101. pst.addBatch(sql);
  102. // 添加执行sql
  103. // 执行操作
  104. pst.executeBatch();
  105. // 提交事务
  106. conn.commit();
  107. System.out.println("提交成功..." + i * singleCount);
  108. // 清空上一次添加的数据
  109. suffix = new StringBuffer();
  110. }
  111. // 头等连接
  112. pst.close();
  113. conn.close();
  114. } catch (SQLException e) {
  115. e.printStackTrace();
  116. }
  117. // 结束时间
  118. Long end = new Date().getTime();
  119. // 耗时
  120. System.out.println("cast : " + (end - begin) / 1000 + " ms");
  121. }

注意点

  1. 创建表时,指定MYISAM

    CREATE TABLE bigdata.tb_test_leagal_person_2 (

    1. id INT AUTO_INCREMENT,
    2. ORG_CODE VARCHAR(9),
    3. ORG_NAME VARCHAR(140),
    4. ORG_ADDRESS VARCHAR(300),
    5. ORG_TYPE_CODE VARCHAR(100),
    6. REG_NO VARCHAR(100),
    7. `STATUS` VARCHAR(100),
    8. STATUS_NAME VARCHAR(100),
    9. ECNOMIC_CODE VARCHAR(100),
    10. ECNOMIC_CODE_NAME VARCHAR(100),
    11. INDUSTRY_CODE VARCHAR(100),
    12. INDUSTRY_CODE_NAME VARCHAR(100),
    13. REG_CAPITAL INT(10),
    14. UNI_SCID VARCHAR(100),
    15. PRIMARY KEY (id)

    ) ENGINE MYISAM, CHARSET utf8,
    AUTO_INCREMENT 0;

  2. SQL拼接多个value值

  3. 设置事务为非自动提交
  4. SET GLOBAL max_allowed_packet=100 *1024*1024*20;

参考链接

https://blog.csdn.net/u010180815/article/details/79166502

https://blog.csdn.net/hewei314599782/article/details/80774162

发表评论

表情:
评论列表 (有 0 条评论,191人围观)

还没有评论,来说两句吧...

相关阅读