SIMD and Avx2-蒲公英云

SIMD and Avx2

SIMD 一条指令可以执行多个数据group的计算和输出。对于SIMD相对应的SISD.
intel SSE2 , AVX2, AVX-512

假设有一个任务是统计字符串中每一个字符出现的次数，我们可以用128bit 的SISD指令进行统计。每8个bit代表一个字符，所以只需要两个SIMD指令（move mask、pop count）。
在这里插入图片描述

详细测试:

#include <stdio.h>
#include <thread>
#define INC_TO 1000000 // one million...
#include <mutex>
#include <functional>
#include <atomic>
#include <vector>
#include <sstream>
#include <iostream>
#include <emmintrin.h>
#include <immintrin.h>
#include <assert.h> 
#include <x86intrin.h>
struct StringView {
  char* buffer;
  size_t len;
};
void RandomGeneratorFile(const char* filename) {
  FILE* fp =  fopen(filename, "w");
  const size_t numbers = 16*8*1000;
  size_t count =0;
  do {
    for (char i = 'A'; i < 'Z'; i++) {
      fputc(i, fp);
    }
    count++;
  } while (count < numbers);
  fclose(fp);
}
StringView* GetFileContent(const char* filename) {
  FILE* fp = fopen(filename, "r");
  /*Move file point at the end of file.*/
  fseek(fp,0,SEEK_END);
  /*Get the current position of the file pointer.*/
  size_t size=ftell(fp);
  printf("file size:%d\n", size);
  char * buffer = new char[size];
  fseek(fp, 0, SEEK_SET);
  fread(buffer, size, size, fp);
  //  printf("content of buffer:%s\n", buffer);
  fclose(fp);
  StringView* str = new StringView();
  str->buffer = buffer;
  str->len = size;
  return str;
}
// 正常统计字符串
size_t count_chars_8(const char* data, size_t size, const char ch)
{
  size_t total = 0;
  while (size) {
    if (*data == ch)
      total += 1;
    data += 1;
    size -= 1;
  }
  return total;
}
// SIMD
size_t count_chars_128(const char* data, size_t size, const char ch)
{
  size_t total = 0;
  assert(size % 16 == 0);
  // 将ch广播16次
  __m128i tocmp = _mm_set1_epi8(ch);
  while (size) {
    int mask = 0;
    // 从memory 取出128bit数据
    __m128i chunk = _mm_load_si128 ((__m128i const*)data);
    // 对128bit数据进行比较， 返回16bit
    __m128i results = _mm_cmpeq_epi8(chunk, tocmp);
    // 
    mask = _mm_movemask_epi8(results);
    //统计int32的bit位是1的值
    // _mm_ prefix, because it does not operate on 128-bit registers, it just operates on standard 64-bit registers.
    total += _popcnt32(mask);
    data += 16;
    size -= 16;
  }
  return total;
}
// AVX
size_t count_chars_avx(const char* data, size_t size, const char ch)
{
  size_t total = 0;
  assert(size % 16 == 0);
  __m256i tocmp = _mm256_set1_epi8(ch);
  while(size) {
    __m256i chunk = _mm256_loadu_si256((__m256i*)data);
    __m256i results = _mm256_cmpeq_epi8(tocmp, chunk);
    unsigned mask = _mm256_movemask_epi8(results);
    total += __builtin_popcount(mask);
    data += 32;
    size -= 32;
  }
  // printf("count:%d\n", total);
  return total;
}
static void print_time_us(const char* name, 
      size_t(*fn)(const char*, size_t, const char), const char* a,
      size_t size, const char ch) {
    struct timespec start, end;
    clock_gettime(CLOCK_MONOTONIC_RAW, &start);
    fn(a, size, ch);
    clock_gettime(CLOCK_MONOTONIC_RAW, &end);
    uint64_t delta_us = (end.tv_sec - start.tv_sec) * 1000000 + (end.tv_nsec - start.tv_nsec) / 1000;
    printf("Running: '%s' took %llu u/s\n", name, delta_us);
}
int main()
{
  RandomGeneratorFile("test.file");
  StringView* str = GetFileContent("test.file");
  print_time_us("NORMAL", count_chars_8, str->buffer, str->len, 'A');
  print_time_us("SIMD", count_chars_128, str->buffer, str->len, 'A');
  print_time_us("AVX", count_chars_avx, str->buffer, str->len, 'A');
  return 0;
}

编译命令：g++ -std=c++14 main.cc -o main -mavx -mavx2 -O2

输出：

file size:3200000
Running: 'NORMAL' took 2505 u/s
Running: 'SIMD' took 192 u/s
Running: 'AVX' took 97 u/s

SIMD and Avx2

发表评论取消回复

还没有评论，来说两句吧...

相关阅读

相关解决Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX AVX2

相关 ARM - Advanced SIMD register - quadword (128 bits wide) and doubleword (64 bits wide)

相关 SIMD and Avx2

相关 SIMD（MMX/SSE/AVX）变量命名规范心得

相关 SIMD、MMX、SSE、AVX、3D Now！、neon

相关【整理】SIMD、MMX、SSE、AVX、3D Now！、neon——指令集大全

相关 OpenMP4.0: #pragma openmp simd实现SIMD指令优化(ARM,X86,MIPS)

相关安装Tensorflow优化cpu:AVX AVX2

相关完美解决Tensorflow不支持AVX2指令集问题

相关成功解决Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX AVX2

随便看看

一个后台开发工程师的“窦娥冤”！

设计模式这样玩泰简单(Golang版)-组合模式

cent os打开mysql数据库,CentOS下载mysql哪个版本_网站服务器运行维护,centos,mysql,版本...

5个常问的 Vue3 优势点

立德树人

不要再用 Vue2 的思维写 Vue3 了

教程文章

热评文章

1江湖小白之一起学Python （二）爬取数据的保存

2Java Shiro：简化身份验证和授权的安全框架

3Java中try()catch{}的使用方法

4Swagger注解-@ApiModel 和 @ApiModelProperty

5windows下强制杀死tomcat进程

6uni-app 条形码(一维码)/二维码生成实现

标签列表