一文带你深入了解C++中音频PCM数据

很久没安静的回忆了 2023-03-20 我要评论

PCM(Pulse Code Modulation)也被称为脉冲编码调制，是数字通信的编码方式之一。PCM中的声音数据没有被压缩，它将输入的模拟信号进行采样、量化和编码，用二进制进行编码的数来代表模拟信号的幅度，即标准的数字音频数据。

采样转换方式参考下图进行了解：

采样率

采样率表示音频信号每秒的数字快照数。该速率决定了音频文件的频率范围。采样率越高，数字波形的形状越接近原始模拟波形。低采样率会限制可录制的频率范围，这可导致录音表现原始声音的效果不佳。一般数字音频常用的采样率电话频率8kHz、CD频率44.1kHz、DVD频率48kHz。

位深度

位深度决定动态范围。采样声波时，为每个采样指定最接近原始声波振幅的振幅值。较高的位深度可提供更多可能的振幅值，产生更大的动态范围、更低的噪声基准和更高的保真度。普通的CD是16-bit。

通道

通道个数。常见的音频有立体声(stereo)和单声道(mono)两种类型，立体声包含左声道和右声道。另外还有环绕立体声等其它不太常用的类型。

Sign

表示样本数据是否是有符号位，比如用一字节表示的样本数据，有符号的话表示范围为-128 ~ 127，无符号是0 ~ 255。

字节序

字节序是little-endian还是big-endian。通常均为little-endian

PCM信号的两个重要指标是采样频率和量化精度，当在播放音乐时，应用程序从存储介质中读取音频数据（MP3、WMA、AAC等），经过解码后，最终送到音频驱动程序中的就是PCM数据，反过来，在录音时，音频驱动不停地把采样所得的PCM数据送回给应用程序，由应用程序完成压缩、存储等任务。下面我们展开介绍下PCM音频的存储及操作

PCM音频数据存储方式

如果是单声道的音频文件，采样数据按时间的先后顺序依次存入（有的时候也会采用LRLRLR方式存储，只是另一个声道的数据为0），如果是双声道的话就按照LRLRLR的方式存储，存储的时候与字节序有关。

big-endian模式如下图所示：

PCM开发实战

分离双声道PCM音频数据左右声道的数据

按照双声道的LRLRLR的PCM音频数据可以通过将它们交叉的读出来的方式来分离左右声道的数据。

int pcm_s16le_split(const char* file, const char* out_lfile, const char* out_rfile) {
     FILE *fp = fopen(file, "rb+");
     if (fp == NULL) {
         printf("open %s failed\n", file);
         return -1;
     }
     FILE *fp1 = fopen(out_lfile, "wb+");
     if (fp1 == NULL) {
         printf("open %s failed\n", out_lfile);
         return -1;
     }
     FILE *fp2 = fopen(out_rfile, "wb+");
     if (fp2 == NULL) {
         printf("open %s failed\n", out_rfile);
         return -1;
     }
     char * sample = (char *)malloc(4);
     while(!feof(fp)) {
         fread(sample, 1, 4, fp);
         //L
         fwrite(sample, 1, 2, fp1);
         //R
         fwrite(sample + 2, 1, 2, fp2);
     }
     free(sample);
     fclose(fp);
     fclose(fp1);
     fclose(fp2);
     return 0;
 }

PCM降低某个声道的音量

一般来说 PCM 数据中的波形幅值越大，代表音量越大，对于 PCM 音频数据而言，它的幅值（即该采样点采样值的大小）代表音量的大小。如果我们需要降低某个声道的音量，可以通过减小某个声道的数据的值来实现降低某个声道的音量。

int pcm16le_half_volume_left( char *url ) {
    FILE *fp_in = fopen( url, "rb+" );
    if (fp_in == NULL) {
         printf("open %s failed\n", infile);
         return -1;
     }
    FILE *fp_out = fopen( "output_half_left.pcm", "wb+" );
    if (fp_out == NULL) {
         printf("open %s failed\n", outfile);
         return -1;
     }
    unsigned char *sample = ( unsigned char * )malloc(4); // 一次读取一个sample，因为是2声道，所以是4字节 
    while ( !feof( fp_in ) ){
        fread( sample, 1, 4, fp_in );
        short* sample_num = ( short* )sample; // 转成左右声道两个short数据
        *sample_num = *sample_num / 2; // 左声道数据减半
        fwrite( sample, 1, 2, fp_out ); // L
        fwrite( sample + 2, 1, 2, fp_out ); // R
    }
    free( sample );
    fclose( fp_in );
    fclose( fp_out );
    return 0;
}

上述程序做的事情是：在读出左声道的 2 Byte 的取样值之后，将其转成了 C 语言中的一个 short 类型的变量。将该数值除以 2 之后写回到了 PCM 文件中。

将PCM16LE双声道音频采样数据的声音速度提高一倍

下面函数可以通过抽象的方式将PCM16LE双声道数据的速度提高一倍，采样左右声道按奇(偶)数点的样值的方式，函数的代码如下所示：

int simplest_pcm16le_doublespeed(char *url){
    FILE *fp=fopen(url,"rb+");
    if (fp == NULL) {
         printf("open %s failed\n", file);
         return -1;
     }
    FILE *fp1=fopen("output_doublespeed.pcm","wb+");
    if (fp1 == NULL) {
         printf("open %s failed\n", outFile);
         return -1;
     }
    int cnt=0;
 
    unsigned char *sample=(unsigned char *)malloc(4);
 
    while(!feof(fp)){
 
        fread(sample,1,4,fp);
 
        if(cnt&1!=0){
            //L
            fwrite(sample,1,2,fp1);
            //R
            fwrite(sample+2,1,2,fp1);
        }
        cnt++;
    }
    printf("Sample Cnt:%d\n",cnt);
 
    free(sample);
    fclose(fp);
    fclose(fp1);
    return 0;
}

一文带你深入了解C++中音频PCM数据

采样率

位深度

通道

Sign

字节序

PCM音频数据存储方式

PCM开发实战

相关文章

猜您喜欢

今日热门