当前位置：首页 > news >正文

《从0到1：C/C++音视频开发自学指南》

news 2025/6/26 8:27:30

开启自学之旅：为何选择 C/C++ 音视频开发

在当今数字化时代，音视频开发的应用场景极为广泛，深刻融入了我们生活与工作的方方面面。从火爆的直播行业，无论是电商直播中主播与观众的实时互动，还是游戏直播里精彩赛事的实时呈现；到备受欢迎的短视频平台，各种创意短视频的制作与分享；再到便捷的视频会议，让远程办公、在线教育成为可能，实现了跨地域的高效沟通与协作。这些丰富多样的应用场景，都离不开音视频开发技术的有力支撑，也预示着该领域拥有广阔的发展前景，相关专业人才的需求持续攀升。

而 C/C++ 语言在音视频开发领域具有无可比拟的优势，这也是众多开发者选择它的重要原因。首先，C/C++ 具备卓越的性能表现。在处理大量音视频数据时，效率至关重要。例如，在高清视频的编解码过程中，C/C++ 能够凭借其高效的代码执行速度，快速完成复杂的算法运算，确保视频的流畅播放，减少卡顿现象，为用户带来优质的观看体验。其次，C/C++ 拥有对底层的强大操控能力。音视频开发常常涉及到与硬件设备的交互，如摄像头、麦克风等的驱动开发，以及对内存、CPU 等硬件资源的精细管理。C/C++ 可以直接操作硬件寄存器，实现对硬件的精准控制，优化资源的使用效率，这是许多高级语言难以企及的。此外，经过多年的发展，C/C++ 积累了丰富的音视频开发库和工具，像大名鼎鼎的 FFmpeg，它提供了全面的音视频处理功能，从格式转换到编解码，再到滤镜处理等，为开发者节省了大量的开发时间和精力。

必备知识储备：C/C++ 与音视频基础

C/C++ 基础要点

在深入学习 C/C++ 音视频开发之前，扎实掌握 C/C++ 语言基础是关键。C++ 的 RAII 智能指针与动态内存管理是内存管理的重要机制，比如在音视频开发中，使用智能指针管理音视频数据缓冲区的内存，能有效避免内存泄漏，确保程序在处理大量数据时的稳定性。C++ 的动态多态性和静态多态性也非常重要，动态多态通过虚函数实现，在音视频编解码模块中，可根据不同的编解码需求，通过动态多态选择合适的编解码实现；静态多态则通过模板实现，常用于通用算法的实现，提高代码的复用性。

标准库中的常用数据结构和算法是开发的基石。例如，使用vector存储音视频帧数据，利用map管理音视频的参数配置等。理解面向接口编程、低耦合的模块化设计思想，并能灵活运用常用设计模式至关重要。以观察者模式为例，在音视频播放器中，当播放状态发生变化时，如播放、暂停、停止等，可通过观察者模式通知相关的模块进行相应的处理，实现模块间的解耦。跨平台的多线程并发编程和网络编程也是必备技能。在音视频开发中，多线程可用于音视频数据的并行处理，如一边进行视频解码，一边进行音频解码，提高处理效率；网络编程则用于实现音视频的网络传输，如直播中的推流和拉流。

音视频基础概念

音频基础概念包括采样率、声道数与声道布局、采样格式、PCM 与波形图、音质、音频编码格式、音频封装格式等。采样率决定了音频的频率分辨率，常见的采样率有 44.1kHz、48kHz 等，采样率越高，能还原的声音细节越丰富。声道数表示声音的通道数目，常见的有单声道、双声道（立体声）、5.1 声道等，不同的声道布局能营造出不同的听觉效果。采样格式定义了音频数据的存储方式，如 PCM 的不同格式。PCM 是未经压缩的原始音频数据，通过观察 PCM 的波形图，可以直观地了解音频的特性。音质则受音色、音调、音量等因素影响。常见的音频编码格式有 mp3、aac、ac3、opus 等，不同的编码格式在压缩比、音质等方面各有特点；音频封装格式如 mp3、m4a、flac、wav 等，用于将音频数据和相关元数据封装在一起。

视频基础概念包括帧率、码率、分辨率、像素格式、色彩空间、I 帧 P 帧 B 帧、DTS 与 PTS、YUV 与 RGB、位深与色域、视频编码格式、视频封装格式等。帧率指视频每秒显示的帧数，常见的帧率有 25fps、30fps、60fps 等，帧率越高，视频越流畅。码率是视频数据传输时单位时间内传输的数据量，码率越高，视频质量通常越好，但占用的带宽也越大。分辨率定义了视频画面的尺寸，如 1920×1080、3840×2160 等。像素格式和色彩空间决定了视频图像的颜色表示方式，常见的有 YUV 和 RGB，YUV 格式在视频编码中应用广泛，能减少数据量。I 帧、P 帧、B 帧是视频编码中的不同帧类型，I 帧是关键帧，包含完整的图像信息，P 帧和 B 帧则基于 I 帧进行预测编码，通过不同帧的配合，实现高效的视频压缩。DTS（解码时间戳）和 PTS（显示时间戳）用于确保音视频的同步播放。位深和色域影响视频图像的色彩精度和范围。常见的视频编码格式有 H264、HEvC、vP9、AV1 等，视频封装格式有 mp4、mkv、flv、avi 等。

搭建开发环境：工欲善其事，必先利其器

选择合适的操作系统

在音视频开发中，不同操作系统各有优劣，开发者需根据自身需求做出选择。Windows 系统拥有广泛的用户基础，界面友好，易于操作，且有丰富的开发工具和软件资源。在 Windows 上，有许多成熟的音视频编辑软件，如 Adobe Premiere Pro、Final Cut Pro 等，方便开发者进行音视频处理和测试。同时，Windows 系统对硬件的兼容性较好，能适应各种配置的电脑。然而，Windows 系统在处理底层硬件和开源库的编译上相对复杂，例如在编译 FFmpeg 库时，可能会遇到各种依赖库的安装和配置问题。

Linux 系统则以其强大的命令行工具和对开源软件的良好支持而备受开发者青睐。Linux 下的开源音视频库丰富，如 FFmpeg、Gstreamer 等，在 Linux 系统中能更方便地进行编译和定制。而且，Linux 系统对硬件资源的利用效率较高，在服务器端的音视频开发中应用广泛，如流媒体服务器的搭建。但 Linux 系统的操作相对复杂，对初学者不太友好，需要花费时间学习命令行操作和系统配置。

MacOS 系统基于 Unix 内核，稳定性和性能表现出色。它自带了一些强大的多媒体框架，如 AVFoundation，为音视频开发提供了便利。对于从事 iOS 平台音视频开发的人员来说，MacOS 是必不可少的开发环境。不过，MacOS 的硬件成本较高，且软件生态相对 Windows 和 Linux 来说不够丰富。

安装开发工具

编译器是将 C/C++ 代码转换为可执行程序的关键工具。GCC（GNU Compiler Collection）是一款广泛使用的开源编译器，支持多种编程语言，在 Linux 和 Windows（通过 MinGW 等工具）上都能使用。在 Linux 系统中，安装 GCC 通常只需通过包管理器，如在 Ubuntu 中，使用命令sudo apt-get install build-essential即可安装，其中包含了 GCC、G++ 等编译工具。Clang 是一款基于 LLVM 的编译器，以其快速的编译速度和友好的错误提示而受到关注，在 MacOS 上是默认的编译器，在 Linux 和 Windows 上也可安装使用。在 CentOS 系统中，安装 Clang 可使用命令sudo yum install llvm llvm-devel clang 。

集成开发环境（IDE）能大大提高开发效率。CLion 是一款专为 C/C++ 开发设计的跨平台 IDE，它基于 IntelliJ 平台，拥有智能代码补全、代码分析、调试等强大功能。安装 CLion 时，可从官网下载安装包，在 Windows 系统上，下载完成后直接点击安装包，按照提示进行安装即可。安装完成后，还需配置 C/C++ 的编译环境，可选择 Visual Studio、MinGW 等编译环境，若选择 Visual Studio，需先安装 Visual Studio，安装后 CLion 一般能自动识别，若不能识别则需手动配置。Visual Studio 是微软推出的一款功能强大的 IDE，尤其在 Windows 平台上具有良好的兼容性和性能表现，提供了丰富的工具和功能，如代码编辑、调试、性能分析等，可从微软官网下载安装。

获取并配置音视频开发库

FFmpeg 是音视频开发中不可或缺的库，它提供了丰富的音视频处理功能。获取 FFmpeg 库，可从官网下载源码进行编译。在 Linux 系统中，编译 FFmpeg 的一般步骤如下：首先安装必要的依赖库，如yasm等，可使用命令sudo apt-get install yasm ；然后解压 FFmpeg 源码，进入解压后的目录，执行./configure命令进行配置，可根据需求添加参数，如--enable-shared表示编译共享库，--enable-gpl表示启用 GPL 协议等；配置完成后执行make命令进行编译，编译完成后执行make install命令进行安装。在 Windows 系统中，编译 FFmpeg 相对复杂，可参考相关教程，如使用 MSYS2 模拟 Linux 环境进行编译。

除了 FFmpeg，还有其他常用的音视频开发库。libav 是一个与 FFmpeg 类似的音视频处理库，它与 FFmpeg 有一定的渊源，部分功能和接口相似。Gstreamer 是一个多媒体框架，提供了丰富的插件和工具，用于构建多媒体应用程序，在 Linux 系统中使用广泛，可通过包管理器进行安装，如在 Ubuntu 中，使用命令sudo apt-get install gstreamer1.0-tools gstreamer1.0-plugins-base gstreamer1.0-plugins-good gstreamer1.0-plugins-bad gstreamer1.0-plugins-ugly gstreamer1.0-libav可安装常用的 Gstreamer 插件和工具。在使用这些库时，需根据项目需求进行选择和配置，例如在开发一个简单的音视频播放器时，可选择 FFmpeg 进行音视频的解码，使用 Gstreamer 进行播放和渲染。

实战学习：从理论到代码实现

音视频数据采集

音频和视频数据采集是音视频开发的第一步，其原理基于不同的物理设备和信号转换机制。在音频采集方面，麦克风将声音信号转换为电信号，这个电信号通常是模拟信号。然后，通过模数转换器（ADC）将模拟电信号转换为数字信号，按照一定的采样率和采样格式进行采样，得到数字音频数据，如常见的 PCM 数据。视频采集则是通过摄像头将光学图像信号转换为电信号，再经过一系列处理，如模数转换、色彩空间转换等，得到数字视频数据。

在不同系统平台上，有各自的采集 API 和工具。在 Windows 系统中，音频采集可使用 Windows Multimedia API，它提供了一系列函数用于音频的录制和播放。视频采集可使用 DirectShow API，它是一个用于处理流媒体的框架，能方便地实现摄像头视频的采集和处理。例如，使用 DirectShow 开发一个简单的视频采集程序，首先需要创建一个 Filter Graph Manager 对象，然后添加摄像头设备对应的源过滤器，再添加用于处理和显示视频的过滤器，最后运行 Filter Graph 即可实现视频采集。在 Linux 系统中，音频采集可使用 ALSA（Advanced Linux Sound Architecture）库，它提供了对音频设备的底层控制接口。视频采集可使用 V4L2（Video for Linux 2）接口，它是 Linux 内核中用于视频设备的驱动框架。以使用 V4L2 采集视频为例，需要打开视频设备文件，设置设备的参数，如分辨率、帧率等，然后通过内存映射的方式读取视频数据。

在 Android 系统中，音频采集可使用 MediaRecorder 类或 AudioRecord 类。MediaRecorder 类更适合简单的音频录制场景，它提供了方便的录制控制方法。AudioRecord 类则更底层，可用于更精细的音频采集控制。视频采集可使用 Camera 类或 CameraX 库，Camera 类是 Android 早期的摄像头 API，CameraX 库是一个更高级、更易用的摄像头库，它提供了统一的摄像头访问接口，支持多摄像头、不同分辨率和帧率的设置等。在 iOS 系统中，音频采集可使用 AVFoundation 框架中的 AVAudioRecorder 类。视频采集同样可使用 AVFoundation 框架中的 AVCaptureSession 类，通过配置 AVCaptureSession 对象，添加摄像头输入和视频输出，实现视频的采集。

音视频编解码

编解码是音视频开发的核心环节，其基本原理是利用各种算法对音视频数据进行压缩和解压缩。在音频编码中，通过分析音频信号的特性，去除冗余信息，降低数据量。例如，MP3 编码采用了子带编码、心理声学模型等技术，将音频信号划分为多个子带，根据人耳的听觉特性对不同子带的信号进行不同程度的压缩。视频编码则更为复杂，以 H264 编码为例，它采用了帧内预测、帧间预测、变换编码、熵编码等多种技术。帧内预测通过对当前帧内相邻像素的相关性进行预测，减少空间冗余；帧间预测利用相邻帧之间的相似性进行预测，减少时间冗余；变换编码将图像数据从空间域转换到频域，进一步去除冗余；熵编码则对变换后的系数进行编码，减少数据量。

结合 FFmpeg 库，进行音频和视频编解码有相对固定的流程和方法。在音频解码中，首先需要找到对应的音频解码器，如使用avcodec_find_decoder函数查找 MP3 解码器。然后创建解码器上下文，通过avcodec_alloc_context3函数分配上下文空间，并使用avcodec_open2函数打开解码器。接着读取音频数据，将数据发送到解码器进行解码。例如，从一个 MP3 文件中读取数据，使用av_read_frame函数读取数据包，然后通过avcodec_send_packet函数将数据包发送到解码器，再使用avcodec_receive_frame函数接收解码后的音频帧。在视频解码中，同样需要先找到视频解码器，创建解码器上下文并打开。以解码 H264 视频为例，从视频文件中读取数据包后，发送到解码器进行解码，得到解码后的视频帧。解码后的视频帧可能需要进行格式转换、缩放等后续处理，可使用 FFmpeg 提供的swscale库进行这些操作。

音视频封装与解封装

封装格式是将音频和视频数据以及相关的元数据（如帧率、分辨率、声道数等）按照一定的规则组合在一起的文件格式。常见的封装格式有 MP4、FLV、MKV 等。MP4 是一种广泛应用于网络视频、移动设备视频播放的封装格式，它具有良好的兼容性和扩展性。FLV 是一种适合网络流媒体传输的封装格式，常用于视频直播领域。MKV 则是一种开源的封装格式，支持多种音视频编码格式，能容纳多种类型的元数据。

使用 FFmpeg 进行音视频的封装与解封装操作，有具体的函数和步骤。在解封装时，首先使用avformat_open_input函数打开封装格式的文件，然后使用avformat_find_stream_info函数获取文件的流信息，包括音频流和视频流的相关信息。接着通过遍历流信息，找到音频流和视频流的索引。例如，对于一个 MP4 文件，通过上述步骤找到音频流和视频流的索引后，可分别对音频和视频进行解码操作。在封装时，首先需要创建一个输出格式上下文，使用avformat_alloc_context函数分配上下文空间。然后添加音频流和视频流到上下文，设置流的参数，如编码格式、帧率、码率等。最后将编码后的音频和视频数据写入输出文件，使用av_write_frame函数将数据包写入文件，完成封装操作。

流媒体传输

流媒体传输协议用于在网络上实时传输音视频数据，常见的流媒体传输协议有 RTMP、RTSP、HLS、WebRTC 等。RTMP（Real Time Messaging Protocol）是 Adobe 公司开发的一种实时消息传输协议，基于 TCP 协议，常用于视频直播领域。它具有低延迟、稳定可靠的特点，适合实时性要求较高的场景。RTSP（Real Time Streaming Protocol）是一种实时流传输协议，用于控制流媒体服务器和客户端之间的媒体流传输，它支持暂停、快进、快退等操作。HLS（HTTP Live Streaming）是苹果公司推出的基于 HTTP 的自适应码率流媒体传输协议，它将视频分割成多个小的 TS 文件，并通过 M3U8 索引文件来描述这些 TS 文件的信息。客户端根据网络状况自动选择合适码率的 TS 文件进行播放，实现自适应播放。WebRTC（Web Real-Time Communication）是一种支持浏览器之间实时通信的技术，它提供了音频、视频和数据传输的功能，无需安装插件，直接在浏览器中即可实现实时通信，广泛应用于视频会议、实时互动等场景。

以 RTMP 为例，基于 C/C++ 的推流和拉流有具体的实现步骤和代码示例。在推流方面，使用 FFmpeg 库进行 RTMP 推流，首先需要初始化 FFmpeg 库，注册所有的编解码器和复用器。然后创建一个 AVFormatContext 对象，设置输出格式为 RTMP 。接着打开 RTMP 输出流，使用avio_open函数打开输出流。之后创建音频和视频编码器上下文，配置编码器参数。例如，配置视频编码器为 H264 编码，设置帧率、码率、分辨率等参数。然后读取本地的音频和视频数据，进行编码后，通过av_write_frame函数将编码后的数据包写入 RTMP 输出流。在拉流方面，同样需要初始化 FFmpeg 库，创建 AVFormatContext 对象，使用avformat_open_input函数打开 RTMP 输入流。获取流信息后，找到音频和视频流的索引，分别创建解码器上下文并打开解码器。然后不断读取 RTMP 流中的数据包，发送到解码器进行解码，得到解码后的音频和视频数据，可进行播放或其他处理。

深入学习：进阶知识与技巧

音视频同步

在音视频播放系统中，音视频同步极为重要，其目的是确保视觉与听觉信息能在同一时间被用户接收，为用户提供连贯且自然的体验。若缺乏同步，观众会体验混乱，甚至无法理解内容，比如在视频会议中，音视频不同步会严重影响沟通效果。实现音视频同步面临诸多挑战，网络传输中的延迟和抖动会使音视频数据包到达的时间不一致；不同播放设备的性能差异，如 CPU、GPU 的处理能力不同，会导致音视频处理速度不同；编解码过程中的时间戳处理不当，也会引发同步问题。

业界常见的同步策略主要有三种。一是以外部时钟为参考对象，将音频和视频同步到此时间。例如在一些多路视频会议场景中，通过网络时间协议（NTP）获取精准的外部时钟，将各个参会端的音视频同步到这个统一的时间基准上。但这种方式在调整音频时，可能因频繁操作产生沙沙或刺耳的杂音，影响单个音视频的同步体验。二是以视频为基准，音频去同步视频的时间。此方案以视频时间为基准，判断音频快了还是慢了，进而调整音频的播放速度。不过人体对声音变化较为敏感，频繁调整音频易被察觉，效果欠佳。三是以音频为基准，视频去同步音频的时间。该方案与第二种相反，以音频时间为基准，判断视频的快慢并调整视频播放速度。由于人体对画面变化相对不敏感，在同步过程中视频轻微等待或丢掉一些非关键帧，不太影响观看体验，是较为合适的方案。例如在播放电影时，若音频播放稍快，视频可适当丢帧以保持与音频的同步。

在实际实现音视频同步时，可结合 FFmpeg 库进行。通过获取音频和视频的时间戳，比较两者的差异，进而调整播放速度或延迟。例如，在使用 FFmpeg 开发的播放器中，获取音频帧的 PTS（显示时间戳）和视频帧的 PTS，计算它们的时间差。若视频的 PTS 大于音频的 PTS，说明视频播放慢了，可适当加快视频的播放速度，如减少视频帧的显示时间；反之，若视频的 PTS 小于音频的 PTS，可适当延迟视频的播放，如增加视频帧的显示时间。同时，还需考虑缓冲区的管理，通过合理设置缓冲区的大小和读写策略，减少网络延迟和抖动对同步的影响。例如，设置一个适当大小的音频缓冲区和视频缓冲区，当网络延迟导致数据到达不及时时，可从缓冲区中读取数据进行播放，保证播放的连续性。

视频渲染与图像处理

视频渲染的基本原理是将解码后的视频帧数据转换为图像信号，输出到显示设备上。在这个过程中，涉及到像素格式转换、图像缩放、色彩空间转换等操作。例如，将 YUV 格式的视频帧转换为 RGB 格式，以便在显示器上正确显示。同时，根据显示设备的分辨率和尺寸，对视频帧进行缩放处理。在色彩空间转换方面，可能需要将不同的 YUV 色彩空间（如 YUV420、YUV444 等）进行转换，以适应不同的显示需求。

OpenGL 是一个跨平台的图形渲染 API，在视频渲染中应用广泛。在使用 OpenGL 进行视频渲染时，基本的图形绘制操作包括创建顶点数组、设置顶点属性、使用着色器程序等。例如，创建一个三角形顶点数组，通过设置顶点的位置、颜色等属性，使用顶点着色器和片段着色器对顶点进行处理，最终在屏幕上绘制出三角形。纹理映射是将视频帧数据作为纹理映射到一个矩形平面上，实现视频的显示。首先，生成纹理对象，将视频帧数据绑定到纹理对象上。然后，在顶点着色器中传递纹理坐标，在片段着色器中根据纹理坐标从纹理中采样颜色值，从而实现视频帧在矩形平面上的映射显示。

对于图像处理技术，以滤镜效果的实现为例。常见的滤镜效果如高斯模糊、边缘检测等。高斯模糊滤镜通过对图像中的每个像素进行加权平均，实现模糊效果。在实现时，定义一个高斯核，根据高斯核的权重对图像像素进行卷积操作。边缘检测滤镜则通过检测图像中像素的梯度变化，突出图像的边缘。例如，使用 Sobel 算子对图像进行卷积运算，计算图像在 x 和 y 方向上的梯度，根据梯度值判断像素是否为边缘像素。美颜效果的实现通常涉及到肤色检测、磨皮、美白等操作。肤色检测可通过对图像的颜色空间进行分析，根据肤色在特定颜色空间中的分布范围，检测出肤色区域。磨皮操作通过对肤色区域进行平滑处理，减少皮肤瑕疵。美白操作则通过调整图像的亮度和颜色，使肤色看起来更白皙。

音频处理与特效

音频处理的常见任务包括混音、降噪、变调等。混音是将多个音频信号混合成一个输出信号，在音乐制作、视频编辑等领域广泛应用。例如，在制作一段视频时，需要将背景音乐、人物对话、特效音等多个音频轨道混合在一起，形成一个完整的音频。降噪是减少音频信号中的噪声，提高音频质量。在语音通信、音频录制等场景中，环境噪声会影响音频的清晰度，通过降噪算法可去除这些噪声。变调是改变音频的音高，在音乐创作、音频特效制作中常用。例如，在一些搞笑音频中，通过变调使声音变得尖锐或低沉，增加趣味性。

SoX 是一个强大的音频处理库，被称为音频处理界的瑞士军刀。它提供了丰富的音频处理功能和命令行工具。例如，使用 SoX 进行音频格式转换，将 WAV 格式的音频转换为 MP3 格式，可使用命令sox input.wav output.mp3 。进行混音操作时，假设要将audio1.wav和audio2.wav混音，可使用命令sox audio1.wav audio2.wav -m output.wav 。在降噪方面，SoX 提供了一些滤波器来减少噪声。SoundTouch 是一个用于音频变速变调的库。使用 SoundTouch 进行变速变调操作时，首先创建一个 SoundTouch 对象，设置变速和变调的参数。例如，将音频的速度加快 1.5 倍，可设置setRate(1.5) ；将音频的音高升高 2 个半音，可设置setPitchSemiTones(2) 。然后，将音频数据输入到 SoundTouch 对象中进行处理，获取处理后的音频数据。

学习资源推荐：助力自学之路

在自学 C/C++ 音视频开发的过程中，丰富且优质的学习资源是我们前进的有力助推器。阅读相关书籍是深入学习的重要途径。《FFmpeg 从入门到精通》由刘歧、赵文杰编写，刘歧是 FFmpeg 官方源代码维护者，这本书对 FFmpeg 进行了全面而深入的介绍，从 FFmpeg 的基本概念、架构，到各种功能的使用方法，再到实际项目中的应用，都有详细的讲解，能帮助我们快速掌握 FFmpeg 这一音视频开发的利器。《WebRTC Native 开发实战》深入剖析了 WebRTC 在 Native 开发中的应用，包括 WebRTC 的原理、架构，以及在不同平台上的开发实践，对于想要深入了解 WebRTC 技术的开发者来说，是一本不可多得的好书。

关注业内知名博客也能让我们受益匪浅。雷霄骅（雷神）的博客是国内音视频领域的标杆，他的博客内容丰富，涵盖了音视频开发的各个方面，从基础概念到高级应用，从原理分析到代码实现，都有详细的讲解，且配有大量的代码示例和实验结果，便于读者理解和实践。例如，他对 FFmpeg 的系列文章，深入分析了 FFmpeg 的内部机制和使用技巧，为无数开发者提供了学习的思路和方法。卢俊的博客专注于直播、FFmpeg、Android 音视频等领域，分享了很多实际项目中的经验和技巧，对于正在从事或准备从事相关领域开发的读者来说，具有很高的参考价值。

开源项目是学习音视频开发的宝贵资源。ijkplayer 是 B 站开源的跨平台播放器，它基于 FFmpeg 进行开发，代码结构清晰，功能强大。通过学习 ijkplayer 的源码，我们可以深入了解音视频播放器的实现原理，包括音视频的解码、播放控制、同步等功能的实现。SRS 是一款简单高效的视频服务器，支持多种流媒体协议，如 RTMP、WebRTC、HLS 等。研究 SRS 的源码，能让我们掌握流媒体服务器的搭建和开发技术，了解如何实现音视频的推流、拉流、转发等功能。

在线课程则为我们提供了系统学习的平台。腾讯课堂上的 “FFmpeg/WebRTC/RTMP/NDK/Android 音视频流媒体高级开发” 课程，涵盖了音视频开发的各个方面，从基础到高级，从理论到实践，都有详细的讲解和实战项目。课程由经验丰富的讲师授课，通过视频讲解、代码演示、项目实战等方式，帮助学员快速掌握音视频开发技术。慕课网上也有很多关于音视频开发的课程，如 “音视频开发从入门到精通” 课程，从音视频的基础概念讲起，逐步深入到编解码、流媒体协议、播放器开发等核心内容，适合不同层次的学员学习。