深入理解 C 语言的 hello world

时间：2021-12-21 11:23:28 来源：作者：一起学嵌入式

引言

在学习C语言或者其他编程语言的时候，我们编写的一个程序代码，基本都是在屏幕上打印出 hello world ，开始步入编程世（深）界（坑）的。C 语言版本的 hello world 代码：

#include <stdio.h>

int main()
{
  printf("hello worldn");
  return 0;
}

不用多说，这段程序在运行时，会在显示终端上打印出 hello world 。

那么，这段程序背后关联的内容，你是否真正梳理明白了呢？

源程序代码是如何编译成可执行程序的？
#include<stdio.h> 的作用是什么？
hello world 程序是怎样运行起来的？
printf 是怎样将字符串 "hello world" 输出到终端的？
hello world 程序在运行时，它在内存中是什么样子的？
程序的执行入口为什么是 main 函数？
可执行文件的内部结构是怎么样的？

闲话少说，让我们进入正题，扒一扒 hello world 背后的内幕。

注：本文是在 Ubuntu 环境下对程序的编译和运行进行实验，相关内容以 linux 系统为主。

程序编译

在 Linux 系统或者其他环境下，将源码编程成可执行程序，很简单。点击编译按钮或者输入编译指令即可完成。例如，在 Linux 下，用 gcc 编译此程序代码，然后运行：

$ gcc hello.c -o hello
$ ./hello

hello world

但是，你知道编译器干了哪些工作吗？编译器将源代码文件编程成可执行程序，经历了四步：编译预处理、编译、汇编、链接。

编译过程

1. 编译预处理

编译预处理过程主要是处理源代码文件中，以 “#” 开头的预编译指令。例如，“#inlude”、“#define”等。

预处理器根据以字符 “#” 开头的指令，修改原始的 C 程序文件，生成一个以 .i 为扩展名的程序文件。

本例中，#include<stdio.h> 命令告诉预处理器，读取系统头文件 stdio.h 的内容，并把它插入到源程序文本中。

在 Linux 环境下，可以通过如下指令得到预处理完成后的 .i 文件

$ gcc -E hello.c -o hello.i

这个文件内容比较长，如果有兴趣的话可以自己进行实验，查看一下。

2. 编译

编译的过程就是把预处理完的文件，进行一系列的词法分析、语法分析、语义分析以及优化后，生成相应的汇编代码文件。这个过程往往是整个程序构建的核心部分。

将 hello.i 文件翻译成文本文件 hello.s，其内部是一个汇编语言的程序。

通过如下指令可以得到汇编文件

$ gcc -S hello.i -o hello.s

3. 汇编

汇编器将上一步生成的汇编代码翻译成机器可以执行的指令，把这些指令打包成可重定位目标程序，保存在目标文件 hello.o 中。

可以通过下边的指令生成：

$ gcc -c hello.s -o hello.o

文件 hello.o 是一个二进制文件。

4. 链接

hello 程序调用了 printf 函数，这是标准 C 库中的一个函数。printf 函数存储在一个预编译好的目标文件 printf.o 中，链接器负责将这个文件以某种方式合并到 hello.o 程序中。

合并处理后，得到一个可执行目标文件 hello，这个可执行文件可以由系统加载运行。

程序运行

hello.c 程序已经被编译可执行的目标文件 hello，且存在磁盘上。那这个程序是如何运行起来的呢？

当然，你可以说，通过如下指令可以运行程序：

$ ./hello

hello world

但是，从计算机角度来说，运行这个程序需要做哪些工作呢？

当输入 “./hello” 后，shell 开始处理这条指令。

首先，shell 加载可执行文件 hello，复制目标文件 hello 中的代码和数据到内存中。

数据和指令加载完成后，处理器开始执行 hello 程序中 main 函数的机器指令。这些指令将 “hello world” 字符串中的字节复制到寄存器文件，再从寄存器文件中复制显示设备上，最终在屏幕上显示出来。

程序执行过程

其实，操作系统在加载程序后，还做了一些工作，用于准备 main 函数执行需要的环境，然后调用 main 函数。

可执行程序文件

在 Linux 下，可执行文件的存储格式为 ELF（Executable Linkable Format）。那么其内部结构是什么样的呢？

典型的 ELF 可执行文件的布局情况如下：

可执行文件布局

ELF 头部描述了整个文件的属性，包括，文件是否可执行、目标硬件、目标操作系统、入口点等信息。

.init 定义了一个小函数，叫做 _init，程序的初始化代码会调用它。

.text 为已编译程序的机器代码。 .rodata 为只读数据，比如 printf 语句中格式串。.data 为已初始化的全局和静态 C 变量。

.bss 存放未初始化的全局变量和局部静态变量，以及所有被初始化为 0 的全局或静态变量。不占用实际的空间，只是一个占位符。

.symtab 是一个符号表，存放在程序中定义和引用的函数和全局变量的信息。

.debug 一个调试符号表，内部是程序定义的局部变量和类型定义，程序定义和引用的全局变量，以及原始的 C 源文件。

.line 源程序中的行号和 .text 节中机器指令之间的映射。

.strtab 一个字符串表，内容包括 .symtab 和 .debug 节中的符号表，以及节头部中的节名字。

总体来说，将程序源码编译之后生成的目标文件，主要分成两种段：程序指令和程序数据。代码段属于程序指令，数据段和 .bss 段属于程序数据。

加载可执行程序

可执行程序被加载器加载到内存，即从磁盘内复制可执行文件中的代码和数据到内存中，然后跳转到程序的入口点来运行该程序。将程序复制到内存并运行的过程就叫做加载。

在 Linux 系统中，每个程序都有一个运行时的内存映像。

程序加载后内存布局

代码段后边是数段，运行时，堆在数据段之后，通过调用 malloc 库向上增长。

用户栈总是从最大的合法用户地址开始，向较小内存地址增长。

用户栈以上的区域，是为内核中的代码和数据保留的。

程序加载运行时，会创建类似上图所示的内存映像，在程序头部的引导下，加载器将可执行文件复制到代码段和数据段，然后加载器跳转到程序的入口点。

入口点的函数调用启动函数，初始化执行环境，然后调用用户层的 main 函数，处理 main 函数的返回值，并在需要的时候把控制权返回给内核。

main 函数为作为用户可执行程序的入口，是由系统启动函数内部定义的。在环境准备好后，调用 main 函数，开始执行用户程序。

总结

没想到，这么简单的程序背后，涉及到这么多知识内容。

源码文件编译成可执行文件具体过程。
可执行目标程序加载和执行的详细过程。
可执行目标文件内部结构布局。
目标文件加载到内存后的布局情况。

Tags：C 语言点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

深入理解 C 语言的 hello world

引言在学习C语言或者其他编程语言的时候，我们编写的一个程序代码，基本都是在屏幕上打印出 hello world ，开始步入编程世（深）界（坑）的。C 语言版本的 hello world 代码：#include <std...【详细内容】

2021-12-21　　Tags: C 语言点击:(10)　　评论:(0)　　加入收藏

C 语言简单编程速成

我们将所有的 C 语言要素放置到一份易读的备忘录上。• 来源：linux.cn • 作者：Seth Kenlon • 译者：郑 •（本文字数：5500，阅读时长大约：8 分钟）我们将所有的 C 语...【详细内容】

2020-10-18　　Tags: C 语言点击:(96)　　评论:(0)　　加入收藏

C 语言和 C++、C# 的区别在什么地方？

C程序是一组函数和数据类型，就像一把锋利的随身匕首，非常灵活，在高手的手上可以幻化出各种招式，杀人于无形。C++程序是一组函数和类，像一门大炮，扛在肩上很重，炮弹打出去威力很大，但...【详细内容】

2019-12-20　　Tags: C 语言点击:(124)　　评论:(0)　　加入收藏

如何轻松使用 C 语言实现一个栈？

数据结构是什么？要了解数据结构，我们要先明白数据和结构，数据就是一些int char 这样的变量，这些就是数据，如果你是一个篮球爱好者，那么你的球鞋就是你的数据，结构就是怎么把这些数据排列组合，怎么把数据摆放好才能方便你找到...【详细内容】

2019-11-04　　Tags: C 语言点击:(78)　　评论:(0)　　加入收藏

C 语言实现的跨平台开发库 TBOX

TBOX 是一个用 C 语言实现的跨平台开发库。针对各个平台，封装了统一的接口，简化了各类开发过程中常用操作，使你在开发过程中，更加关注实际应用的开发，而不是把时间浪费在琐碎的接...【详细内容】

2019-10-12　　Tags: C 语言点击:(83)　　评论:(0)　　加入收藏

▌简易百科推荐

C# 校验帮助类-正则表达式

一、简介很多时候我们都需要用到一些验证的方法，有时候需要用正则表达式校验数据时，往往需要到网上找很久，结果找到的还不是很符合自己想要的。所以我把自己整理的校验帮助类分...【详细内容】

2021-12-27　　中年农码工　　　　Tags:C# 　点击:(0)　　评论:(0)　　加入收藏

深入理解 C 语言的 hello world

2021-12-21　　一起学嵌入式　　　　Tags:C 语言　点击:(10)　　评论:(0)　　加入收藏

c#读写SQLite数据库文件例子

读取SQLite数据库，就是读取一个路径\\192.168.100.**\position\db.sqlite下的文件<startup useLegacyV2RuntimeActivationPolicy="true"> <supportedRuntime version="v4.0"/...【详细内容】

2021-12-16　　今朝我的奋斗　　　　Tags:c# 　点击:(21)　　评论:(0)　　加入收藏

每一个程序员都应该学点shell脚本知识

什么是shellshell是c语言编写的程序，它在用户和操作系统之间架起了一座桥梁，用户可以通过这个桥梁访问操作系统内核服务。它既是一种命令语言，同时也是一种程序设计语言，你可以...【详细内容】

2021-12-16　　梦回故里归来　　　　Tags:shell脚本　点击:(16)　　评论:(0)　　加入收藏

如何理解c/c++和php语言的区别

一、编程语言1.根据熟悉的语言，谈谈两种语言的区别？主要浅谈下C/C++和PHP语言的区别:1)PHP弱类型语言，一种脚本语言，对数据的类型不要求过多，较多的应用于Web应用开发，现在好多互...【详细内容】

2021-12-15　　linux上的码农　　　　Tags:c/c++ 　点击:(17)　　评论:(0)　　加入收藏

C语言字符串输入及输出的几种方式

1.字符串数组+初始化char s1[]="array"; //字符数组char s2[6]="array"; //数组长度=字符串长度+1，因为字符串末尾会自动添‘\0‘printf("%s,%c\n",s1,s2[2]);...【详细内容】

2021-12-08　　灯-灯灯　　　　Tags:C语言　点击:(46)　　评论:(0)　　加入收藏

C/C++｜图文深入理解函数调用的5种约定

函数调用约定（Calling Convention），是一个重要的基础概念，用来规定调用者和被调用者是如何传递参数的，既调用者如何将参数按照什么样的规范传递给被调用者。在参数传递中，有两个很...【详细内容】

2021-11-30　　小智雅汇　　　　Tags:函数　点击:(19)　　评论:(0)　　加入收藏

C语言习题：苹果装盘问题！用递归如何求解？

一、问题提出问题：把m个苹果放入n个盘子中，允许有的盘子为空，共有多少种方法？注：5,1,1和1 5 1属同一种方法m,n均小于10二、算法分析设f(m,n) 为m个苹果，n个盘子的放法数目，则先对...【详细内容】

2021-11-17　　C语言编程　　　　Tags:C语言　点击:(46)　　评论:(0)　　加入收藏

C++内存池的简单原理及实现(纯代码解析)

一、为什么需要使用内存池在C/C++中我们通常使用malloc,free或new,delete来动态分配内存。一方面，因为这些函数涉及到了系统调用，所以频繁的调用必然会导致程序性能的损耗；另一...【详细内容】

2021-11-17　　深度Linux　　　　Tags:C++ 　点击:(37)　　评论:(0)　　加入收藏

C#中使用opencv处理图像

OpenCV(Open Source Computer Vision Library)是一个(开源免费)发行的跨平台计算机视觉库，可以运行在Linux、Windows、Android、ios等操作系统上，它轻量级而且高效---由一系列...【详细内容】

2021-11-11　　zls315　　　　Tags:C# 　点击:(50)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为