深入理解scanf()

动机

有人发给了我这样一段代码

    int i=0;
    do {
        scanf("%d ", &array[i]);
        sum[i] = sumdigits(array[i]);
        i++;
    } while (i < 10);

这段代码的本意是依次读入10个整数到数组中，但实际上输入10个整数后，无论你怎样按回车他都不会进入到下一个语句，除非你再输入一个任意的非空白字符。

所以，这是为什么？他看上去不该那样，对吗？
注意到，%d后面跟了一个空格。

国内的教材大多非常粗浅，寥寥数语便讲解完这个函数。

下面我将和大家一起阅读POSIX对于scanf()的标准文档，希望从中能找到问题的答案。

我尽可能保证我的翻译是正确的。

scanf - 转换格式化的输入

#include <stdio.h>

int scanf(const char *restrict format, ...);

...说明其参数数量未定。

scanf()从标准输入(stdin)中读取字节，根据格式解释它们，并将结果存储在对应变量中。参数应当包括一个格式化字符串( 原文：control string format|指代形参中的format),以及一组指针参数(这解释了为什么变量前面要加&运算符)，转换后的输入被存入指代的位置。
如果指针参数的数量少于格式化字符串中的转换说明数量，那么结果是undefined(换而言之，不知道会发生什么，具体取决于编译器)
如果指针参数的数量少多格式化字符串中的转换说明数量，那么多余的指针参数仍然会被求值，但是会被忽略掉。
但不管怎么样，我们应该养成好的习惯，确保指针参数数量与转换说明数量一致。

格式通过字符串的形式来描述，也就是所谓的格式化字符串。
格式化字符串又由零条或多条指令构成，每条指令又由下面的元素之一构成：

例如在表达式scanf("%d %d",&a,&b);中%d, ,和都是指令

空格字符

由一个或多个空格字符组成的指令应通过读取输入来执行，直到不能再有有效的输入能被读取，或直到第一个不是空格字符的字节，并且该字节保持未读取状态。

这解释了一开始的问题，由于%d后面还有一个空格，%d匹配了第十个输入的数字之后，由%d后的空格来匹配第十个数字之后的空格，直到读取到一个非空格字节为止。

然而我们的输入到第十个数字就结束了，后面什么都没有，导致程序一直停留在scanf。

这个时候我们再输入任意的非空格内容，并回车，scanf就成功匹配到了非空格字符，scanf将它放回缓冲区并进入下一语句。

换而言之我们多输入的那第十一个数并没有被丢弃，他仍然在缓冲区中，稍后我们可以用scanf直接读取到它，但是这一切已经和这一段代码无关了。

长度修饰符

长度修饰符	适用的转换说明符	含义
hh	d、i、o、u、x、X、n	signed char or unsigned char
h	d、i、o、u、x、X、n	short or unsigned short
l（ell）	d、i、o、u、x、X、n	long or unsigned long
l（ell）	a, A, e, E, f, F, g, G	double
l（ell）	c、s、[	wchar_t
ll (ell-ell)	d、i、o、u、x、X、n	long long or unsigned long long
L	a, A, e, E, f, F, g, G	long double
j	d、i、o、u、x、X、n	intmax_t or uintmax_t
z	d、i、o、u、x、X、n	size_t
t	d、i、o、u、x、X、n	ptrdiff_t

转换说明

scanf(" %2d", &i);

如果我们输入一堆空格加321加一堆空格，再换行，程序实际所做的：

如果str在堆中申请的空间较小，使用scanf(“%s”,str)时，很容易发生溢出，这是 C 语言开发中最经常出现的 bug 之一，内存访问越界，而且不易排查。

导致的后果：

编程时需要自己多加注意。

为了一定程序避免解决这个问题，后面出现了 scanf 的衍生 scanf_s。

19 August 2024