yanbin's Blog
1. 简单 Shell 编程 FAQ
5. mkdir -p 与 install -d 的区别?
install -d, mkdir -p 都可以用来创建目录,并且创建整个路径上缺少的目录。
install -d /path/to/directory
#install 尝试改变 directory 的读写权限为: $(umask) ^ file create mode,
#如果 directory 已经存在,并且属主不是执行 install -d 的用户,install 会有权限错误:
install: cannot change permissions of ‘/path/to/directory’: Operation not permitted
一般来说执行之前会判断目录是否存在,没有判断又依赖 install 执行成功就有问题了。
install -d 一般只有一个 root 用户的嵌入式系统上常见,毕竟不存在权限问题。(不是所有的嵌入式系统都只有一个 root 用户)
install -d 也用在一些 SDK 里,打包程序时一般用 install -d 创建一些目录。
$ mkdir -p /path/to/directory
#完成相同的创建目录工作,并不会尝试改变什么,directory 存在时甚至不会执行任何操作,直接返回成功。
6.Shell 脚本'\\NL'续行小结。NL 表示 newline;
(a) '“'括起来的字符串中出现'\\NL';
这种形式的字符串中的 '\\NL', 会被转义,最终作为参数传递给程序/命令的字符串是没有续行符的一行。
echo \"hello \\\r\nworld\"
# 输出 hello world
(b) '‘'括起来的字符串中的 '\\NL';
这种形式的字符串中的所有字符都会以其文本形式对待,'\\NL'不会被转义,传递给程序/命令是会视为两个字符,
一个是'\\',一个是'NL'.
一般不会在'''括起来的字符串中出现'\\NL, sed 和 awk 的代码中例外。
echo 'hello \\\r\nworld'
# 输出 hello \\\r\nworld
(c) 代码续行;\r\n当一行代码过长超过80个字符时,一般会用 '\\NL'的形式换一行,目的是为了阅读方便,一般出现在管道字符 '|'之后,\r\n或者某个参数之前。Shell 在解析代码时,这种形式的'\\NL'也会被转义。
(d) sed, awk 执行的代码中的续行;
如果是用 '''包括的代码,一般来说传递给 sed, awk 时其实是两个字符,这个与(b)是相同。
对于 sed 和 awk 而言,在处理/解析这样的代码时会转义续行符。
这样做的目的也是为了更方便的阅读代码。其实也可以不用续行符。
7.读/写 FIFO 为什么会阻塞?
FIFO 的默认特性:读没有写端的 FIFO 会阻塞;而写没有读端的 FIFIO 也会阻塞。
先启动读端程序,还是先启动写端程序呢?\r\n无论如何要确保:
(a) 写端程序不会因为读端程序不存在或启动不及时而丢失数据。
(b) 确保读端程序启动后写端程序不会因此而没有机会运行。
8.awk 如何在表达式中使用 Shell 变量的值?
使用 awk 的 -v val=val 参数传递 Shell 变量给 awk 并且用于 awk 程序之内。
foobar=7
cat foobar.txt | awk -v foobar=$foobar -F',' '{ printf(\"%d\\n\", $1*foobar)}'
# -v val=val 参数可以有多个:
foo=3
bar=5
cat foobar.txt | awk -v foo=$foo -v bar=$bar -F',' '{printf(\"%d\\n\", 1*foo*bar)}'
9.shell 脚本可以等待一个程序执行完吗?有哪些限制?
使用 wait 命令。
wait 是 bash 的一个内部命令,使用 -n 指定一个或多个 child pid, 等待进程退出并返回其 termination status;
如果指定了多个 pid ,那么就返回最后一个进程的 termination status;
没有指定 pid, wait 等待 Shell 脚本的所有子进程退出执行。
限制是:只能等待 Shell 脚本的子进程退出。
MySQL: Specified key was too long; max key length is 767 bytes
MySQL 使用了InnoDB存儲引擎 UNIQUE index 長度限制是 767 byes; 使用了MyISAM存儲引擎長度限制是 1000 bytes。
使用了 utf-8 字符集兩種引擎下的 vchar 型 UNIQUE index 最大長度分別是 vchar(255) 和 vchar(333),
utf-8 最多使用 3 bytes 表示一個字符: 255 * 3 = 765 ...
使用了 utf-16 字符集兩種引擎下的 vchar 型 UNIQUE index 最大長度分別是 vchar(191) 和 vchar(250)。
django 有時遇到這個問題。
應當懷疑使用了 utf-8 之類的字符集並且 Field(unique=true, max_length=greater_than_255);
或者是否有 unique_together = ['field0', 'field1']; field0_max_length + field1_max_length > 255;
參見:mysql-specified-key-was-too-long-max-key-length-is-767-bytes
简单 Shell 编程 FAQ(〇)
# '$' 在这里用于匹配 '$'字符。 sed 's/A $foobar value/foobar/g' foobar.txt
# $ 展开 foobar 这个变量的值。转义的 \$ 匹配 '$'。 # 参数在传递给 sed 程序时已经完成变量值展开和转义了。 # 完成转义和变量展开的是 shell 而不是 sed. sed "s/A $foobar \$value/foobar/g" foobar.txt
# 这个与用 '“'括起来的效果是相同的。 sed s/A $foobar \$value/$/g foobar.txt
# 不熟悉 sed 时一般会写这样的代码。这种方式容易出错且耗费资源。 cat foobar.txt | sed 's/patter to match//gp' > tmp_file.txt mv tm_file.txt foobar.txt
# sed 的 d 命令 加 -i 参数 可以完成直接修改文件的操作。 sed -i '/pattern to match/d' foobar.txt
# 只输未匹配即没有被删除的行,而不修改文件 sed 'pattern to match/d' foobar.txt
edit files in place (makes backup if SUFFIX supplied)
# -i 参数接受一个可选的 suffix, 指定这个 suffix, sed 会修改文件前备份文件 sed -i.bak '/pattern to match/d' foobar.txt
# 输出在 file1 中出现,不在 file2 中出现的行。 diff --new-line-format="" --unchanged-line-format="" file1 file2
# 输出在 new_file 中出现,不在 old file 中出现的行。 # 指定 --old-line-format=“”, 没有指定 --new-line-format,diff 默认直接输出 new line, 没有前导的 '<'. diff --old-line-format="" --unchanged-line-format="" old_file new_file
diff --new-line-foramt="" --unchanged-line-format=="" <(sort file1) <(sort file2)
# 以每行的 1到15个字符为 key 排序。1,15 都是 position, 第一个字符的 position 是 1. sort --key 1,15 foobar.txt # uniq 按每行的前 12 字符去重 sort --key 1,15 foobar.txt | uniq -w 12
# 5 秒后向 command 程序发 SIGTERM 信号,退出 command 的执行。 tiemout 5 /path/to/slow/command with options
shell 脚本中,程序的标准输出重定向到 FIFO, 需要注意的问题
remain blocked.
shell脚本使用 timeout + wait 完成: 超时退出执行,等待执行完毕并处理执行结果
timeout time sub cmdresp_topic > cmdresp_record while seq in read seqs: seq = parse_seq(seq) message = create_message(seq) pub cmd_topic message record(message, msg_record) // do something, maybe sleep 1s wait sub parse(cmdresp_record, msg_record)
shell 代码是:
tmp_file="$(mktemp) rm -f $tmp_file mkfifo $tmp_file # terminate $MOSQUITTO while $TIMEOUT period timeout $TIMEOUT \ $MOSQUITTO_SUB -t $topic_resp --cafile $CA --cert $CERT --key $KEY > $tmp_file & cat $tmp_file | cut -d',' -f1 | cut -d':' -f2 | sed -n 's/\"//gp' >> $SUB_LOG & N=0 for line in $(cat $SNS_FILE) do sn="$(echo "$line" | cut -d'&' -f1)" seq="$($LOOKUP_TOPIC $sn)" name="$(printf "%s%.4d" $sn $seq)" topic="router/$name/cmd" N=$((N+1)) mid="$(date +%Y%m%d%H%M%S)-$N" message=makemsg $mid $MOSQUITTO_PUB -t $topic --cafile $CA --cert $CERT --key $KEY -m "$message" sw="$(echo "$line" | cut -d'&' -f2)" record="$(date +%Y%m%d:%H),$sn,$sw,1" [ $? -eq 0 ] && echo "$record" >> $PUB_LOG [ $((N % 10)) -eq 0 ] && sleep $SLEEP_TIME done wait # wait $MOSQUITTO_SUB and cat $tmpfile terminaation rm -f $tmp_file if [ -f $SUB_LOG -a -f $PUB_LOG ]; then tmp_file="$(mktemp -p $RECORD_DIR)" for line in $(cat $SUB_LOG) do sed "s/\(.*$line.*\),1/\1,0/g" $PUB_LOG > $tmp_file cp $tmp_file $PUB_LOG done rm -f $tmp_file fi
Lua 调用的 C 函数保存 state 的两种方式: Storing State in C Functions 笔记
/* variable with a unique address */ static char key = 'k'; /* store a string */ lua_pushlightuserdata(L, (void *)key); /* push address */ lua_pushstring(L, myStr); /* push value */ lua_settable(L, LUA_REGISTRYINDEX); /* registry[&kye] = myStr */ /* retrieve a string */ lua_pushlightuserdata(L, (void *)key); /* push address */ lua_gettable(L, LUA_REGISTRYINDEX); /* retrieve value */ const char *myStr = lua_tostring(L, -1); /* convert to C string */
/* variable with a unique address */ static char key = 'k'; /* store a string */ lua_pushstring(L, myStr); lua_rawsetp(L, LUA_REGISTRYINDEX, (void *)&key); /* retrieve a string */ lua_rawgetp(L, LUA_REGISTRYINDEX, (void *)&key); const char *myStr = lua_tostring(L, -1);
以上这些创建 key 以访问 table 规则对普通 table 也适用。
static int counter(lua_State *L); int newCounter(lua_State *L) { lua_pushinteger(L, 0); /* 使用 counter 作为 base function 创建 C closure, 讲 stack TOP N 作为 upvalues */ lua_pushcclosure(L, &counter, 1); return 1; }
static int counter(lua_State *L) { int val = lua_tointeger(L, lua_upvalueindex(1)); lua_pushinteger(L, ++val); lua_pushvalue(L, -1); /* duplicate new vlaue */ lua_replace(L, lua_upvalueindex(1)); return 1; }
#define luaL_newlib(L, lib) \ (luaL_newlibtable(L, lib), luaL_setfuncs(L, lib, 0)) 关键点是 luaL_setfuncs() 这个函数讲 statck top N 个 value 作为 upvalues 指定给 library 中的函数。 luaL_newlib() 定义中这个 N 是 0, 这个函数是用不成了。不过可以用如下方式: /* create library table */ luaL_newlibtable(L, lib); /* create shared value */ lua_newtable(L); /* add functions in list 'lib' to the new library, * sharing previous table as upvalue */ luaL_setfuncs(L, lib, 1);
参考:
Programming in Lua third edition 28.3
为什么使用 do {} while(0)
有些宏定义含有多行代码,一般使用 do {} while(0) 把代码放在 'do' 和 'while' 之间的 '{}' 中。
#define foorbar(msg, callback) do {\ struct Task __task = msg_to_task((msg)); \ if (__task != NULL) { \ process(__task, (callback)); \ char *__msg = task_to_msg(__task); \ if (__msg != NULL) \ { send_msg(__msg); \ free(__msg); \ } \ destroy_task(__task); \ } while (0)
这样用的原因是:
1.符合 C/C++ 语法习惯。
每条语句后面都一个';', 而 do {} while 语句后面也要加一个 ';'.
2.避免出现语法错误。
不用 do {} while(0) 把多行代码包起来,在 if else 语句中就会有语法错误,例如:
#define foorbar(a, b) foor((a)); bar((b)) if (something) /* 以下有语法错误 */ foorbar(3, 2); else // do something
仅仅使用 '{}' 把多行代码包起来,如果在调用宏之后加 ';', 也会有语法错误。
#define foorbar(a, b) {\ foor((a)); bar((b));\ } foorbar(3, 2); // 此处有语法错误 /* 编译器提示: * error: expected ‘;’ before ‘}’ token * 如果不加 ';', 不会有语法错误但是这样不符合 C/C++ 的语法习惯 */
3.do {} while(0) 可以根据条件跳出执行。
#define foorbar() do {\ struct condition __cond; \ if (__cond.wait_cond()) \ break; // 条件发生退出执行 \ // 条件没有发生 do something } while(0)
4.私以为 do {} while(0) 可以保证代码执行并且只执行一次。
5.需要注意的地方。
(a)宏定义时用 '\' 连接多行语句;
(b)宏定义中定义变量,注意与外部变量名字冲突,不然原本希望用外面的变量,却用了新定义的变量。
(c)有些编译器会优化掉 do {} while(0); 直接展开 '{}' 内的代码, 如(b)所描述,此时会出现语法错误。
FIXME: 如果内部有 'break' 并且 'break' 的执行依赖运行时条件,编译器就不会优化掉 do {} while(0); 了。
举例:
#define foorbar() do {\ struct condition cond; \ if (cond.wait_cond()) \ break; // 条件发生退出执行 \ // 条件没有发生 do something } while(0) struct condition cond; // do something foobar(); // 到底用的是哪一个 cond?
#define foorbar(a, b) do {\ const char *something = get_something(a, b); \ } while(0) const char *something; // do something foorbar(3, 9); // 如果编译器优化掉了 do {} while(0); 这里有语法错误。
感谢 老猫,mike2,MovableType@源赖朝 三位网友。
参考:
do { … } while (0) — what is it good for?
do{}while(0) 的作用
Linux 系统中使用 inotify 监视文件或目录的改变
0.注意事项
int inotify_init();
int inotify_add_watch(int fd, const char *name);
int inotify_rm_watch(int fd, int wd);
int inotify_init1(int mask);
这些是一系列的 linux 系统调用;
前三个是 linux 2.6.13 引入的, 最后一个是 2.6.27 引入的。
但是一些 C libray(C 语言实现库), 并没有定义这些系统调用的封装。
可以用 syscall(__NR_inotify_init); 这样的形式调用。
__NR_inotify_init 是系统调用号,可以在 unistd.h 中看到。
有些 SDK 中的内核配置没有默认的选定对 inotify 的支持。
可以在 linux 配置中的 kernel setup:
fs-->
[] support inotify for user space
选上对些系统调用的支持。
如果内核没有对这些系统调用的支持,
int fd = syscall(inotify_init) 总是返回 89,
read(fd, buff, sizeof(buff)) 会返回 -1, errno 被设置为 "Bad file descriptor"。
inotify 会监视目录下所有文件。
inotify 并不自动的递归监视目录下的子目录,需要程序员自己完成这样的工作。
1.简介
使用这些 API 可以监视文件系统的 events.
当文件或者目录有改变时,内核产生 inotify events, 用户使用这些 API 获取关注的 events.
不同于陈旧的 dnotify API, inotify API 既可以监视 files 也可以监视 directories.
监视一个目录,不仅可以获取目录自身改变的 event(e.g. 从目录移除文件),也可以监视目录内文件内容改变产生的 event.
另外:称这些函数为 API 是因为它封装了 system call。每一个函数对应一个 system call.
2.每个 API 的作用与使用方式。
inotify_init(2) 用来获取一个文件描述符,这个文件描述符是一个 inotify instance 的引用。
用户通过这个实例建立了一条从内核获取文件系统 events 的渠道或者说连接。
每个 inotify 实例中维护着一个 watch list, 其中的每个 item 对应一个文件/目录。
获取 event 的方式是 read() inotify_init(2) 返回的文件描述符。
若这个文件描述符没有设置为 NONBLOCK, read() 会阻塞,read() 返回时,就是文件系统 events 到来了。
既然类似于「连接」当然就可以应用 select() or poll() 于 inotify 文件描述符了。
这也正是 inotify 系统的优点之一。
当与 inotify 实例关联的文件描述符关闭时,内核释放与该实例相关的资源,并且释放该实例。
FIXE: 为什么 man 手册中讲:所有引用这个 inotify 实例的文件描述(s)? 一个 inotify 实例为什么会有多个
文件描述符引用?
(a)这个文件描述符号可能会被 dup() 多次。
(b)文件描述符没有设置为 CLOEXEC, 子进程继承了父进程的文件描述符。
inotify_init(2) 返回的文件描述符可以使用 fcntl(2) 设置为 nonblock 以及 close-on-exec.
inotify_init1(2) 则提供了便利,在返回文件描述符之前,将它上设置为 nonblock 和/或 close-on-exec;
inotify_init1(2) 接受一个 flags 参数指定为 IN_NONBLOCK, IN_CLOEXEC, 或者 IN_NONBLOCK | IN_CLOEXEC;
flags 参数为 0 时它与 inotify_init(2) 别无二致。
inotify_add_watch(2) 用于向一个 inotify 实例的 watch list 追加 item,或用于改变某个 item.
指定期望监视的文件或目录——使用绝对或相对路径——, 指定期望关注的文件系统 events。若指定的文件或目录不在 inotify 实例的
watch list 之中,内核会创建一个 watch item 追加至 watch list 之中。
若指定的文件或者目录已经存在于 wach list 中,inotify_add_watch(2) 直接返会与文件或目录对应的文件描述符。
若指定的 events 不同与之前的,则重新设置对文件或目录的监视,改变或追加期望获得的 events.
NOTE: 这一改变不会清除已经产生却没有读取的 events.
inotify_watch() 返回的 watch fd 的用处之一: 指定给 inotify_rm_watch() 从 inotify 实例的 watch list
移除某个 item, 从而移除对某个文件或目录的监视。
也就是说,可以删除或更新某个 watch item,从而移除或更新对某个文件或目录的引用。
3.使用 bit mask 标识 inotify event, 列表如下:
IN_ACCESS 文件被访问,有读——read(2)——操作。例如: cat filename.txt
IN_ATTRIB 文件元数据发生改变,例如:
permissions, timestamps, extended attributes,link count(since Linux2.6.25), UID, GID, 等等。
IN_CLOSE_WRITE 文件关闭,并且发生写操作。例如: echo "add data" >> filename.txt
IN_CLOSE_NOWRITE 文件关闭,但是没有发生写操作。例如:open(filename, O_WRONLY); close(fd);
IN_CREATE 目录中有新的文件或目录创建。例如: touch dirname/filename
IN_DELETE 目录中有文件被删除。例如:rm dirname/filename
IN_DELETE_SELF 监视的文件或目录本身被删除。
IN_MODIFY 文件发生改变。FIXME: 什么改变会引发这个 event? 写操作会吗?
IN_MOVE_SELF 监视的文件或目录本身被移动。
IN_MOVED_FROM 从目录中移出一个文件或目录。
IN_MOVED_TO 移动一个文件或目录到目录中。
IN_OPEN 文件打开操作发生。
指定给 inotify_add_watch(2) 的第二个参数,就是上面的一个或多个 bit mask(s);
从而可以得到 intofiy events.
4.inotify event 数据结构:
struct inotify_event { int wd; /* watch 文件描述符 */ uint32_t mask; /* Mask of events */ uint32_t cookie; uint32_t len /* size of name filed */ char name[]; /* optional null-terminated name */ };
5.解析 events.
使用 read() 读取 events 数据到 buff 中,从 buffer 中解析出 events.
NOTE:
1)event->len 是 size of name, 不是 size of event;
2)read() 不保证完整的读取了最后一个 event, 甚至不保证完整的读取了一个 event;
需要比较 size of buff 中剩余有效数据 与 sizeof(inotify_event);
然后再比较 size of buff 中剩余有效数据 与 sizeof(inotify_event) + event->len;
3)读取 events 到 buff 中再解析,为了尽可能一次性读取更多的 event;
#define BUFF_SIZE ((sizeof(struct inotify_event) + NAME_MAX + 1)*5) #define MIN_EVENT_SIZE (sizeof(struct inotify_event) char buff[BUFF_SIZE]; char pos = buff; ssize_t readn; ssize_t data_size; int index; const struct inotify_event *event = NULL; for (; ;) { int nready; int maxfd = watchfd + 1; fd_set readset; FD_ZERO(readset); FD_SET(watchfd, &maxfd); nready = select(maxfd, &readset, NULL, NULL, NULL); if (nready < 0) { perror("select"); } else if (FD_ISSET(watchfd, &readset)) { __read_data__: readn = read(watchfd, pos, sizeof(buff)-(pos-buff)); if (readn == -1) { if (errno == EGAIN) { goto __read_data__; } else { goto __error__; } } else { data_size = readn + (pos - buff); pos = buff; index = 0; while (index < data_size) { event = (const struct inotify_event *)&pos[index]; ssize_t size = sizeof(*event) + event->len; ssize_t remain = data_size - index; if (remain < size) goto __incomplete__; struct inotify_event *eventobj = malloc(size); if (eventobj != NULL) { memset(*event_obj, 0, sizeof(*event_obj)); memcpy(eventobj, pos[index], size); /* Process inotify event */ process(eventobj); free(eventobj); } index += size; remain = data_size - index; if (remain <= MIN_EVENT_SIZE) goto __incomplete__; __incomplete__: memmove(buff, pos[index], remain); pos = &buff[remain]; goto __read_data__; } goto __read_data__; } } }
4月5号更新:之前理解错误,谬误太多。
感谢 依云 指点「一个 inotify 实例为什么会有多个文件描述符引用?」问题。
5月3号更新:增加解析 events 伪代码。
参考:
Linux Programmer's Manual INOTIFY(7)
读取 /dev/urandom or /dev/random 生成随机数
/dev/random
可生成高随机性的公钥或一次性密码本。若熵池空了,对 /dev/random
的读操作将会被阻塞,直到收集到了足够的环境噪声为止[3]。这样的设计使得
/dev/random
是真正的随机数发生器,提供了最大可能的随机数据熵,建议在需要生成高强度的密钥时使用。/dev/random
的一个副本是 /dev/urandom
("unlocked",非阻塞的随机数发生器[4]),它会重复使用熵池中的数据以产生伪随机数据。这表示对
/dev/urandom
的读取操作不会产生阻塞,但其输出的熵可能小于 /dev/random
的。它可以作为生成较低强度密码的伪随机数生成器,不建议用于生成高强度长期密码。
感谢 依云 教我用节省熵池的方法。
为 Android 程序创建 CA keystore 以及 self-signed keystore 的方法