且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

linux命令实践-cut

更新时间:2022-09-25 12:21:17

cut命令从文件的每一行剪切字节、字符和字段并将它们写至标准输出。它是以文件的每一行作为处理对象的。 
 
  命令格式:cut [选项] [范围] 文件。选项用来指定单位(字节、字符还是字段),范围指定选项的位置。 
  常用的选项有:
  -b:指定以字节为单位显示选中内容
  -c:指定以字符为单位显示选中内容
  -f:指定以字段为单位显示选中内容
  -d:指定字段的分界符,默认为制表符
  其它的选项还有-n(仅和-b选项一起使用)、-s(仅和-f选项一起使用) 
  范围表示:
  n:第n个字节/字符/字段
  n-:从第n个字节/字符/字段到最后一个字节/字符/字段
  n-m:从第n个字节/字符/字段到第m个字节/字符/字段,包括m
  -m:从行的开头到第m个字节/字符/字段,包括m
  -:从行开头到行的最后
  
  一、显示passwd文件中用户名、密码、用户ID和用户目录。
linux命令实践-cut
passwd文件每行分为七列,以:为分隔符;这七列依次是用户名、密码、用户ID、组ID、用户描述、用户目录、用户bash。由于passwd文件内容过多,我们这里用sed显示其中的1-6行。  
  二、显示前两个字节或前两个字符 linux命令实践-cut
  看起来-b选项和-c选项没什么区别嘛。。其实不然,若文件内容有汉字就可以看出来两者的差别了。 
  三、
linux命令实践-cut 
  你是不是有些疑惑:汉字不是占两个字节么?cut -b 1-2 test1正好是显示两个字节呀。。不错,网上有很多资料都是这么说的,而且它们会告诉你用cut -b 1-3就可以完整的显示出一个汉字,原因是cut -b 1-2以字节为单位来处理,字符被“切成两半”,因此无法正常显示。
  但是看了下面的图片,你或许会有不同的看法: linux命令实践-cut
     呵呵。。实在不好意思,貌似从utf-8到gb2312的编码转换没有成功,但是没关系,这不影响我们对为什么cut -b 1-2不能正确显示汉字的判断。
 这个图片就可以说明-b和-c选项的差别:我们用cut -b 1-2 test1时,没有显示出汉字,但是换成-c选项则可以显示两个汉字。这就是-b(字节)和-c(字符)之间的区别。
  我们看到编码为utf-8的test1文件第一行一共有5个汉字和3个字母,但wc -c统计是19个字节,而编码为iso-8859的test文件统计为14个字节!(wc -c在统计字节时,结束符/换行符也作为一个字节。) 
    这表明:在utf-8编码下,汉字是占三个字节的!
  大家可自己动手试验一下,在utf-8编码下,用cut -b 1-3可以显示一个汉字,而在其它编码如gb2312、iso-8859等编码下,用cut -b 1-2就可以显示一个汉字。


本文转自 li_qinshan 51CTO博客,原文链接:http://blog.51cto.com/share/177913