且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

《Python数据科学实践指南》——2.2 字符串

更新时间:2022-10-04 15:58:00

本节书摘来自华章计算机《Python数据科学实践指南》一书中的第2章,第2.2节,作者 纪路,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.2 字符串

在第1章中我们已经接触过字符串了,Python不像其他语言一样有字符类型,在Python中,一个字符仅仅是包含一个字符的字符串。而且字符串也能够进行运算,主要支持两种运算符“+”和“*”,示例代码如下:

>>> "a" + "b"
'ab'
>>> "a"*3
'aaa'
>>> 'a' < 'b'
True

这两个运算符很容易理解,“+”代表字符串拼接,可以组合两个字符串;“”代表复制多份然后拼接,“”后面的数字就是需要复制的份数;当比较两个字符串时是按照字典顺序比较大小的。称为运算符的重载。由于字符串类型是一种序列类型,所以当我们只想取得这个序列中的一部分时,可以使用Python中的分片操作:

>>> s = 'abcdefg'
>>> s[1:-1]
'bcdef'
>>> s[1]
'b'
>>> s[-1]
'g'

这里首先将字符串“abcdefg”赋值给变量s,然后在s后面用一对方括号将两个数字和一个冒号括起来,输出的结果正好是去掉第一个和最后一个字符,这就是Python中对于序列类型的对象所进行的分片操作,冒号前后的两个值为分片的位置。1代表序列中位置为1的值,–1代表序列中倒数第一个值。这里需要注意的是,在Python中序列索引是以0开始的,而且支持负数索引,不过负数索引是从–1开始的,这很容易理解,因为数学里的实数域没有–0这个值。而且区间是左闭右开的,即[1:–1]代表从索引为1(并且包括1)的值开始,直到索引为–1(不包括–1)的值。初学编程的人可能会难以理解序列分片为什么要这样设计,但实际上这种左闭右开的区间是很方便的一种结构,在2.2节讲解循环的时候会做进一步讲解。另外针对序列分片还有一个小技巧:

>>> s[1:-1:2]
'bdf'
>>> s[1:-1:1]
'bcdef'
>>>

如果在代表分片的方括号中再增加一个冒号之后跟一个数字,那么这个数字就代表以什么样的步长进行分片?假设这个值为2,分片会前进两个字符再取出一个字符,就会得到“bdf”这样的结果。实际上如果不指定则最后一个数字默认的步长为1,s[1:-1:1]”与“s[1:-1]”的结果是一致的。当然步长也可以是负数,聪明的读者肯定一下子就会明白我的用意:

>>> s[::-1]
'gfedcba'

这里在步长为–1时左右颠倒了这个字符串。而且当选取整个序列时,起始和终止索引可以省略,只留下两个冒号即可。所以在Python中分片的完整表达式如下:

s[start:end:step]

当指定的索引超出了字符串的长度时,我们就会得到一个异常:

>>> s[-11]
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
IndexError: string index out of range

Python的异常是从上向下阅读,最后一行“IndexError”代表错误的类型,“File”开始的这一行中“line 1”代表出错程序在文件中的行号,这些信息有助于我们找到程序出错的位置,后续的章节会有专门介绍异常处理的内容。

最后,对于一个字符串,要知道如何确定其长度,代码如下:

>>> len(s)
7

这很容易,“len()”是一个内置的函数,可以获取任意序列类型对象的长度,在这里s字符串拥有7个字符。