python基础知识（一）

数据类型和变量

整数

Python可以处理任意大小的整数，当然包括负整数，在程序中的表明方法和数学上的写法一模一样，例如：1，100，-8080，0，等等。

计算机由于使用二进制，所以，有时候用十六进制表明整数比较方便，十六进制用0x前缀和0-9，a-f表明，例如：0xff00，0xa5b4c3d2，等等。

对于很大的数，例如10000000000，很难数清楚0的个数。Python允许在数字中间以_分隔，因此，写成10_000_000_000和10000000000是完全一样的。十六进制数也可以写成0xa1b2_c3d4。

浮点数

浮点数也就是小数，之所以称为浮点数，是由于按照科学记数法表明时，一个浮点数的小数点位置是可变的，列如，1.23×109和12.3×108是完全相等的。浮点数可以用数学写法，如1.23，3.14，-9.01，等等。但是对于很大或很小的浮点数，就必须用科学计数法表明，把10用e替代，1.23×109就是1.23e9，或者12.3e8，0.000012可以写成1.2e-5，等等。

整数和浮点数在计算机内部存储的方式是不同的，整数运算永远是准确的（除法难道说也是准确的？是的！），而浮点数运算则可能会有四舍五入的误差。

字符串

字符串是以单引号’或双引号”括起来的任意文本，列如’abc’，“xyz”等等。请注意，''或”“本身只是一种表明方式，不是字符串的一部分，因此，字符串’abc’只有a，b，c这3个字符。如果’本身也是一个字符，那就可以用””括起来，列如”I’m OK”包含的字符是I，'，m，空格，O，K这6个字符。

如果字符串内部既包含’又包含”怎么办？可以用转义字符来标识，列如

'I'm "OK"!'

表明的字符串内容是：

I'm "OK"!

布尔值

布尔值和布尔代数的表明完全一致，一个布尔值只有True、False两种值，要么是True，要么是False，在Python中，可以直接用True、False表明布尔值（请注意大小写），也可以通过布尔运算计算出来：

>>> True
True
>>> False
False
>>> 3 > 2
True
>>> 3 > 5
False

布尔值可以用and、or和not运算。and运算是与运算，只有所有都为True，and运算结果才是True：

>>> True and True
True
>>> True and False
False
>>> False and False
False
>>> 5 > 3 and 3 > 1
True

空值与变量

空值是Python里一个特殊的值，用None表明。None不能理解为0，由于0是有意义的，而None是一个特殊的空值。

此外，Python还提供了列表、字典等多种数据类型，还允许创建自定义数据类型，我们后面会继续讲到。

变量的概念基本上和初中代数的方程变量是一致的，只是在计算机程序中，变量不仅可以是数字，还可以是任意数据类型。

变量在程序中就是用一个变量名表明了，变量名必须是大小写英文、数字和_的组合，且不能用数字开头，列如：

a = 1

变量a是一个整数。

t_007 = 'T007'

字符串和编码

字符编码

我们已经讲过了，字符串也是一种数据类型，但是，字符串比较特殊的是还有一个编码问题。

由于计算机只能处理数字，如果要处理文本，就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特（bit）作为一个字节（byte），所以，一个字节能表明的最大的整数就是255（二进制11111111=十进制255），如果要表明更大的整数，就必须用更多的字节。列如两个字节可以表明的最大整数是65535，4个字节可以表明的最大整数是4294967295。

由于计算机是美国人发明的，因此，最早只有127个字符被编码到计算机里，也就是大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码，列如大写字母A的编码是65，小写字母z的编码是122。

但是要处理中文显然一个字节是不够的，至少需要两个字节，而且还不能和ASCII编码冲突，所以，中国制定了GB2312编码，用来把中文编进去。

你可以想得到的是，全世界有上百种语言，日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里，各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。

因此，Unicode字符集应运而生。Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题了。

Unicode标准也在不断发展，但最常用的是UCS-16编码，用两个字节表明一个字符（如果要用到超级偏僻的字符，就需要4个字节）。现代操作系统和大多数编程语言都直接支持Unicode。

目前，捋一捋ASCII编码和Unicode编码的区别：ASCII编码是1个字节，而Unicode编码一般是2个字节。

字母A用ASCII编码是十进制的65，二进制的01000001；

字符0用ASCII编码是十进制的48，二进制的00110000，注意字符'0'和整数0是不同的；

汉字中已经超出了ASCII编码的范围，用Unicode编码是十进制的20013，二进制的01001110 00101101。

你可以猜测，如果把ASCII编码的A用Unicode编码，只需要在前面补0就可以，因此，A的Unicode编码是00000000 01000001。

新的问题又出现了：如果统一成Unicode编码，乱码问题从此消失了。但是，如果你写的文本基本上全部是英文的话，用Unicode编码比ASCII编码需要多一倍的存储空间，在存储和传输上就十分不划算。

所以，本着节约的精神，又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字一般是3个字节，只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间。

UTF-8编码有一个额外的好处，就是ASCII编码实际上可以被看成是UTF-8编码的一部分，所以，大量只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作。

搞清楚了ASCII、Unicode和UTF-8的关系，我们就可以总结一下目前计算机系统通用的字符编码工作方式：

在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。

用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件。

python字符串

搞清楚了令人头疼的字符编码问题后，我们再来研究Python的字符串。

在最新的Python 3版本中，字符串是以Unicode编码的，也就是说，Python的字符串支持多语言，例如：

>>> print('包含中文的str')
包含中文的str

对于单个字符的编码，Python提供了ord()函数获取字符的整数表明，chr()函数把编码转换为对应的字符：

>>> ord('A')
65
>>> ord('中')
20013
>>> chr(66)
'B'
>>> chr(25991)
'文'

如果知道字符的整数编码，还可以用十六进制这么写str：

>>> 'u4e2du6587'
'中文'

两种写法完全是等价的。

由于Python的字符串类型是str，在内存中以Unicode表明，一个字符对应若干个字节。如果要在网络上传输，或者保存到磁盘上，就需要把str变为以字节为单位的bytes。

Python对bytes类型的数据用带b前缀的单引号或双引号表明：

x = b'ABC'

要注意区分'ABC'和b'ABC'，前者是str，后者虽然内容显示得和前者一样，但bytes的每个字符都只占用一个字节。

以Unicode表明的str通过encode()方法可以编码为指定的bytes，例如：

>>> 'ABC'.encode('ascii')
b'ABC'
>>> '中文'.encode('utf-8')
b'xe4xb8xadxe6x96x87'
>>> '中文'.encode('ascii')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

纯英文的str可以用ASCII编码为bytes，内容是一样的，含有中文的str可以用UTF-8编码为bytes。含有中文的str无法用ASCII编码，由于中文编码的范围超过了ASCII编码的范围，Python会报错。

在bytes中，无法显示为ASCII字符的字节，用x##显示。

反过来，如果我们从网络或磁盘上读取了字节流，那么读到的数据就是bytes。要把bytes变为str，就需要用decode()方法：

>>> b'ABC'.decode('ascii')
'ABC'
>>> b'xe4xb8xadxe6x96x87'.decode('utf-8')
'中文'

如果bytes中包含无法解码的字节，decode()方法会报错：

>>> b'xe4xb8xadxff'.decode('utf-8')
Traceback (most recent call last):
...
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 3: invalid start byte

如果bytes中只有一小部分无效的字节，可以传入errors='ignore'忽略错误的字节：

>>> b'xe4xb8xadxff'.decode('utf-8', errors='ignore')
'中'

要计算str包含多少个字符，可以用len()函数：

>>> len(b'ABC')
3
>>> len(b'xe4xb8xadxe6x96x87')
6
>>> len('中文'.encode('utf-8'))
6

可见，1个中文字符经过UTF-8编码后一般会占用3个字节，而1个英文字符只占用1个字节。

在操作字符串时，我们常常遇到str和bytes的相互转换。为了避免乱码问题，应当始终坚持使用UTF-8编码对str和bytes进行转换。

由于Python源代码也是一个文本文件，所以，当你的源代码中包含中文的时候，在保存源代码时，就需要务必指定保存为UTF-8编码。当Python解释器读取源代码时，为了让它按UTF-8编码读取，我们一般在文件开头写上这两行：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

内容分享

文章版权归作者所有，未经允许请勿转载。

Javafx——Stage类

内容分享

4个月前

020

内容重复多原创策略和自动更新让收录稳步上升

内容分享

4个月前

020

Win11系统稳定性优化：关键设置调整指南！

内容分享

3个月前

610

Linux Remote File Copy: SCP vs FTP

内容分享

4个月前

010

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

python基础知识（一）

数据类型和变量

字符串和编码

办公室文件该如何整理？一机搞定文件收纳标签

3.mac Can't connect to local MySQL server through socket '/tmp/mysql.sock'

相关文章

Javafx——Stage类

内容重复多原创策略和自动更新让收录稳步上升

Win11系统稳定性优化：关键设置调整指南！

Linux Remote File Copy: SCP vs FTP

暂无评论

热门网站

Blackbox

热门文章

无需写代码，30分钟搭建智能官网，页面跳出率直降50%

mysql报错:Caused by: com.mysql.cj.exceptions.CJCommunicationsException: The last packet successfull…

在C语言程序中定义结构体时，交换下成员顺序，编译器居然会报错

我的世界：有哪些知识，在你知道后你的mc马上就不一样了？

字节Hyper-SD加速扩散模型，最快1步生成SOTA级图片

别让 SSH 成后门！运维工程师的安全配置晋级手册

python基础知识（一）

数据类型和变量

字符串和编码

办公室文件该如何整理？一机搞定文件收纳标签

3.mac Can't connect to local MySQL server through socket '/tmp/mysql.sock'

相关文章

热门网站

Blackbox

热门文章

标签云