“Python”的版本间的差异

2019年5月22日 (三) 02:06的版本

Scrapy

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。

框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。

Scrapy 使用了 Twisted'twɪstɪd异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。

Python爬虫指南

基本的爬虫工作原理
基本的http抓取工具，scrapy
Bloom Filter: Bloom Filters by Example
如果需要大规模网页抓取，你需要学习分布式爬虫的概念。其实没那么玄乎，你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq: https://github.com/nvie/rq
rq和Scrapy的结合：darkrho/scrapy-redis · GitHub
后续处理，网页析取(grangier/python-goose · GitHub)，存储(Mongodb)

安装scrapy

pip install scrapy

Flask

安装 pip install flask

Werkzeug 一个 WSGI 工具包
jinja2 模板引擎

最简单的例子

from flask import Flask
 
app = Flask(__name__)
 
 
@app.route("/")
def hello():
    return "Hello World!"
 
 
if __name__ == "__main__":
    app.run()

实现一点基本web功能

from flask import Flask
from flask import render_template
from flask import request
from flask import jsonify
 
app = Flask(__name__)
 
 
@app.route("/")
def hello():
    return render_template("index.html", boy_name='Tom')  # 模板文件要放在templates文件夹下面，否则找不到。@app.route("/")
 
 
@app.route('/add', methods=['GET', 'POST'])
def add():
    if request.method == 'GET':
        return render_template("add.html")
    else:
        name = request.form.get('name', False)
        old = request.form.get('old', False)
        return render_template('index.html', name=name, old=old)
 
 
@app.route('/api')
def api():
    name = 'name'
    array = []
 
    for i in range(1, 5):
        array.append(i)
 
    return jsonify({name: 'Tom', 'old': 23, 'array': array[::2]})
 
 
if __name__ == "__main__":
    app.debug = True
    app.run()
 
# end file

PyCharm：no module named * 解决方法

使用PyCharm，遇到‘no module named numpy'问题，但是numpy已经成功安装；

后来发现PyCharm项目默认的python.exe在项目所在目录的./env/scripts/python.exe，故使用正式安装的python.exe替换，问题解决。

在file>settings>Project Python>Project interpreter里面修改。

numpy中linspace用法

linspace的功能最初是从MATLAB中学来的，用此来创建等差数列。

numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)

random模块

#!/usr/bin/python
 
import random
 
print( random.randint(1,10) )        # 产生 1 到 10 的一个整数型随机数  
print( random.random() )             # 产生 0 到 1 之间的随机浮点数
print( random.uniform(1.1,5.4) )     # 产生  1.1 到 5.4 之间的随机浮点数，区间可以不是整数
print( random.choice('tomorrow') )   # 从序列中随机选取一个元素
print( random.randrange(1,100,2) )   # 生成从1到100的间隔为2的随机整数
 
a=[1,3,5,6,7]                # 将序列a中的元素顺序打乱
random.shuffle(a)
print(a)

随机生成符合某种分布的数据

（1）均匀分布，uniform(a,b)

（2）正态分布，normalvariate(mu, sigma)

（3）高斯分布，gauss(mu,sigma)

就是正态分布，采用了不同的实现方式，据说运行速度更快。实验1000000个数快了不到1秒，也没快太多。

（4）还有生成三角形分布、对数分布、指数分布、β分布、伽马分布等的函数

triangular(low, high, mode)三角形分布

lognormvariate(mu, sigma)对数分布

expovariate(lambd)指数分布

gammavariate(alpha, beta)伽马分布

实际工作中，这些分布比均匀分布和正态分布用的都少的多。

绘制直方图

# histogram.py
import numpy as np
import random
from matplotlib import pyplot as plt
 
data1 = [random.gauss(15,10) for i in range(500)]
data2 = [random.gauss(5,5) for i in range(500)]
bins = np.arange(-60, 60, 2.5)
plt.xlim([min(data1+data2)-5, max(data1+data2)+5])
 
plt.hist(data1, bins=bins, alpha=0.3, label='class 1')
plt.hist(data2, bins=bins, alpha=0.3, label='class 2')
plt.title('Random Gaussian data')
plt.xlabel('variable X')
plt.ylabel('count')
plt.legend(loc='upper right')
 
plt.show()

画曲线图

import numpy as np
import matplotlib.pyplot as plt
 
x = np.linspace(-4, 4, 200)
f1 = np.power(10, x)
f2 = np.power(np.e, x)
f3 = np.power(2, x)
 
plt.plot(x, f1, 'r', x, f2, 'b', x, f3, 'g', linewidth = 2)
plt.axis([-4, 4, -0.5, 8])
plt.text(1, 7.5, r'$10^x$', fontsize = 16)
plt.text(2.2, 7.5, r'$e^x$', fontsize = 16)
plt.text(3.2, 7.5, r'$2^x$', fontsize = 16)
 
plt.show()

windows下安装Django

http://jingyan.baidu.com/article/466506580e7d29f549e5f8b6.html

Python27的安装

下载/安装python

yum install -y bzip2*           #nodejs 0.8.5需要，请安装python前，先安装此模块。
 
wget http://www.python.org/ftp/python/2.7.3/Python-2.7.3.tgz
tar zvxf Python-2.7.3.tgz
cd Python-2.7.3
./configure
make && make install
/usr/local/bin/python2.7 -V     #查看Python版本

建立软连接，使系统默认的python指向python2.7

正常情况下即使python2.7安装成功后，系统默认指向的python仍然是2.4.3版本，考虑到yum是基于python2.4.3才能正常工作，不敢轻易卸载。

mv /usr/bin/python  /usr/bin/python.bak
ln -s //usr/local/bin/python2.6 /usr/bin/python
python -V    #检验python指向是否成功

解决系统python软链接指向python2.6版本后，yum不能正常工作

$vi /usr/bin/yum

将文本编辑显示的#/usr/bin/python修改为#/usr/bin/python2.4，保存修改即可。

我为什么要学习python

引言：学习python近两年，谈谈我对于python的一点小理解，也从一些方面谈谈自己微薄的想法，也就是我为什么学习python

这里我不讨论python的一些有用的库或者框架，只从语言本身，最小支持的情况下谈论这门语言本身。

语言的发展都是越来越接近Lisp，这也是这门语言伟大的原因。

下面我罗列一下我学习python的原因：

一.多编程范式

python是一门多范式的编程语言，所谓的过程式，面向对象和函数式的结合。

大部分人接触编程语言都是从过程式开始的，原因是因为过程式的程序方式与计算机运行方式是统一的，指令序列与运行过程是统一的

如典型的C，我也是从C开始学习的，过程式的程序语言设计编写程序较为简单，但是符合人机交互思考方式。

python虽然是一门面向对象语言，就连“ ”（空格）也可以看做是一个对象，但是python胜任过程式是没有问题的。

如不需要使用类的静态方法：

def a_plus_b(a,b):

return a+b python在设计的时候将其当做一门面向对象的方式编写，且不说面向对象给软件设计带来的一些革命等，在python这样的动态语言中面向对象有一个亮点就是Duck typing（鸭子类型）

关于鸭子类型，就是说，如果我认为一个抽象的东西会游泳会“嘎嘎”叫，我就可以把它当做鸭子。

def use_duck( Duck ):

Duck.swim()

Duck.gaga()

class Duck:

def swim(self):

... def gaga(self):

...

如果这样使用

little_duck Duck()

use_duck( little_duck ) 关于Duck类，你可以给他取任何的名字，或者继承它取另一个名字，只需要实现 swim() gaga() 你就可以把它当做鸭子

关于鸭子类型，很多人不理解为什么不需要提供一个接口来规定鸭子的行为，我既不支持也不反对，我的观点是这样的：

1.对于参数的检查，不符合动态语言的特性

2.提供了接口规范，那就不是鸭子类型了，直接叫多态得了

关于python支持的函数式编程

首先是lambda 演算

函数式编程的定义是将函数看做是变量一样的待遇，变量在程序中最简单的有什么待遇呢

1.可以赋值

2.可以作为参数

3.可以改变值（Erlang例外）

4.且不说生命周期了和作用域了

λ演算背后蕴含着计算机可计算性的深厚知识，lambda也是图灵模型，是停机问题的一个否定答案。不仅仅是一个匿名函数那样简单

关于lambda 演算，看看这个程序做了什么

map(lambda n:2*n,[1,2,3,4,5])

1.lambda n:2*n 本身作为一个匿名函数

2.lambda 本身作为一个参数传入 map()函数 ,这也就是说我的高阶函数，可以将函数变身看成是一个变量作为参数传递，这也是它作为函数受到的高等待遇

关于赋值和改变值，两种方式：

1.f = fun() 不改变函数状态，只改变名称，但是说明函数是可以赋值的

2.可以使用闭包作为改变函数的状态方式，或者使用装饰器来完成函数状态改变

函数式编程的使用也可以提高程序的可读性和减少代码，而且能够清晰的表达函数的功能，如MapReduce就是来自函数式编程的思想

Map(func,List)

作用是将func 作用于List中的每一个元素

以刚才的例子举例

map(lambda n:2*n,[1,2,3,4,5])

此函数返回

[2,4,6,8,10]

重要的是在于知道这样的方式带给我们的清晰的设计方式

当然函数式编程不是那么几句话就说完的，理解函数式编程的核心是理解 λ演算

二.一些有意思的特性

惰性计算：

看看完成一个斐波那契数列python 可以怎么做：

>>> def fib(): a , b = 0 ,1 while 1: yield b a , b = b ,a+b

>>> f = fib() 实际上由yield 生成了一个可迭代对象，每次调用

f.next()就可以产生一个斐波那契值，而函数的内部状态是由迭代对象存储的

至于返回一个可迭代对象，如果需要确定迭代到多少位，可以使用 itertools.islice

协程：

协程也是一个基于yield的概念，主要的模式是微线程的协作式工作模式：

1 def coroutine(func): 2 def ret(): 3 f = func() 4 f.next() 5 return f 6 return ret 7 8 9 10 @coroutine 11 def consumer(): 12 print "Wait to getting a task" 13 while 1: 14 n = (yield) 15 print "Got %s",n 16 17 18 19 import time 20 def producer(): 21 c = consumer() 22 while 1: 23 time.sleep(1) 24 print "Send a task to consumer" 25 c.send("task") 26 27 if __name__ == "__main__": 28 producer() 协程带来的好处是可以直接调度你的线程，这也是它为什么叫做协程而不是线程的原因，线程属于抢占式并发，协程属于协作式并发

三.动态语言带来的好处

从程序设计带来的快感(我相信只有热爱这方面的人才有的感觉)来说，动态语言，比如python，节约了更多的时间可以用来陪女朋友或者老婆，或者老公

当然，作为互联网时代快速开发来说，赶鸭子上线，也是《黑客与画家》上面介绍的，快速开发很重要，当然需要符合这方面的需求

动态语言的CPU密集型运算必然比不过C/C++

总之：人生苦短，我用python

Python写的服务器代码区区20行左右

目前正在学Python网络编程基础，发觉Python是一个不错的脚步，Python写的服务器代码区区20行左右，如果是C或者C++写的话，远不止这个数了。

#!usr/bin/python
 
import socket
 
host=''
 
port=51423
 
s=socket.socket (socket.AF_INET ,socket.SOCK_STREAM)
 
s.setsockopt(socket.SOL_SOCKET ,socket.SO_REUSEADDR ,1)
 
s.bind((host,port))
 
s.listen(1)
 
print"Server is running on port %d ;Press Ctrl-c to terminate." % port
 
while 1:
 
clientsock,clientaddr=s.accept()
 
clientfile=clientsock.makefile('rw',0)
 
clientfile.write("welcome ,"+str(clientaddr)+"\n" )
 
clientfile.write("Please enter a string:")
 
clientfile.write("\n")
 
line=clientfile.readline().strip()
 
clientfile.write("You entered string is:%s .\n"%line)
 
clientfile.close()
 
clientsock.close()

运行该程序，然后用客户端连接

Windows环境下Python代码的文件路径问题

在python程序里面我们经常需要对文件进行操作，Windows下的文件目录路径使用反斜杠“\”来分隔。但是，和大多数语言一样，Python代码里面，反斜杠“\”是转义符，例如“\n”表示回车、“\t”表示制表符等等。这样，如果继续用windows习惯使用“\”表示文件路径，就会产生歧义。

例如：“c:\test.txt”这表示c盘根目录下的一个文件，还是表示一个字符串呢？因为“\t”也可以解释为制表符。如果让我们人来判断，这当然是一个很简单的问题。但是机器就无法做出正确的判断了，只有没有歧义的代码机器才会正确执行。

解决办法，采用下面任何一种书写形式均可：

使用斜杠“/”: "c:/test.txt"… 不用反斜杠就没法产生歧义了
将反斜杠符号转义: "c:\\test.txt"… 因为反斜杠是转义符，所以两个"\\"就表示一个反斜杠符号
使用Python的raw string: r"c:\test.txt" … python下在字符串前面加上字母r，表示后面是一个原始字符串raw string，不过raw string主要是为正则表达式而不是windows路径设计的，所以这种做法尽量少用，可能会出问题。

如何安装包？

3种方法

方法1

python程序会使用很多模块，通常安装模块的方法是找到官方网站，选择合适的版本下载安装，很麻烦。

方法2

为了简化安装第三方的模块，python提供了easy_install工具，只需要一条命令就可以安装合适的模块，easy_install是python-setuptools包里的一个命令，所以只要安装python-setuptools就可以了。

#ubuntu
sudo apt install python-setuptools
#centos
sudo  yum install python-setuptools
easy_install scrapy

方法3

pip是一个可以替代 easy_install 的安装和管理 python 软件包的工具,提供更好的提示信息，可以删除包。

python -m pip install scrapy

包源

虽然用easy_install和pip来安装第三方库很方便。它们的原理其实就是从Python的官方源pypi.python.org/pypi 下载到本地，然后解包安装。不过因为某些原因，访问官方的pypi不稳定，很慢甚至有些还时不时的访问不了。

跟ubuntu的apt和centos的yum有各个镜像源一样，pypi也有。

在国内的强烈推荐豆瓣的源http://pypi.douban.com/simple/（注意后面要有/simple目录）。

使用镜像源很简单，用-i指定就行了：

sudo easy_install -i http://pypi.douban.com/simple/ saltTesting 
sudo pip install -i http://pypi.douban.com/simple/ saltTesting

要配制成默认的话，需要创建或修改配置文件（linux的文件在~/.pip/pip.conf，windows在%HOMEPATH%\pip\pip.ini），修改内容为：

[global]
index-url = http://pypi.douban.com/simple

然后用pip的时候自动就会用此镜像源了

另附上一个阿里云的PyPi源：http://mirrors.aliyun.com/pypi/simple/

pip使用

pip -m pip install --upgrade pip # 升级pip自身
pip list                         # 查看安装的包及版本号

pass语句

pass 不做任何事情，一般用做占位语句。

在 Python 中有时候会看到一个 def 函数:

def sample(n_samples):
    pass

该处的 pass 便是占据一个位置，因为如果定义一个空函数程序会报错，当你没有想好函数的内容是可以用 pass 填充，使程序可以正常运行。

Python中单引号、双引号和三引号的区别

先说1双引号与3个双引号的区别，双引号所表示的字符串通常要写成一行如：

s1 = "hello,world"

如果要写成多行，那么就要使用\ (“连行符”)吧，如

s2 = "hello,\
world"

s2与s1是一样的。如果你用3个双引号的话，就可以直接写了，如下：

s3 = """hello,
world,
hahaha."""

那么s3实际上就是"hello,\nworld,\nhahaha.", 注意“\n”，所以，如果你的字符串里\n很多，你又不想在字符串中用\n的话，那么就可以使用3个双引号。而且使用3个双引号还可以在字符串中增加注释，如下：

s3 = """hello,  #hoho, this is hello, 在3个双引号的字符串内可以有注释哦
world,          #hoho, this is world
hahaha."""

这就是3个双引号和1个双引号表示字符串的区别了，3个双引号与1个单引号的区别也是和这个一样的，实际上python支持单引号是有原因的，下面我来比较1个单引号和1个双引号的区别。

当我用单引号来表示一个字符串时，如果要表示Let's go 这个字符串，必须这样：

s4 = 'Let\'s go'

注意没有，字符串中有一个'，而字符串又是用'来表示，所以这个时候就要使用转义符 \ （\，转义符应该知道吧）, 如果你的字符串中有一大堆的转义符，看起来肯定不舒服，python也很好的解决了这个问题，如下：

s5 = "Let's go"

这时，我们看，python知道你是用 " 来表示字符串，所以python就把字符串中的那个单引号 ' , 当成普通的字符处理了，是不是很简单。对于双引号，也是一样的，下面举个例子

s6 = 'I realy like "python"!'

这就是单引号和双引号都可以表示字符串的原因了。

Python项目报错：ascii codec can't decode byte ……

问题描述：一个在Django框架下使用Python编写的定时更新项目，在Windows系统下测试无误，在Linux系统下测试，报如下错误：ascii codec can't decode byte 0xe8 in position 0:ordinal not in range(128)
原因分析：字符问题。在Windows系统转Linux系统时，字符问题很容易出现。
解决办法：在出现问题的页加上如下三行即可：

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

Django调试方法

web程序调试起来和桌面程序有着很大的差别，对于Django程序来说调试更是个问题，虽然现在有第三方的调试工具robhudson-django-debug-toolbar，但使用起来并不是很方便，而且很多人习惯于通过print来调试，这样方便快捷。

Django的error page功能很强大，能提供详细的traceback，包括局部变量的值，以及一个纯文本的异常信息。拥有同phpinfo()一样的作用，可以展示当前应用的相关设置，包括请求中的 GET, POST and COOKIE 数据以及HTTP环境中的所有重要META fields。

可以通过

assert False
assert False, request.GET

来触发Django的错误页面，进而进行调试工作。

Mako模板

http://docs.makotemplates.org/en/latest/

% if id in ('beedata', 'vocdata', 'tqosdata', 'outlinedata', 'onlinedata', 'itemdata') :
    disabled checked 
% endif

@@ 第510行： / 第510行： @@
 pip list                         # 查看安装的包及版本号
 </source>
+==pass语句==
+pass 不做任何事情，一般用做占位语句。
+在 Python 中有时候会看到一个 def 函数:
+<source lang="python">
+def sample(n_samples):
+    pass
+</source>
+该处的 pass 便是占据一个位置，因为如果定义一个空函数程序会报错，当你没有想好函数的内容是可以用 pass 填充，使程序可以正常运行。
 ==Python中单引号、双引号和三引号的区别==