Python
目录
- 1 Scrapy
- 2 scrapy-splash
- 3 Flask
- 4 PyCharm:no module named * 解决方法
- 5 numpy中linspace用法
- 6 random模块
- 7 绘制直方图
- 8 画曲线图
- 9 windows下安装Django
- 10 Python27的安装
- 11 我为什么要学习python
- 12 Python写的服务器代码区区20行左右
- 13 Windows环境下Python代码的文件路径问题
- 14 如何安装包?
- 15 python多行注释
- 16 python面试题
- 17 闭包
- 18 pass语句
- 19 Python中单引号、双引号和三引号的区别
- 20 Python项目报错:ascii codec can't decode byte ……
- 21 卸载distutils安装的包
- 22 Django调试方法
- 23 Mako模板
Scrapy
Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。
框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。
Scrapy 使用了 Twisted'twɪstɪd异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。
Python爬虫指南
- 基本的爬虫工作原理
- 基本的http抓取工具,scrapy
- Bloom Filter: Bloom Filters by Example
- 如果需要大规模网页抓取,你需要学习分布式爬虫的概念。其实没那么玄乎,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq: https://github.com/nvie/rq
- rq和Scrapy的结合:darkrho/scrapy-redis · GitHub
- 后续处理,网页析取(grangier/python-goose · GitHub),存储(Mongodb)
安装scrapy
pip install scrapy
创建scrapy项目
scrapy startproject stockstar
创建 scrapy 项目以后,在 settings 文件中有这样的一条默认开启的语句。
POBOTSOXT_OBEY = True
robots.txt 是遵循 Robot 协议的一个文件,在 Scrapy 启动后,首先会访问网站的 robots.txt 文件,然后决定该网站的爬取范围。有时我们需要将此配置项设置为 False。
scrapy-splash
我们已经见识到了Scrapy的强大之处。但是,Scrapy也有其不足之处,即Scrapy没有JS engine, 因此它无法爬取JavaScript生成的动态网页,只能爬取静态网页,而在现代的网络世界中,大部分网页都会采用JavaScript来丰富网页的功能。所以,这无疑Scrapy的遗憾之处。
那么,我们还能愉快地使用Scrapy来爬取动态网页吗?有没有什么补充的办法呢?答案依然是yes!答案就是,使用scrapy-splash模块!
scrapy-splash模块主要使用了Splash. 所谓的Splash, 就是一个Javascript渲染服务。它是一个实现了HTTP API的轻量级浏览器,Splash是用Python实现的,同时使用Twisted和QT。Twisted(QT)用来让服务具有异步处理能力,以发挥webkit的并发能力。Splash的特点如下:
- 并行处理多个网页
- 得到HTML结果以及(或者)渲染成图片
- 关掉加载图片或使用 Adblock Plus规则使得渲染速度更快
- 使用JavaScript处理网页内容
- 使用Lua脚本
- 能在Splash-Jupyter Notebooks中开发Splash Lua scripts
- 能够获得具体的HAR格式的渲染信息
安装
1、pip install scrapy-splash
2、配置settings.py
SPLASH_URL = 'http://localhost:8050'
3、使用docker运行一个实例:http://192.168.1.241:8050
Lua示例
function main(splash, args) splash:go("https://www.linkedin.com/login") input = splash:select("#username") input:send_text('tecshuttle@gmail.com') password = splash:select("#password") password:send_text('sky007tom') submit = splash:select('button.btn__primary--large') submit:mouse_click() splash:wait(5) png_1 = splash:png() splash:go('https://www.linkedin.com/mynetwork/') search = splash:select('#a11y-menu') splash:wait(3) png_2 = splash:png() return { png_1 = png_1, png_2 = png_2 } end
Flask
安装 pip install flask
- Werkzeug 一个 WSGI 工具包
- jinja2 模板引擎
最简单的例子
from flask import Flask app = Flask(__name__) @app.route("/") def hello(): return "Hello World!" if __name__ == "__main__": app.run()
实现一点基本web功能
from flask import Flask from flask import render_template from flask import request from flask import jsonify app = Flask(__name__) @app.route("/") def hello(): return render_template("index.html", boy_name='Tom') # 模板文件要放在templates文件夹下面,否则找不到。@app.route("/") @app.route('/add', methods=['GET', 'POST']) def add(): if request.method == 'GET': return render_template("add.html") else: name = request.form.get('name', False) old = request.form.get('old', False) return render_template('index.html', name=name, old=old) @app.route('/api') def api(): name = 'name' array = [] for i in range(1, 5): array.append(i) return jsonify({name: 'Tom', 'old': 23, 'array': array[::2]}) if __name__ == "__main__": app.debug = True app.run() # end file
PyCharm:no module named * 解决方法
使用PyCharm,遇到‘no module named numpy'问题,但是numpy已经成功安装;
后来发现PyCharm项目默认的python.exe在项目所在目录的./env/scripts/python.exe,故使用正式安装的python.exe替换,问题解决。
在file>settings>Project Python>Project interpreter里面修改。
numpy中linspace用法
linspace的功能最初是从MATLAB中学来的,用此来创建等差数列。
numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
random模块
#!/usr/bin/python import random print( random.randint(1,10) ) # 产生 1 到 10 的一个整数型随机数 print( random.random() ) # 产生 0 到 1 之间的随机浮点数 print( random.uniform(1.1,5.4) ) # 产生 1.1 到 5.4 之间的随机浮点数,区间可以不是整数 print( random.choice('tomorrow') ) # 从序列中随机选取一个元素 print( random.randrange(1,100,2) ) # 生成从1到100的间隔为2的随机整数 a=[1,3,5,6,7] # 将序列a中的元素顺序打乱 random.shuffle(a) print(a)
随机生成符合某种分布的数据
(1)均匀分布,uniform(a,b)
(2)正态分布,normalvariate(mu, sigma)
(3)高斯分布,gauss(mu,sigma)
就是正态分布,采用了不同的实现方式,据说运行速度更快。实验1000000个数快了不到1秒,也没快太多。
(4)还有生成三角形分布、对数分布、指数分布、β分布、伽马分布等的函数
triangular(low, high, mode)三角形分布
lognormvariate(mu, sigma)对数分布
expovariate(lambd)指数分布
gammavariate(alpha, beta)伽马分布
实际工作中,这些分布比均匀分布和正态分布用的都少的多。
绘制直方图
# histogram.py import numpy as np import random from matplotlib import pyplot as plt data1 = [random.gauss(15,10) for i in range(500)] data2 = [random.gauss(5,5) for i in range(500)] bins = np.arange(-60, 60, 2.5) plt.xlim([min(data1+data2)-5, max(data1+data2)+5]) plt.hist(data1, bins=bins, alpha=0.3, label='class 1') plt.hist(data2, bins=bins, alpha=0.3, label='class 2') plt.title('Random Gaussian data') plt.xlabel('variable X') plt.ylabel('count') plt.legend(loc='upper right') plt.show()
画曲线图
import numpy as np import matplotlib.pyplot as plt x = np.linspace(-4, 4, 200) f1 = np.power(10, x) f2 = np.power(np.e, x) f3 = np.power(2, x) plt.plot(x, f1, 'r', x, f2, 'b', x, f3, 'g', linewidth = 2) plt.axis([-4, 4, -0.5, 8]) plt.text(1, 7.5, r'$10^x$', fontsize = 16) plt.text(2.2, 7.5, r'$e^x$', fontsize = 16) plt.text(3.2, 7.5, r'$2^x$', fontsize = 16) plt.show()
windows下安装Django
http://jingyan.baidu.com/article/466506580e7d29f549e5f8b6.html
Python27的安装
- 下载/安装python
yum install -y bzip2* #nodejs 0.8.5需要,请安装python前,先安装此模块。 wget http://www.python.org/ftp/python/2.7.3/Python-2.7.3.tgz tar zvxf Python-2.7.3.tgz cd Python-2.7.3 ./configure make && make install /usr/local/bin/python2.7 -V #查看Python版本
- 建立软连接,使系统默认的python指向python2.7
正常情况下即使python2.7安装成功后,系统默认指向的python仍然是2.4.3版本,考虑到yum是基于python2.4.3才能正常工作,不敢轻易卸载。
mv /usr/bin/python /usr/bin/python.bak ln -s //usr/local/bin/python2.6 /usr/bin/python python -V #检验python指向是否成功
- 解决系统python软链接指向python2.6版本后,yum不能正常工作
$vi /usr/bin/yum
将文本编辑显示的#/usr/bin/python修改为#/usr/bin/python2.4,保存修改即可。
我为什么要学习python
引言:学习python近两年,谈谈我对于python的一点小理解,也从一些方面谈谈自己微薄的想法,也就是我为什么学习python
这里我不讨论python的一些有用的库或者框架,只从语言本身,最小支持的情况下谈论这门语言本身。
语言的发展都是越来越接近Lisp,这也是这门语言伟大的原因。
下面我罗列一下我学习python的原因:
一.多编程范式
python是一门多范式的编程语言,所谓的过程式,面向对象和函数式的结合。
大部分人接触编程语言都是从过程式开始的,原因是因为过程式的程序方式与计算机运行方式是统一的,指令序列与运行过程是统一的
如典型的C,我也是从C开始学习的,过程式的程序语言设计编写程序较为简单,但是符合人机交互思考方式。
python虽然是一门面向对象语言,就连“ ”(空格)也可以看做是一个对象,但是python胜任过程式是没有问题的。
如不需要使用类的静态方法:
def a_plus_b(a,b):
return a+b python在设计的时候将其当做一门面向对象的方式编写,且不说面向对象给软件设计带来的一些革命等,在python这样的动态语言中面向对象有一个亮点就是Duck typing(鸭子类型)
关于鸭子类型,就是说,如果我认为一个抽象的东西会游泳会“嘎嘎”叫,我就可以把它当做鸭子。
def use_duck( Duck ):
Duck.swim()
Duck.gaga()
class Duck:
def swim(self):
... def gaga(self):
...
如果这样使用
little_duck Duck()
use_duck( little_duck ) 关于Duck类,你可以给他取任何的名字,或者继承它取另一个名字,只需要实现 swim() gaga() 你就可以把它当做鸭子
关于鸭子类型,很多人不理解为什么不需要提供一个接口来规定鸭子的行为,我既不支持也不反对,我的观点是这样的:
1.对于参数的检查,不符合动态语言的特性
2.提供了接口规范,那就不是鸭子类型了,直接叫多态得了
关于python支持的函数式编程
首先是lambda 演算
函数式编程的定义是将函数看做是变量一样的待遇,变量在程序中最简单的有什么待遇呢
1.可以赋值
2.可以作为参数
3.可以改变值(Erlang例外)
4.且不说生命周期了和作用域了
λ演算背后蕴含着计算机可计算性的深厚知识,lambda也是图灵模型,是停机问题的一个否定答案。不仅仅是一个匿名函数那样简单
关于lambda 演算,看看这个程序做了什么
map(lambda n:2*n,[1,2,3,4,5])
1.lambda n:2*n 本身作为一个匿名函数
2.lambda 本身作为一个参数传入 map()函数 ,这也就是说我的高阶函数,可以将函数变身看成是一个变量作为参数传递,这也是它作为函数受到的高等待遇
关于赋值和改变值,两种方式:
1.f = fun() 不改变函数状态,只改变名称,但是说明函数是可以赋值的
2.可以使用闭包作为改变函数的状态方式,或者使用装饰器来完成函数状态改变
函数式编程的使用也可以提高程序的可读性和减少代码,而且能够清晰的表达函数的功能,如MapReduce就是来自函数式编程的思想
Map(func,List)
作用是将func 作用于List中的每一个元素
以刚才的例子举例
map(lambda n:2*n,[1,2,3,4,5])
此函数返回
[2,4,6,8,10]
重要的是在于知道这样的方式带给我们的清晰的设计方式
当然函数式编程不是那么几句话就说完的,理解函数式编程的核心是理解 λ演算
二.一些有意思的特性
惰性计算:
看看完成一个斐波那契数列python 可以怎么做:
>>> def fib(): a , b = 0 ,1 while 1: yield b a , b = b ,a+b
>>> f = fib()
实际上由yield 生成了一个可迭代对象,每次调用
f.next()就可以产生一个斐波那契值,而函数的内部状态是由迭代对象存储的
至于返回一个可迭代对象,如果需要确定迭代到多少位,可以使用 itertools.islice
协程:
协程也是一个基于yield的概念,主要的模式是微线程的协作式工作模式:
1 def coroutine(func): 2 def ret(): 3 f = func() 4 f.next() 5 return f 6 return ret 7 8 9 10 @coroutine 11 def consumer(): 12 print "Wait to getting a task" 13 while 1: 14 n = (yield) 15 print "Got %s",n 16 17 18 19 import time 20 def producer(): 21 c = consumer() 22 while 1: 23 time.sleep(1) 24 print "Send a task to consumer" 25 c.send("task") 26 27 if __name__ == "__main__": 28 producer() 协程带来的好处是可以直接调度你的线程,这也是它为什么叫做协程而不是线程的原因,线程属于抢占式并发,协程属于协作式并发
三.动态语言带来的好处
从程序设计带来的快感(我相信只有热爱这方面的人才有的感觉)来说,动态语言,比如python,节约了更多的时间可以用来陪女朋友或者老婆,或者老公
当然,作为互联网时代快速开发来说,赶鸭子上线,也是《黑客与画家》上面介绍的,快速开发很重要,当然需要符合这方面的需求
动态语言的CPU密集型运算必然比不过C/C++
总之:人生苦短,我用python
Python写的服务器代码区区20行左右
目前正在学Python网络编程基础,发觉Python是一个不错的脚步,Python写的服务器代码区区20行左右,如果是C或者C++写的话,远不止这个数了。
#!usr/bin/python import socket host='' port=51423 s=socket.socket (socket.AF_INET ,socket.SOCK_STREAM) s.setsockopt(socket.SOL_SOCKET ,socket.SO_REUSEADDR ,1) s.bind((host,port)) s.listen(1) print"Server is running on port %d ;Press Ctrl-c to terminate." % port while 1: clientsock,clientaddr=s.accept() clientfile=clientsock.makefile('rw',0) clientfile.write("welcome ,"+str(clientaddr)+"\n" ) clientfile.write("Please enter a string:") clientfile.write("\n") line=clientfile.readline().strip() clientfile.write("You entered string is:%s .\n"%line) clientfile.close() clientsock.close()
运行该程序,然后用客户端连接
Windows环境下Python代码的文件路径问题
在python程序里面我们经常需要对文件进行操作,Windows下的文件目录路径使用反斜杠“\”来分隔。但是,和大多数语言一样,Python代码里面,反斜杠“\”是转义符,例如“\n”表示回车、“\t”表示制表符等等。这样,如果继续用windows习惯使用“\”表示文件路径,就会产生歧义。
例如:“c:\test.txt”这表示c盘根目录下的一个文件,还是表示一个字符串呢?因为“\t”也可以解释为制表符。如果让我们人来判断,这当然是一个很简单的问题。但是机器就无法做出正确的判断了,只有没有歧义的代码机器才会正确执行。
解决办法,采用下面任何一种书写形式均可:
- 使用斜杠“/”: "c:/test.txt"… 不用反斜杠就没法产生歧义了
- 将反斜杠符号转义: "c:\\test.txt"… 因为反斜杠是转义符,所以两个"\\"就表示一个反斜杠符号
- 使用Python的raw string: r"c:\test.txt" … python下在字符串前面加上字母r,表示后面是一个原始字符串raw string,不过raw string主要是为正则表达式而不是windows路径设计的,所以这种做法尽量少用,可能会出问题。
如何安装包?
3种方法
- 方法1
python程序会使用很多模块,通常安装模块的方法是找到官方网站,选择合适的版本下载安装,很麻烦。
- 方法2
为了简化安装第三方的模块,python提供了easy_install工具,只需要一条命令就可以安装合适的模块,easy_install是python-setuptools包里的一个命令,所以只要安装python-setuptools就可以了。
#ubuntu sudo apt install python-setuptools #centos sudo yum install python-setuptools easy_install scrapy
- 方法3
pip是一个可以替代 easy_install 的安装和管理 python 软件包的工具,提供更好的提示信息,可以删除包。
python -m pip install scrapy
包源
虽然用easy_install和pip来安装第三方库很方便。它们的原理其实就是从Python的官方源pypi.python.org/pypi 下载到本地,然后解包安装。不过因为某些原因,访问官方的pypi不稳定,很慢甚至有些还时不时的访问不了。
跟ubuntu的apt和centos的yum有各个镜像源一样,pypi也有。
在国内的强烈推荐豆瓣的源http://pypi.douban.com/simple/(注意后面要有/simple目录)。
使用镜像源很简单,用-i指定就行了:
sudo easy_install -i http://pypi.douban.com/simple/ saltTesting sudo pip install -i http://pypi.douban.com/simple/ saltTesting
要配制成默认的话,需要创建或修改配置文件(linux的文件在~/.pip/pip.conf,windows在%HOMEPATH%\pip\pip.ini),修改内容为:
[global] index-url = http://pypi.douban.com/simple
然后用pip的时候自动就会用此镜像源了
另附上一个阿里云的PyPi源:http://mirrors.aliyun.com/pypi/simple/
pip使用
pip -m pip install --upgrade pip # 升级pip自身 pip list # 查看安装的包及版本号
python多行注释
python本身不带多行注释,编辑时每行敲一个“#”相当的不方便,其实可以有变通的方法
1. 把要注释的块用if 0:包起来,需要注意缩进
2. 把要注释的块用 包起来,也需要注意缩进。不过一般情况下是用来做function doc的,所以此方法并不怎么好
3. 一般的编辑器都会带多行注释的快捷键
eclipse下可以选中多行,然后按ctrl+/注释或取消注释
python面试题
第1题
import copy # 带有默认参数的表达式在函数被定义的时候被计算,不是在调用的时候被计算。 def extend_list(val, list=[]): list.append(val) return list list1 = extend_list(10) list2 = extend_list(123, []) list3 = extend_list('a') print("list1 = %s" % list1) print("list2 = %s" % list2) print("list3 = %s" % list3) print("-----------------") array = [1, 2, 3, 4, 5] l1 = copy.deepcopy(array) array.append(6) l2 = copy.deepcopy(array) array.pop() array.pop() array.pop() l1.append(7) print(array) print(l1) print(l2)
闭包
# line定义的隶属程序块中引用了高层级的变量b,我们称b为line的环境变量。 事实上,line作为line_conf的返回值时,line中已经包括b的 # 取值(尽管b并不隶属于line)。 # 一个函数和它的环境变量合在一起,就构成了一个闭包(closure)。在Python中,所谓的闭包是一个包含有环境变量取值的函数对象。环境变量取值 # 被保存在函数对象的__closure__属性中。 # def line_conf(): b = 15 def line(x): return 2 * x + b return line # return a function object my_line = line_conf() print(my_line(5)) print(my_line.__closure__) print(my_line.__closure__[0].cell_contents) # 闭包的作用: # 1、减少函数的参数 # 2、提高代码的复用性 # # 闭包有效的减少了函数所需定义的参数数目,这对于并行运算来说有重要的意义。在并行运算的环境下,我们可以让每台电脑负责一个函数,然后将一 # 台电脑的输出和下一台电脑的输入串联起来。最终,我们像流水线一样工作,从串联的电脑集群一端输入数据,从另一端输出数据。这样的情境最适合 # 只有一个参数输入的函数。闭包就可以实现这一目的。 def line_func(a, b): def line(x): return a * x + b return line line1 = line_func(1, 1) line2 = line_func(4, 5) print(line1(5), line2(5)) # 在Python中创建一个闭包可以归结为以下三点: # 1、闭包函数必须有内嵌函数 # 2、内嵌函数需要引用该嵌套函数上一级namespace中的变量 # 3、闭包函数必须返回内嵌函数
// PHP的版本 function line_func($a, $b) { $func = function($x) use ($a, $b) { return $a * $x + $b; }; return $func; } $line1 = line_func(1, 1); $line2 = line_func(4, 5); echo $line1(5), $line2(5);
pass语句
pass 不做任何事情,一般用做占位语句。
在 Python 中有时候会看到一个 def 函数:
def sample(n_samples): pass
该处的 pass 便是占据一个位置,因为如果定义一个空函数程序会报错,当你没有想好函数的内容是可以用 pass 填充,使程序可以正常运行。
Python中单引号、双引号和三引号的区别
先说1双引号与3个双引号的区别,双引号所表示的字符串通常要写成一行如:
s1 = "hello,world"
如果要写成多行,那么就要使用\ (“连行符”)吧,如
s2 = "hello,\ world"
s2与s1是一样的。如果你用3个双引号的话,就可以直接写了,如下:
s3 = """hello, world, hahaha."""
那么s3实际上就是"hello,\nworld,\nhahaha.", 注意“\n”,所以,如果你的字符串里\n很多,你又不想在字符串中用\n的话,那么就可以使用3个双引号。而且使用3个双引号还可以在字符串中增加注释 ,如下:
s3 = """hello, #hoho, this is hello, 在3个双引号的字符串内可以有注释哦 world, #hoho, this is world hahaha."""
这就是3个双引号和1个双引号表示字符串的区别了,3个双引号与1个单引号的区别也是和这个一样的,实际上python支持单引号是有原因的,下面我来比较1个单引号和1个双引号的区别。
当我用单引号来表示一个字符串时,如果要表示Let's go 这个字符串,必须这样:
s4 = 'Let\'s go'
注意没有,字符串中有一个',而字符串又是用'来表示,所以这个时候就要使用转义符 \ (\,转义符应该知道吧), 如果你的字符串中有一大堆的转义符,看起来肯定不舒服,python也很好的解决了这个问题,如下:
s5 = "Let's go"
这时,我们看,python知道你是用 " 来表示字符串,所以python就把字符串中的那个单引号 ' , 当成普通的字符处理了,是不是很简单。对于双引号,也是一样的,下面举个例子
s6 = 'I realy like "python"!'
这就是单引号和双引号都可以表示字符串的原因了。
Python项目报错:ascii codec can't decode byte ……
- 问题描述:一个在Django框架下使用Python编写的定时更新项目,在Windows系统下测试无误,在Linux系统下测试,报如下错误:ascii codec can't decode byte 0xe8 in position 0:ordinal not in range(128)
- 原因分析:字符问题。在Windows系统转Linux系统时,字符问题很容易出现。
- 解决办法:在出现问题的页加上如下三行即可:
import sys reload(sys) sys.setdefaultencoding('utf-8')
卸载distutils安装的包
pip安装:Cannot uninstall . It is a distutils installed project and thus we cannot accurately....解决办法
对于这种问题如何解决呢?
直接全局搜索对应文件,具体包括 "package name" 文件夹 和 "package name".egg-info ,找到后直接删除即可。
Django调试方法
web程序调试起来和桌面程序有着很大的差别,对于Django程序来说调试更是个问题,虽然现在有第三方的调试工具robhudson-django-debug-toolbar,但使用起来并不是很方便,而且很多人习惯于通过print来调试,这样方便快捷。
Django的error page功能很强大,能提供详细的traceback,包括局部变量的值,以及一个纯文本的异常信息。拥有同phpinfo()一样的作用,可以展示当前应用的相关设置,包括请求中的 GET, POST and COOKIE 数据以及HTTP环境中的所有重要META fields。
可以通过
assert False assert False, request.GET
来触发Django的错误页面,进而进行调试工作。
Mako模板
http://docs.makotemplates.org/en/latest/
% if id in ('beedata', 'vocdata', 'tqosdata', 'outlinedata', 'onlinedata', 'itemdata') : disabled checked % endif