PYTHON 获取GB2312的问题

flydon · 发表于 2015-12-3 08:43:57

我用了lxml的etree定位的。

然后编码问题到现在都是一个非常蛋疼的问题。我获取了一个标题，然后直接打印出来是乱码的。

在后面encode('utf8') 显示的是UTF8不能编码这玩意。
encod gb2312也是

球袋

jsenet · 发表于 2015-12-3 08:47:30

嘿嘿你没看懂python的编解码

python的编码转换需要decode成unicode 再encode,也就是说encode函数只能用于unicode

举例，获取的编码是gbk，需要转化成utf-8
getstr.decode('gbk').encode('utf8')

flydon · 发表于 2015-12-3 08:49:08

jsenet 发表于 2015-12-3 08:47
嘿嘿你没看懂python的编解码

python的编码转换需要decode成unicode 再encode,也就是说encode函数只能用 ...

- -这个早就试过了。不晓得如何也是出错了。

jsenet · 发表于 2015-12-3 08:50:48

本帖最后由 jsenet 于 2015-12-3 08:52 编辑

flydon 发表于 2015-12-3 08:49
- -这个早就试过了。不晓得如何也是出错了。

不可能只要是unicode的就能进行encode

mystr=u'你是大笨蛋'
mystr.encode('utf8')

还有页面定义编码、文件存储编码、和你encode后的要一致，否则输出乱码

HelloAoA · 发表于 2015-12-3 09:02:39

你需要这样
getstr.decode('gbk','ignore').encode('utf8')

忽略下，有的不标准

flydon · 发表于 2015-12-3 09:06:42

jsenet 发表于 2015-12-3 08:50
不可能只要是unicode的就能进行encode

mystr=u'你是大笨蛋'

这样肯定OK。网络上的教程都这么写。。但是和实际情况差别很大。

flydon · 发表于 2015-12-3 09:11:54

HelloAoA 发表于 2015-12-3 09:02
你需要这样
getstr.decode('gbk','ignore').encode('utf8')

代码如下。。出现的还是乱码。

# -*- encoding:utf-8 -*-
__author__ = 'Administrator'
from lxml import etree
import requests,sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
# HTML FILE LIKE BELOW
# <!DOCTYPE html>
# <html lang="en">
# <head>
# <meta charset="gb2312">
# <title></title>
# </head>
# <body>
# <p>测试中文了。。。。。。</p>
#
# </body>
# </html>
#
url='http://192.168.0.166/'
header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/41.0.2272.118 Safari/537.36'}
index = requests.get(url,headers = header)
selector = etree.HTML(index.text)
xpath_code='/html/body/p/text()'
test_html = selector.xpath(xpath_code)
print test_html[0].decode('gbk','ignore').encode('utf8')

复制代码

jsenet · 发表于 2015-12-3 09:19:26

flydon 发表于 2015-12-3 09:11
代码如下。。出现的还是乱码。

1.你的ssh （putty）是否选择了utf-8
2.该py保存文件格式是否选了utf-8

3.gbk的话不需要ignore gb2312才需要

jsenet · 发表于 2015-12-3 09:21:14

编码问题不要瞎尝试，要找到问题所在，知道自己的每次转换是在干什么

最主要的三统一：页面声明程序文件保存 str 这3个编码保持一致就不会乱码

HelloAoA · 发表于 2015-12-3 09:28:40

flydon 发表于 2015-12-3 09:11
代码如下。。出现的还是乱码。

pydev测试通过，原来写的……还有192.。。。这货还要自己搞……有些编码器不支持中文，还有bs4的能够直接识别编码很快的，bs4后面的解码器lxml可以换的，lxml很费资源

#coding=utf-8
'''
Created on 2015年12月3日
@FileName: Test.py
@Description: (描述)
@Site: http://www.sugarguo.com/
@author: 'Sugarguo'
@version V1.0.0
'''
import sys
reload(sys)
sys.path.append("..")
sys.setdefaultencoding('utf8')
import requests
from lxml import etree
from bs4 import BeautifulSoup
headers = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',
#'Accept-Encoding': 'gzip, deflate',
'Connection': 'close',
}
def getHtmlWithoutProxy(url):
try:
headers['User-Agent'] = {"Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)"}
r = requests.get(url, headers=headers, timeout=5)
print 'Encoding: ',r.encoding
print 'Get Url :',url
print 'Status Code: ',r.status_code
html = r.content
return html
except Exception as e:
print(e)
print "**********[ Error! ]**********\n"
content_html = getHtmlWithoutProxy('http://www.biquge.la/book/176/5054609.html')
soup = BeautifulSoup(content_html,"lxml")
print soup.find(id="content").get_text()
list_html = getHtmlWithoutProxy('http://www.biquge.la/book/176').lower().decode('gb2312')
list_page = etree.HTML(list_html)
novelTitle = list_page.xpath(u'//div[@id="list"]/dl/dd/a/text()')
for item in novelTitle:
print item

复制代码

		自动登录	找回密码
密码			注册