自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (19)
  • 论坛 (2)
  • 收藏
  • 关注

原创 Scrapy设置广度优先,爬取最新数据

# 爬虫允许的最大深度,可以通过meta查看当前深度;0表示无深度DEPTH_LIMIT = 3# 爬取时,0表示深度优先Lifo(默认);1表示广度优先FiFo# 后进先出,深度优先# DEPTH_PRIORITY = 0# SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleLifoDiskQueue'# SCHEDULER_MEMORY_...

2019-11-28 11:45:27 1935

原创 错误“AttributeError: 'MemoryUsage' object has no attribute 'tasks'”

def __init__(self, crawler): if not crawler.settings.getbool('MEMUSAGE_ENABLED'): raise NotConfigured try: # stdlib's resource module is only available on ...

2019-11-27 20:55:16 1394

原创 关于错误”AttributeError: module 'resource' has no attribute 'getrusage'”

windows平台下,scrapy1.8.0运行会出现“AttributeError: module 'resource' has no attribute 'getrusage'”错误提示,查找File "..\python37\lib\site-packages\scrapy\extensions\memusage.py"发现,已经有明确注释: try: ...

2019-11-27 20:35:57 1981 2

转载 nginx学习,看这一篇就够了:下载、安装。使用:正向代理、反向代理、负载均衡。常用命令和配置文件

具体见原文链接文章目录前言一、nginx简介1. 什么是 nginx 和可以做什么事情2.Nginx 作为 web 服务器3. 正向代理4. 反向代理5. 负载均衡6.动静分离二、Nginx 的安装(Linux:centos为例)1. 准备工作2. 开始安装3. 运行nginx4. 防火墙问题三、 Nginx 的常用命令和配置文件1. Nginx常用命令a. 使...

2019-11-26 14:56:52 1288

原创 scrapy爬虫代理crawlera的使用感受

二、部署到srcapy项目1、安装scarpy-crawlerapip install 、easy_install 随便你采用什么安装方式都可以pipinstallscrapy-crawlera 2、修改settings.py如果你之前设置过代理ip,那么请注释掉,加入crawlera的代理DOWNLOADER_MIDDLEWA...

2019-11-26 12:17:40 2219

转载 用XPath精确定位节点元素&selenium使用Xpath定位之完整篇

在利用XSL进行转换的过程中,匹配的概念非常重要。在模板声明语句 xsl:template match = ""和模板应用语句xsl:apply-templates select = "" 中,用引号括起来的部分必须能够精确地定位节点。具体的定位方法则在XPath中给出。之所以要在XSL中引入XPath的概念,目的就是为了在匹配XML文档结构树时能够准确地找到某一个节点元素。可以把XPath比...

2019-11-25 16:23:21 1234

转载 我们从爬取1000亿个网页中学到了什么?

Scrapinghub 成立于 2010 年,是一家领先的数据公司,当今最强大、更受欢迎的网络爬取框架 Scrapy 就是由它开发的。目前,Scrapinghub 每个月为全球很多大型的电子商务公司爬取 80 亿个网页(其中有 30 亿个是产品页面)。在进行大规模爬取时哪些东西是最重要的?与标准的爬虫应用程序不同,大规模爬取电子商务产品数据需要面临一系列独特的挑战,这些挑战让爬取网页...

2019-11-25 12:14:09 1345

原创 lxml提取html标签内容, tostring()不能显示中文 解决方案

from lxml import etreeimport requestsresponse = requests.get('https://www.baisu.com/).texttree = etree.HTML(response)strs = tree.xpath( "//body")strs = strs[0] strs = (etree.tostring(strs)...

2019-11-20 18:53:27 1612

原创 python3中字符串分为 str 和 bytes

unicode、utf-8、gbk、gb2312之间的暧昧关系unicode编码: unicode编码为世界上所有字符都分配了一个唯一编号, 为十六进制, 如中文简体汉字 “渣” 的 Unicode编号就是 6E23, 在 python2就是 "\u6e23", 但是unicode仅仅定义了每个字符的编号,并没有定义如何将这个编号进行存储的方式,所以后来出现了utf-8, gbk等编码格式, ...

2019-11-20 18:06:58 1214

原创 python爬虫编码问题详解 (requests)

具体参见:https://blog.csdn.net/Likianta/article/details/101293915import requestsdef get_text(resp): # 优先使用 chardet 预测的 encoding, 其次使用 http header 提供的 encoding source_encoding = resp.apparent_...

2019-11-20 15:42:20 1348

原创 html解析器对比

2019-11-19 15:18:26 1260

hammer.js移动端图片手指缩放插件

手机移动端手指缩放图片的插件hammer.js

2015-07-22

华为adb手机驱动工具 官方版

华为adb手机驱动工具是一款专为华为手机准备的驱动软件,想要使用这款驱动软件的用户赶紧来下载吧。 华为adb手机驱动工具简介: 华为adb驱动工具主要适用于华为系列的手机,一般需要在电脑上安装对应的adb驱动才能够将手机与电脑连接进行手机的解锁操作。软件操作比较简单,运行后按照提示操作就可以了,如果你的手机被锁了,可以使用 华为adb驱动工具进行解锁。 华为adb手机驱动工具怎么安装? 下载解压,然后在解压出来的文件夹里找到【adb-setup-1.3.exe】直接双击打开安装,然后一直输入Y并按回车键进行安装,直接到安装完成。

2017-02-04

Android-Universal-Image-Loader官方demo

Android-Universal-Image-Loader官方demo

2014-03-23

图片异步加载开源组件Android-Universal-Image-Loader使用

Android-Universal-Image-Loader 开源组件demo

2014-03-23

Oracle_11g图形界面创建数据库实例

Oracle_11g图形界面创建数据库实例

2013-10-11

利用socket传SWF到Flash

在java与flash之间,利用socket传输swf文件,显示在flash play中。这样做可以防止IE缓存保存swf文件。

2011-01-03

dspace数据批量上传与导出

dspace数据批量上传的具体分析,导出的分析。来自台湾国立清华大学

2010-11-11

统计目录下指定类型的文件个数

统计目录下指定类型的文件个数,包括子目录等。

2010-09-24

bat计算当前目录下所有指定类型的文件数(包括子目录)

bat计算当前目录下所有指定类型的文件数(包括子目录)

2010-09-24

windows2003手工安装配置php5详细指南

windows2003手工安装配置php5详细指南,解决了网上许多方法的不稳定性,配合IIS,稳定无错。

2010-09-07

独立于word的公式编辑器

独立于word的公式编辑器,可编辑任意数学公式,直接黏贴进word即可。

2010-09-07

ASP小型服务器AWS

ASP小型服务器AWS,绿色版,放在程序根目录下直接可用。

2010-09-07

超级批量文本替换工具

超级批量文本替换,可以自定义规则,替换目录下所有文件,具体用法请看说明文档。

2010-09-07

2018-2019中国开发者调查报告

2018-2019中国开发者调查报告.1. 30岁以下软件开发者人数占比超7成,全国近半数的开发者工作在一线城市。2. 软件开发者学习热情高涨,9成开发者通过技术媒体、技术社区、技术论坛等渠道了解行业最新 动态、获取新知识。3. 7成开发者在使用Java语言,近6成开发者近期最想学Python语言。4. 超7成软件开发者主要来自二本以上院校,超8成毕业于计算机与软件专业。5. 大数据技术应用开始普及,但大数据应用场景相对单一。6. 86%的企业正在使用云服务,近8成企业利用云平台已经开发应用或正在开发应用。7. 区块链技术近两年刚刚兴起,27%开发者有应用或准备应用,66%开发者尚处于初步了解阶段, 7%开发者完全不了解,但是相比于2017年,这项技术被了解和关注的程度大幅度提高。8. 人工智能技术日益受到企业和市场的关注,应用前景广阔。9. 物联网产业链上企业主要集中在智能设备环节,智能家居是物联网最大的应用领域

2019-03-15

po,mo互转工具

今天我给大家带来了自制的mo、po文件相互转换工具, 主要特点是方便简洁。 ==================================================================================== 使用方法: 把要转换的mo或po文件拖到bat上即可,会自动在文件原目录生成对应的另一种格式。

2016-03-14

市场需求文档(MRD)写作方法技巧(下)

产品有越做越复杂的可能,但在一定时间内,定位决定了产品的一切 • 产品定位不市场定位是有区别的,但经常容易混淆。

2015-06-01

市场需求文档(MRD)写作方法技巧(下)

产品有越做越复杂的可能,但在一定时间内,定位决定了产品的一切 • 产品定位不市场定位是有区别的,但经常容易混淆:

2015-06-01

市场需求文档(MRD)写作方法与技巧(上)

理解BRD文档不MRD文档的关系 – 理解幵掌握MRD文档的用途不作用 – 理解幵掌握MRD文档的: • 写作方法 • 写作思路 • 写作技巧

2015-06-01

文档管理---Minidx

Minidx能够轻松的管理各种类型的文档,自带超高速全文检索引擎能够快速的找到所需要的文档。利用IFilter文本抽出功能即使没有安装Office等应用软件也可以直接快速的查看内容。P2P功能使Minidx之间可以实现文本共享以及即时通信IM功能。

2007-11-18

柴神的留言板

发表于 2020-01-02 最后回复 2020-01-02

[已处理] 请管理员解除屏蔽

发表于 2010-07-23 最后回复 2010-07-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除