南开21春学期《网络爬虫与信息提取》在线作业辅导材料附答案1.docx
《南开21春学期《网络爬虫与信息提取》在线作业辅导材料附答案1.docx》由会员分享,可在线阅读,更多相关《南开21春学期《网络爬虫与信息提取》在线作业辅导材料附答案1.docx(13页珍藏版)》请在冰豆网上搜索。
南开21春学期《网络爬虫与信息提取》在线作业辅导材料附答案1
南开21春学期(1709-2103)《网络爬虫与信息提取》在线作业
提示:
南开大学课程学习已经开启,本套试卷是课程学习辅导资料,只作参考学习使用!
!
!
一、单选题(共20道试题,共40分)
1.下列说法错误的是()
[A.]小程序的请求极其简单,基本上没有验证信息
[B.]用Python来请求小程序的后台接口从而获取数据,比请求异步加载网页的后台接口要复杂很多。
[C.]如果目标网站有微信小程序,那么一定要优先调查能否通过小程序的接口来抓取数据。
[D.]小程序的反爬虫能力比网页版的低很多。
使用小程序的接口来爬数据,能极大提高爬虫的开发效率。
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
B
2.()是一个传递信息的通道。
它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。
[A.]meta
[B.]head
[C.]header
[D.]body
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
A
3.启动MongoDB使用命令mongod--()usr/local/etc/mongo[D.]conf
[A.]config
[B.]install
[C.]start
[D.]begin
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
A
4.HTTP常用状态码表明服务器不允许访问那个资源的是()
[A.]500
[B.]503
[C.]403
[D.]405
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
C
5.Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为()
[A.]空
[B.]空列表
[C.]空元组
[D.]不返回
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
B
6.Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成
[A.]列表
[B.]元组
[C.]字典
[D.]集合
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
A
7.在Scrapy的目录下,哪个文件负责数据抓取以后的处理工作?
()
[A.]spiders文件夹
[B.]item.py
[C.]pipeline.py
[D.]settings.py
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
C
8.Python在Windows路径字符串左引号的左边加()符号来避免反斜杠问题
[A.]s
[B.]c
[C.]d
[D.]r
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
D
9.python中可以用来将图片中的文字转换为文本的第三方类库是
[A.]lxml
[B.]requests
[C.]beautifulsoup
[D.]pytesseract
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
D
10.在Linux中哪个命令是添加权限的()
[A.]chmod
[B.]sudo
[C.]cp
[D.]mkdir
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
A
11.使用python定制mitmproxy,下面的语句请求的是()。
{req.headers["User-Agent"]}
[A.]headers
[B.]文本内容
[C.]目标网站
[D.]user-agent
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
D
12.PyMongo中逻辑查询表示小于等于的符号是()
[A.]$gt
[B.]$lt
[C.]$gte$$lte
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
C
13.Python中若定义object=[1,2,3,4,5],则print(object[-4])输出()
[A.]NULL
[B.]2
[C.]4
[D.]程序报错
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
B
14.Python中Object={'obj_1':
'1','obj_2':
'2'},则Objcet.get('boj_3','3')是()
[A.]1
[B.]2
[C.]3
[D.]无输出
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
C
15.PyMongo中的查找方法的参数是哪种数据结构()
[A.]列表
[B.]元组
[C.]字典
[D.]集合
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
C
16.Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含()
[A.]列表
[B.]元组
[C.]字典
[D.]集合
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
B
17.Redis是一个开源的使用()语言编写
[A.]ANSIC
[B.]C++
[C.]JAVA
[D.]Python
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
A
18.下面关于Charles使用说法错误的是()
[A.]在数据包非常多的情况下,使用Charles的过滤功能来对数据包进行过滤从而减少干扰。
[B.]通过单击图中方框框住的各个选项卡,可以非常直观地观察到请求和返回的各种信息。
[C.]如果浏览器是Chrome,在没有安装第三方代理插件的情况下,Chrome的HTTP流量都会经过Charles。
[D.]Charles无法支持计算机上除了浏览器之外的其他软件。
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
D
19.以下哪个命令是利用URL语法在命令行下工作的文件传输工具()
[A.]curl
[B.]tar-zxvf
[C.]mkdir
[D.]cp
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
A
20.Python中Object=[1,2,3,4,5],则Objcet是()
[A.]列表
[B.]元组
[C.]字典
[D.]集合
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
A
二、多选题(共10道试题,共20分)
21.下列关于mitmproxy的使用说法正确的是()
[A.]mitmproxy的端口为8080端口。
[B.]设置好代理以后,在手机上打开一个App或者打开一个网页,可以看到mitmproxy上面有数据滚动。
[C.]用鼠标在终端窗口上单击其中的任意一个请求,可以显示这个数据包的详情信息。
[D.]如果要访问HTTPS网站,还需要安装mitmproxy的证书
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
ABCD
22.cookies的缺点是
[A.]实现自动登录
[B.]跟踪用户状态
[C.]http中明文传输
[D.]增加http请求的流量
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
CD
23.以下哪些可以独立成为Python编译器()
[A.]Pycharm
[B.]IDLE
[C.]Eclipse
[D.]VisualStudio2010
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
AB
24.Python中()容器有推导式
[A.]列表
[B.]元组
[C.]字典
[D.]集合
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
ACD
25.使用Selennium获取网页中元素的方法有
[A.]find_element_by_name
[B.]find_element_by_id
[C.]find_elements_by_name
[D.]find_elements_by_id
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
ABCD
26.Python中一个函数没有返回值则可以写()
[A.]没有return
[B.]return
[C.]returnNone
[D.]returnNULL
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
ABC
27.Python中一个函数可以有()个return语句
[A.]0
[B.]1
[C.]多个
[D.]2
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
ABCD
28.以下哪些方法属于Python写CSV文件的方法()
[A.]writeheaders
[B.]writeheader
[C.]writerrows
[D.]writerow
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
ACD
29.Python中通过Key来从字典object中读取对应的Value的方法有()
[A.]object[key]
[B.]object.get(key)
[C.]object.pop(key)
[D.]object.pop()
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
AB
30.BS4可以用来从()中提取数据
[A.]HTML
[B.]XML
[C.]数据库
[D.]JSON
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
AB
三、判断题(共20道试题,共40分)
31.scrapy与selenium结合可以实现直接处理需要异步加载的页面
[以上叙述是否正确?
]
[A.]正确
[B.]错误
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
正确
32.使用UIAutomatorr让屏幕向右滚动的操作是得到相应控件后使用命令scroll.horiz.forward()
[以上叙述是否正确?
]
[A.]正确
[B.]错误
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
错误
33.Python可以将列表或字典转换成Json字符串
[以上叙述是否正确?
]
[A.]正确
[B.]错误
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
正确
34.Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据;
[以上叙述是否正确?
]
[A.]正确
[B.]错误
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
正确
35.cookies在http请求中是明文传输的。
[以上叙述是否正确?
]
[A.]正确
[B.]错误
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
正确
36.Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。
[以上叙述是否正确?
]
[A.]正确
[B.]错误
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
正确
37.在安装Scarpy的依赖库时,由于VisualC++BuildTools的安装速度很慢,为了节省时间,可以和安装Twisted同时进行
[以上叙述是否正确?
]
[A.]正确
[B.]错误
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
错误
38.HTTP状态码503表示服务器内部故障。
[以上叙述是否正确?
]
[A.]正确
[B.]错误
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
错误
39.在有spiders何setting.py这两项的情况下,可以写出爬虫并且保存数据,items.py和pipelines.py文件是原作者的失误而导致的冗余文件。
[以上叙述是否正确?
]
[A.]正确
[B.]错误
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
错误
40.在Windows中下若要运行Redis可以运行redis-server/usr/local/etc/redis.conf
[以上叙述是否正确?
]
[A.]正确
[B.]错误
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
错误
41.Scrapyd可以同时管理多个Scrapy工程里面的多个爬虫的多个版本
[以上叙述是否正确?
]
[A.]正确
[B.]错误
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
正确
42.安装mitmdump之前,运行sudoapt-getinstallpython3-devpython3-piplibffi-devlibssl-dev是为了安装必要的运行环境。
[以上叙述是否正确?
]
[A.]正确
[B.]错误
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
正确
43.PyMongoDB中排序方法sort第二个参数1表示降序
[以上叙述是否正确?
]
[A.]正确
[B.]错误
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
错误
44.charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。
[以上叙述是否正确?
]
[A.]正确
[B.]错误
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
正确
45.为了保证数据插入效率,在内存允许的情况下,应该一次性把数据读入内存,尽量减少对MongoDB的读取操作。
[以上叙述是否正确?
]
[A.]正确
[B.]错误
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
正确
46.Redis的列表是一个单向队列
[以上叙述是否正确?
]
[A.]正确
[B.]错误
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
错误
47.数据抓包就是中间人爬虫的一个简单应用。
所以使用Charles也是一种中间人攻击
[以上叙述是否正确?
]
[A.]正确
[B.]错误
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
正确
48.如果把网络上发送与接收的数据包理解为快递包裹,那么在快递运输的过程中取出查看更改里面的内容,就是类似抓包的过程
[以上叙述是否正确?
]
[A.]正确
[B.]错误
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
错误
49.MongoDB是一个基于分布式文件存储的数据库,,速度远快过Redis
[以上叙述是否正确?
]
[A.]正确
[B.]错误
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
错误
50.对Charles设置代理时,Ip可以设置为127.0.0.1,端口为8888.
[以上叙述是否正确?
]
[A.]正确
[B.]错误
[提问:
仔细分析上述试题,并从选项中选择一项,填写在答题卡上]
参考答案是:
正确