1、 21 秋学期南开大学网络爬虫与信息提取在线作业秋学期南开大学网络爬虫与信息提取在线作业 21秋学期(1709、1803、1809、1903、1909、2003、2009、2103)网络爬虫与信息提取在线作业 1:Python中线程池 map()方法第二个参数是()A、列表 B、元组 C、字典 D、集合 答案:A 2:通过()爬取伪装成异步加载的后端渲染数据 A、正则表达式 B、Json字符串 C、JavaScript D、Get 答案:A 3:下面 Python代码输出为():def default_para_without_trap(para=,value=0):if not para:p
2、ara=para.append(value)return para print(第一步:.format(default_para_trap(value=100)print(第二步:.format(default_para_trap(value=50)A、第一步:100 第二步:100,50 B、第一步:100 第二步:50 C、第一步:100 第二步:D、第一步:100 第二步:100 答案:B 4:Python中若定义 object=(1,2,3,4,5),则 print(object1:3)输出()A、12 B、123 C、23 D、234 答案:C 5:在 Scrapy的目录下,哪个文件
3、负责数据抓取以后的处理工作?()A、spiders文件夹 B、item.py C、pipeline.py D、settings.py 答案:C 6:浏览器用来记录用户状态信息的数据叫 A、session B、cookies C、moonpies D、selenium 答案:B 7:PyMongo中查询所有 age 29的记录是()A、collection.find(age:$gt:29)B、collection.find(age29)C、collection.find_all(age:$gt:29)D、collection.find_all(age29)答案:A 8:Redis中往集合中添加数
4、据,使用关键字()A、sadd B、add C、append D、sappend 答案:A 9:Redis中如果不删除列表中的数据,又要把数据读出来,就需要使用关键字()A、range B、lrange C、srange D、pop 答案:B 10:在 Python中,为了使用 XPath,需要安装一个第三方库()A、lxml B、xml C、xpath D、path 答案:A 11:Python操作 CSV 文件可通过()容器的方式操作单元格 A、列表 B、元组 C、字典 D、集合 答案:C 12:某些网站在发起 Ajax请求时会携带()字符串用于身份验证 A、Token B、Cookie
5、C、ReqTime D、sum 答案:A 13:PyMongo中逻辑查询表示不等于的符号是()A、$gt B、$lt C、$eq D、$ne 答案:C 14:下列说法错误的是()A、Charles只能截获 HTTP 和 HTTPS 的数据包,如果网站使用的是 websocket 或者是 flashsocket,那么 Charles就无能为力。B、有一些 App会自带证书,使用其他证书都无法正常访问后台接口。在这种情况下,Charles自带的证书就不能正常使用,也就没有办法抓取这种 App的数据 C、有一些 App的数据经过加密,App接收到数据以后在其内部进行解密。Charles无法获取这种
6、App的数据 D、对于上述情况,Charles能抓取到经过加密的数据。但是如果无法知道数据的具体加密方法,就没有办法解读 Charles抓取到的数据。答案:C 15:使用 Xpath获取文本使用()A、text B、text()C、content D、content()答案:B 16:启动 MongoDB 使用命令 mongod-()usr/local/etc/mongod.conf A、config B、install C、start D、begin 答案:A 17:Redis中查看一个列表长度,使用关键字()A、len B、length C、llen D、count 答案:C 18:Pyt
7、hon中若定义 object=12345,则 print(object:-1)输出()A、1 B、5 C、54321 D、程序报错 答案:C 19:在 Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()A、spiders文件夹 B、item.py C、pipeline.py D、settings.py 答案:D 20:当爬虫运行到 yield scrapy.Request()或者 yield item的时候,下列哪个爬虫中间件的方法被调用?A、process_spider_output()B、process_spider_exception()C、process_spider_in
8、put()D、process_start_ requests()答案:A 21:在配置 ios使用 Charles的操作中,正确的有()A、对于苹果设备,首先要保证计算机和苹果设备联在同一个 Wi-Fi上。B、选择“HTTP 代理”下面的“手动”选项卡,在“服务器”处输入计算机的 IP地址,在“端口”处输入 8888 C、输入完成代理以后按下苹果设备的 Home键,设置就会自动保存。D、安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对 Charles证书的完全信任 答案:A,B,C,D 22:下载器中间件的作用有哪些?A、更换代理 IP B、更换 Coo
9、kies C、更换 User-Agent D、自动重试 答案:A,B,C,D 23:下列关于在 IOS上配置 charles的说法正确的是()A、不同 ios设备之间会有比较大的差别,所以配置的时候需要找到对应的安装证书的入口。B、手机和电脑需要在同一个局域网下。C、HTTP代理可以使用“自动”选项。D、安装好证书以后,打开 iOS设备上的任何一个 App,可以看到 Charles中有数据包在流动 答案:B,D 24:如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成()A、非法侵入计算机系统罪 B、非法获取计算机信息系统数据罪 C、非法获取计算机数据罪 D
10、、非法获取系统罪 答案:A,B 25:Python中一个函数没有返回值则可以写()A、没有 return B、return C、return None D、return NULL 答案:A,B,C 26:使用 BeautifulSoup对象后可以使用()来查找内容 A、find_all B、find C、search D、search_all 答案:A,B 27:PyMongo删除操作有()A、delete B、delete_all C、delete_one D、delete_many 答案:C,D 28:以下哪些方法属于 Python写 CSV 文件的方法()A、writeheaders B
11、、writeheader C、writerrows D、writerow 答案:A,C,D 29:MongoDB 中获取名字为 db的库的语句为()A、client.db B、client(db)C、clientdb D、clientdb 答案:A,C 30:Python中()容器有推导式 A、列表 B、元组 C、字典 D、集合 答案:A,C,D 31:中间人攻击也是抓包的一种。T、对 F、错 答案:F 32:在请求头中设置 User-Agent 即可正常请求网站 T、对 F、错 答案:F 33:UI Automator Viewer与 Python uiautomator可以同时使用 T、对
12、 F、错 答案:F 34:device.sleep()方法是使用 UI Automatorr关闭屏幕的命令 T、对 F、错 答案:T 35:爬虫的源代码通过公开不会对被爬虫网站造成影响 T、对 F、错 答案:F 36:虽然 MongoDB 相比于 MySQL 来说,速度快了很多,但是频繁读写 MongoDB 还是会严重拖慢程序的执行速度。T、对 F、错 答案:T 37:打码平台都是靠机器使用 OCR 技术识别图片上的文字。T、对 F、错 答案:F 38:Python中包含字典的列表页可以转换成 JSON 字符串 T、对 F、错 答案:T 39:需要实名认证的打码网站更加安全可靠。T、对 F、错
13、 答案:F 40:MongoDB URI 的格式为:mongodb:/服务器 IP或域名:端口用户名:密码 T、对 F、错 答案:F 41:MongoDB 中 ObjectId 可以反向恢复为时间 T、对 F、错 答案:T 42:验证码必须通过手动填充识别。T、对 F、错 答案:F 43:使用 UI Automatorr操作实体键的命令为 device.press.实体按键名称()T、对 F、错 答案:T 44:在 MacOS下若要运行 Redis可以运行解压以后的文件夹下面的 src文件夹中的 redis-server文件启动 redis服务 src/redis-server T、对 F、错
14、 答案:F 45:开源库 pytesseract 的作用是将图像中文字转换为文本。T、对 F、错 答案:T 46:Redis的集合与 Python的集合一样,没有顺序,值不重复 T、对 F、错 答案:T 47:mitmproxy的强大之处在于它还自带一个 mitmdump命令。这个命令可以用来运行符合一定规则的 Python脚本 T、对 F、错 答案:T 48:process_spider_input(response,spider)是在爬虫运行 yield item或者 yield scrapy.Request()的时候调用 T、对 F、错 答案:F 49:上课传纸条。A 要把纸条传给 B,但是 A 与 B 距离太远,于是让 C 来转交纸条。此时,C 先篡改纸条的内容再传给 B,这是一种类似抓包的方式。T、对 F、错 答案:F 50:在安装 Scarpy的依赖库时,由于 Visual C+Build Tools的安装速度很慢,为了节省时间,可以和安装 Twisted 同时进行 T、对 F、错 答案:F
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1