1、奥鹏南开大学网络爬虫与信息提取19秋期末考核参考答案资料2020年南开大学网络爬虫与信息提取19秋期末考核参考答案1. 如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击【选项】:A XSSB DOSC DDOSD 跨域【答案】:C DDOS |2. 可以通过()绕过网站登录。【选项】:A sessionB cookiesC moonpiesD localstorage【答案】:B cookies |3. 使用UI Automator获取屏幕上显示的文本内容的操作是得到相应控件后使用命令()【选项】:A contentB textC titleD body【答案】:B tex
2、t |4. Python操作CSV文件可通过()容器的方式操作单元格【选项】:A 列表B 元组C 字典D 集合【答案】:C 字典 |5. Python中Object=(1, 2, 3, 4, 5),则Objcet是()【选项】:A 列表B 元组C 字典D 集合【答案】:B 元组 |6. HTTP常用状态码表明服务器正忙的是()【选项】:A 500B 503C 403D 404【答案】:B 503 |7. 使用UI Automator打开微信的操作是获取相应图标后使用命令()【选项】:A touchB clickC pushD hover【答案】:B click |8. Python中Objec
3、t=obj_1:1,obj_2:2,则Objcet.get(boj_1,3)是()【选项】:A 1B 2C 3D 无输出【答案】:A 1 |9. 采用以下()技术可以实现异步加载【选项】:A HTMLB AJAXC CSSD HTTP【答案】:B AJAX |10. 网站根目录中哪个文件里面的内容会告诉爬虫哪些数据是可以爬取的,哪些数据是不可以爬取的()。【选项】:A robot.txtB robot.htmlC robots.txtD robots.html【答案】:C robots.txt |11. Chrome的开发者工具中哪个选项可以查找到cookies【选项】:A ElementsB
4、 SourcesC NetworkD Peformance【答案】:C Network |12. 以下哪个命令是linux下解压缩命令()【选项】:A curlB tar -zxvfC mkdirD cp【答案】:B tar -zxvf |13. MongoDB中数据存储的形式类似于()【选项】:A 列表B 元组C 字典D 集合【答案】:C 字典 |14. 以下哪个HTML标签表示定义列表项目()【选项】:A B C D 【答案】:B |15. python中可以用来将图片中的文字转换为文本的第三方类库是【选项】:A lxmlB requestsC beautifulsoupD pytesse
5、ract【答案】:D pytesseract |16. 下列哪项不是HTTP的请求类型()【选项】:A GETB POSTC PUTD SET【答案】:D SET |17. 以下哪个HTML标签表示定义 HTML 表格中的标准单元格()【选项】:A B C D 【答案】:D |18. 当爬虫创建好了之后,可以使用scrapy() 命令运行爬虫。【选项】:A startupB starwarC drawlD crawl【答案】:D crawl |19. 参数headers=(),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。【选项】:A HEADERB HEADERSC
6、 HEADD BODY【答案】:B HEADERS |20. 以下哪个命令是利用URL语法在命令行下工作的文件传输工具()【选项】:A curlB tar -zxvfC mkdirD cp【答案】:A curl |21. MongoDB中获取名字为db的库的语句为()【选项】:A client.dbB client(db)C clientdbD clientdb【答案】:A client.db |C clientdb |22. 以下哪些方法属于Python写CSV文件的方法()【选项】:A writeheadersB writeheaderC writerrowsD writerow【答案】:
7、A writeheaders |C writerrows |D writerow |23. 下载器中间件的作用有哪些?【选项】:A 更换代理IPB 更换CookiesC 更换User-AgentD 自动重试【答案】:A 更换代理IP |B 更换Cookies |C 更换User-Agent |D 自动重试 |24. 如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成()【选项】:A 非法侵入计算机系统罪B 非法获取计算机信息系统数据罪C 非法获取计算机数据罪D 非法获取系统罪【答案】:A 非法侵入计算机系统罪 |B 非法获取计算机信息系统数据罪 |25. P
8、ython中()容器有推导式【选项】:A 列表B 元组C 字典D 集合【答案】:A 列表 |C 字典 |D 集合 |26. 通用网络爬虫通常采用串行工作方式【选项】:T 对F 错【答案】:F 错 |27. 需要登录的网站一般通过GET请求就可以实现登录。【选项】:T 对F 错【答案】:F 错 |28. 代理中间件的可用代理列表一定要写在settings.py里面【选项】:T 对F 错【答案】:F 错 |29. requests中get请求方法的使用为requests.get(网址, data=data)【选项】:T 对F 错【答案】:F 错 |30. 所有的异步加载都会向后台发送请求【选项】:
9、T 对F 错【答案】:F 错 |31. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务src/redis-server【选项】:T 对F 错【答案】:F 错 |32. 爬虫文件无法从Pycharm运行和调试,只能通过命令行的方式运行。【选项】:T 对F 错【答案】:F 错 |33. 爬虫中间件的激活需要另外写一个文件来进行【选项】:T 对F 错【答案】:F 错 |34. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行【选项】:T 对F 错【答案】:F 错 |35. Linux环境中,Virtu
10、alenv创建的虚拟Python环境中,执行pip命令安装第三方库就不需要使用sudo命令了。【选项】:T 对F 错【答案】:T 对 | 36. 在Scrapy的依赖库文件中,pywin32和Twisted的底层是基于#开发的。【选项】:【答案】:C语言37. 爬虫中间件scrapy.spidermiddlewares.urllength.UrlLengthMiddleware的顺序号是#【选项】:【答案】:38. 在Windows下运行Redis命令为#redis.windows.conf【选项】:【答案】:路径运行命令39. MongoDB如果需要从外网访问数据库,那么需要修改安装Mong
11、oDB时用到的配置文件#【选项】:【答案】:40. lxml库中etree模块的etree.tostring()方法是做什么用的【选项】:【答案】:41. 请描述爬虫中的深度优先搜索过程【选项】:【答案】: 深度优先搜索属于图算法的一种,是一个针对图和树的遍历算法,英文缩写为DFS即Depth First Search。深度优先搜索是图论中的经典算法,利用深度优先搜索算法可以产生目标图的相应拓扑排序表,利用拓扑排序表可以方便的解决很多相关的图论问题,如最大路径问题等等。一般用堆数据结构来辅助实现DFS算法。其过程简要来说是对每一个可能的分支路径深入到不能再深入为止,而且每个节点只能访问一次。
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1