ImageVerifierCode 换一换
格式:DOCX , 页数:11 ,大小:17.38KB ,
资源ID:2301968      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/2301968.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(奥鹏南开大学《网络爬虫与信息提取》19秋期末考核参考答案资料.docx)为本站会员(b****1)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

奥鹏南开大学《网络爬虫与信息提取》19秋期末考核参考答案资料.docx

1、奥鹏南开大学网络爬虫与信息提取19秋期末考核参考答案资料2020年南开大学网络爬虫与信息提取19秋期末考核参考答案1. 如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击【选项】:A XSSB DOSC DDOSD 跨域【答案】:C DDOS |2. 可以通过()绕过网站登录。【选项】:A sessionB cookiesC moonpiesD localstorage【答案】:B cookies |3. 使用UI Automator获取屏幕上显示的文本内容的操作是得到相应控件后使用命令()【选项】:A contentB textC titleD body【答案】:B tex

2、t |4. Python操作CSV文件可通过()容器的方式操作单元格【选项】:A 列表B 元组C 字典D 集合【答案】:C 字典 |5. Python中Object=(1, 2, 3, 4, 5),则Objcet是()【选项】:A 列表B 元组C 字典D 集合【答案】:B 元组 |6. HTTP常用状态码表明服务器正忙的是()【选项】:A 500B 503C 403D 404【答案】:B 503 |7. 使用UI Automator打开微信的操作是获取相应图标后使用命令()【选项】:A touchB clickC pushD hover【答案】:B click |8. Python中Objec

3、t=obj_1:1,obj_2:2,则Objcet.get(boj_1,3)是()【选项】:A 1B 2C 3D 无输出【答案】:A 1 |9. 采用以下()技术可以实现异步加载【选项】:A HTMLB AJAXC CSSD HTTP【答案】:B AJAX |10. 网站根目录中哪个文件里面的内容会告诉爬虫哪些数据是可以爬取的,哪些数据是不可以爬取的()。【选项】:A robot.txtB robot.htmlC robots.txtD robots.html【答案】:C robots.txt |11. Chrome的开发者工具中哪个选项可以查找到cookies【选项】:A ElementsB

4、 SourcesC NetworkD Peformance【答案】:C Network |12. 以下哪个命令是linux下解压缩命令()【选项】:A curlB tar -zxvfC mkdirD cp【答案】:B tar -zxvf |13. MongoDB中数据存储的形式类似于()【选项】:A 列表B 元组C 字典D 集合【答案】:C 字典 |14. 以下哪个HTML标签表示定义列表项目()【选项】:A B C D 【答案】:B |15. python中可以用来将图片中的文字转换为文本的第三方类库是【选项】:A lxmlB requestsC beautifulsoupD pytesse

5、ract【答案】:D pytesseract |16. 下列哪项不是HTTP的请求类型()【选项】:A GETB POSTC PUTD SET【答案】:D SET |17. 以下哪个HTML标签表示定义 HTML 表格中的标准单元格()【选项】:A B C D 【答案】:D |18. 当爬虫创建好了之后,可以使用scrapy() 命令运行爬虫。【选项】:A startupB starwarC drawlD crawl【答案】:D crawl |19. 参数headers=(),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。【选项】:A HEADERB HEADERSC

6、 HEADD BODY【答案】:B HEADERS |20. 以下哪个命令是利用URL语法在命令行下工作的文件传输工具()【选项】:A curlB tar -zxvfC mkdirD cp【答案】:A curl |21. MongoDB中获取名字为db的库的语句为()【选项】:A client.dbB client(db)C clientdbD clientdb【答案】:A client.db |C clientdb |22. 以下哪些方法属于Python写CSV文件的方法()【选项】:A writeheadersB writeheaderC writerrowsD writerow【答案】:

7、A writeheaders |C writerrows |D writerow |23. 下载器中间件的作用有哪些?【选项】:A 更换代理IPB 更换CookiesC 更换User-AgentD 自动重试【答案】:A 更换代理IP |B 更换Cookies |C 更换User-Agent |D 自动重试 |24. 如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成()【选项】:A 非法侵入计算机系统罪B 非法获取计算机信息系统数据罪C 非法获取计算机数据罪D 非法获取系统罪【答案】:A 非法侵入计算机系统罪 |B 非法获取计算机信息系统数据罪 |25. P

8、ython中()容器有推导式【选项】:A 列表B 元组C 字典D 集合【答案】:A 列表 |C 字典 |D 集合 |26. 通用网络爬虫通常采用串行工作方式【选项】:T 对F 错【答案】:F 错 |27. 需要登录的网站一般通过GET请求就可以实现登录。【选项】:T 对F 错【答案】:F 错 |28. 代理中间件的可用代理列表一定要写在settings.py里面【选项】:T 对F 错【答案】:F 错 |29. requests中get请求方法的使用为requests.get(网址, data=data)【选项】:T 对F 错【答案】:F 错 |30. 所有的异步加载都会向后台发送请求【选项】:

9、T 对F 错【答案】:F 错 |31. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务src/redis-server【选项】:T 对F 错【答案】:F 错 |32. 爬虫文件无法从Pycharm运行和调试,只能通过命令行的方式运行。【选项】:T 对F 错【答案】:F 错 |33. 爬虫中间件的激活需要另外写一个文件来进行【选项】:T 对F 错【答案】:F 错 |34. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行【选项】:T 对F 错【答案】:F 错 |35. Linux环境中,Virtu

10、alenv创建的虚拟Python环境中,执行pip命令安装第三方库就不需要使用sudo命令了。【选项】:T 对F 错【答案】:T 对 | 36. 在Scrapy的依赖库文件中,pywin32和Twisted的底层是基于#开发的。【选项】:【答案】:C语言37. 爬虫中间件scrapy.spidermiddlewares.urllength.UrlLengthMiddleware的顺序号是#【选项】:【答案】:38. 在Windows下运行Redis命令为#redis.windows.conf【选项】:【答案】:路径运行命令39. MongoDB如果需要从外网访问数据库,那么需要修改安装Mong

11、oDB时用到的配置文件#【选项】:【答案】:40. lxml库中etree模块的etree.tostring()方法是做什么用的【选项】:【答案】:41. 请描述爬虫中的深度优先搜索过程【选项】:【答案】: 深度优先搜索属于图算法的一种,是一个针对图和树的遍历算法,英文缩写为DFS即Depth First Search。深度优先搜索是图论中的经典算法,利用深度优先搜索算法可以产生目标图的相应拓扑排序表,利用拓扑排序表可以方便的解决很多相关的图论问题,如最大路径问题等等。一般用堆数据结构来辅助实现DFS算法。其过程简要来说是对每一个可能的分支路径深入到不能再深入为止,而且每个节点只能访问一次。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1