奥鹏南开大学《网络爬虫与信息提取》19秋期末考核参考答案资料.docx-资源下载

奥鹏南开大学《网络爬虫与信息提取》19秋期末考核参考答案资料.docx

1、奥鹏南开大学网络爬虫与信息提取19秋期末考核参考答案资料2020年南开大学网络爬虫与信息提取19秋期末考核参考答案1. 如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击【选项】：A XSSB DOSC DDOSD 跨域【答案】：C DDOS |2. 可以通过()绕过网站登录。【选项】：A sessionB cookiesC moonpiesD localstorage【答案】：B cookies |3. 使用UI Automator获取屏幕上显示的文本内容的操作是得到相应控件后使用命令()【选项】：A contentB textC titleD body【答案】：B tex

2、t |4. Python操作CSV文件可通过()容器的方式操作单元格【选项】：A 列表B 元组C 字典D 集合【答案】：C 字典 |5. Python中Object=(1, 2, 3, 4, 5),则Objcet是()【选项】：A 列表B 元组C 字典D 集合【答案】：B 元组 |6. HTTP常用状态码表明服务器正忙的是()【选项】：A 500B 503C 403D 404【答案】：B 503 |7. 使用UI Automator打开微信的操作是获取相应图标后使用命令()【选项】：A touchB clickC pushD hover【答案】：B click |8. Python中Objec

3、t=obj_1:1,obj_2:2,则Objcet.get(boj_1,3)是()【选项】：A 1B 2C 3D 无输出【答案】：A 1 |9. 采用以下()技术可以实现异步加载【选项】：A HTMLB AJAXC CSSD HTTP【答案】：B AJAX |10. 网站根目录中哪个文件里面的内容会告诉爬虫哪些数据是可以爬取的,哪些数据是不可以爬取的()。【选项】：A robot.txtB robot.htmlC robots.txtD robots.html【答案】：C robots.txt |11. Chrome的开发者工具中哪个选项可以查找到cookies【选项】：A ElementsB

4、 SourcesC NetworkD Peformance【答案】：C Network |12. 以下哪个命令是linux下解压缩命令()【选项】：A curlB tar -zxvfC mkdirD cp【答案】：B tar -zxvf |13. MongoDB中数据存储的形式类似于()【选项】：A 列表B 元组C 字典D 集合【答案】：C 字典 |14. 以下哪个HTML标签表示定义列表项目()【选项】：A B C D 【答案】：B |15. python中可以用来将图片中的文字转换为文本的第三方类库是【选项】：A lxmlB requestsC beautifulsoupD pytesse

5、ract【答案】：D pytesseract |16. 下列哪项不是HTTP的请求类型()【选项】：A GETB POSTC PUTD SET【答案】：D SET |17. 以下哪个HTML标签表示定义 HTML 表格中的标准单元格()【选项】：A B C D 【答案】：D |18. 当爬虫创建好了之后,可以使用scrapy() 命令运行爬虫。【选项】：A startupB starwarC drawlD crawl【答案】：D crawl |19. 参数headers=(),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。【选项】：A HEADERB HEADERSC

6、 HEADD BODY【答案】：B HEADERS |20. 以下哪个命令是利用URL语法在命令行下工作的文件传输工具()【选项】：A curlB tar -zxvfC mkdirD cp【答案】：A curl |21. MongoDB中获取名字为db的库的语句为()【选项】：A client.dbB client(db)C clientdbD clientdb【答案】：A client.db |C clientdb |22. 以下哪些方法属于Python写CSV文件的方法()【选项】：A writeheadersB writeheaderC writerrowsD writerow【答案】：

9、T 对F 错【答案】：F 错 |31. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务src/redis-server【选项】：T 对F 错【答案】：F 错 |32. 爬虫文件无法从Pycharm运行和调试,只能通过命令行的方式运行。【选项】：T 对F 错【答案】：F 错 |33. 爬虫中间件的激活需要另外写一个文件来进行【选项】：T 对F 错【答案】：F 错 |34. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行【选项】：T 对F 错【答案】：F 错 |35. Linux环境中,Virtu

10、alenv创建的虚拟Python环境中,执行pip命令安装第三方库就不需要使用sudo命令了。【选项】：T 对F 错【答案】：T 对 | 36. 在Scrapy的依赖库文件中,pywin32和Twisted的底层是基于#开发的。【选项】：【答案】：C语言37. 爬虫中间件scrapy.spidermiddlewares.urllength.UrlLengthMiddleware的顺序号是#【选项】：【答案】：38. 在Windows下运行Redis命令为#redis.windows.conf【选项】：【答案】：路径运行命令39. MongoDB如果需要从外网访问数据库，那么需要修改安装Mong

11、oDB时用到的配置文件#【选项】：【答案】：40. lxml库中etree模块的etree.tostring()方法是做什么用的【选项】：【答案】：41. 请描述爬虫中的深度优先搜索过程【选项】：【答案】：深度优先搜索属于图算法的一种，是一个针对图和树的遍历算法，英文缩写为DFS即Depth First Search。深度优先搜索是图论中的经典算法，利用深度优先搜索算法可以产生目标图的相应拓扑排序表，利用拓扑排序表可以方便的解决很多相关的图论问题，如最大路径问题等等。一般用堆数据结构来辅助实现DFS算法。其过程简要来说是对每一个可能的分支路径深入到不能再深入为止，而且每个节点只能访问一次。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？