1、奥鹏南开20春学期网络爬虫与信息提取在线作业标准答案南开大学网络爬虫与信息提取在线作业参考答案20春学期(1709、1803、1809、1903、1909、2003)网络爬虫与信息提取在线作业1. Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含()【选项】:A 列表B 元组C 字典D 集合【答案】:B2. 以下表示请求正常处理的HTTP状态码为【选项】:A 200B 301C 404D 500【答案】:A3. Python中线程池map()方法第二个参数是()【选项】:A 列表B 元组C 字典D 集合【答案】:A4. ()是一个传递信息的通道。它负责将
2、爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。【选项】:A metaB headC headerD body【答案】:A5. 如果使用Python的数据结构来做类比的话,MongoDB中集合相当于一个()【选项】:A 列表B 元组C 字典D 集合【答案】:A6. PyMongo中逻辑查询表示不等于的符号是()【选项】:A $gtB $ltC $eqD $ne【答案】:C7. PyMongo中逻辑查询表示大于等于的符号是()【选项】:A $gtB $ltC $gteD $lte【答案】:C8. 以下哪个HTML标签表示定义文档的主体()【选项】:A <div>B <b
3、ody>C <head>D <footer>【答案】:B9. 某些网站在发起Ajax请求时会携带()字符串用于身份验证【选项】:A TokenB CookieC ReqTimeD sum【答案】:A10. 下面Python代码输出为():def default_para_trap(para=, value=0): para.append(value) return paraprint(第一步:.format(default_para_trap(value=100)print(第二步:.format(default_para_trap(value=50)【选项】:A
4、 第一步:100第二步:100,50B 第一步:100第二步:50C 第一步:100第二步:D 第一步:100第二步:100【答案】:A11. 用Xpathh获取第二个div标签应该是()【选项】:A dvi(1)B div(2)C div1D div2【答案】:D12. 查看网站请求一般在Chrome开发者模式下的()选项卡中查看【选项】:A ConsoleB SourcesC NetworkD Performance【答案】:C13. Python中Object=obj_1:1,obj_2:2,则Objcet.get(boj_1,3)是()【选项】:A 1B 2C 3D 无输出【答案】:A
5、14. 通常使用()工具来模拟浏览器进行爬虫请求【选项】:A SeleniumB ChromeC ChromeDriverD WebDriver【答案】:A15. Python并导入uiautomator来操作设备的语句是from uiautomator import ()【选项】:A DeviceB DevicesC JobsD Job【答案】:A16. Python中把列表转换为集合需要使用#函数【选项】:A setB listC convertD change【答案】:A17. Python中若定义object=12345,则print(object:-1)输出()【选项】:A 1B 5
6、C 54321D 程序报错【答案】:C18. Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为()【选项】:A 空B 空列表C 空元组D 不返回【答案】:B19. 以下哪个命令是利用URL语法在命令行下工作的文件传输工具()【选项】:A curlB tar -zxvfC mkdirD cp【答案】:A20. 使用UI Automatorr输入文字的操作是得到相应控件后使用命令()【选项】:A settextB setC set_textD text【答案】:C21. HTTP常用状态码表明表明客户端是发生错误的原因所在的有()【选项】:A 403B 404C 50
7、0D 503【答案】:A.B22. Python中()容器有推导式【选项】:A 列表B 元组C 字典D 集合【答案】:A.C.D23. Python中通过Key来从字典object中读取对应的Value的方法有()【选项】:A objectkeyB object.get(key)C object.pop(key)D object.pop()【答案】:A.B24. PyMongo更新操作有()【选项】:A updateB update_allC update_oneD update_many【答案】:C.D25. HTTP常用状态码表明表明服务器本身发生错误的有()【选项】:A 403B 404
8、C 500D 503【答案】:C.D26. 以下哪些可以独立成为Python编译器()【选项】:A PycharmB IDLEC EclipseD Visual Studio 2010【答案】:A.B27. requests中post请求方法的第二个参数可以为()【选项】:A 字典B 列表C json数据D 字符串【答案】:A.C28. MongoDB中获取名字为set1的集合的语句为()【选项】:A database.set1B database(set1)C databaseset1D databaseset1【答案】:A.C29. 最常见的HTTP请求类型有()【选项】:A GETB P
9、OSTC SENDD RECEIVE【答案】:A.B30. PyMongo删除操作有()【选项】:A deleteB delete_allC delete_oneD delete_many【答案】:C.D31. 在请求头中设置User-Agent即可正常请求网站【选项】:T 对F 错【答案】:B32. 一般来说在页面都通过GET将用户登录信息传递到服务器端。【选项】:T 对F 错【答案】:B33. Scrapy作为一个爬虫的框架,它在单机环境下运行时就可以获得最大性能优势【选项】:T 对F 错【答案】:B34. 当运行爬虫代码后,出现Forbidden by robots.txt提示后,说明当
10、前时间段被爬取的网站无法访问。【选项】:T 对F 错【答案】:B35. 使用UI Automatorr操作实体键的命令为device.press.实体按键名称()【选项】:T 对F 错【答案】:A36. 爬虫中间件的作用对象是请求request和返回response【选项】:T 对F 错【答案】:B37. Redis中列表读取数据命令lrange中l代表left,即从左侧开始读取【选项】:T 对F 错【答案】:B38. 运行MongoDB以后,不会在终端打印任何Log【选项】:T 对F 错【答案】:B39. Selenium必须加载对应的webdriver才能模拟浏览器访问【选项】:T 对F
11、错【答案】:A40. Robo 3T与RoboMongo是完全不一样的软件【选项】:T 对F 错【答案】:B41. 在中间人攻击中,攻击者可以拦截通信双方的通话,并插入新的内容或者修改原有内容【选项】:T 对F 错【答案】:A42. 使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。【选项】:T 对F 错【答案】:A43. 要实现Charles对Android抓包,其过程比iOS稍微复杂一点。这是因为不同的Andorid设备,安装证书的入口可能不一样【选项】:T 对F 错【答案】:A44. Python中包含字典的列表页可以转换成J
12、SON字符串【选项】:T 对F 错【答案】:A45. MongoDB URI的格式为:mongodb:/服务器IP或域名:端口用户名:密码【选项】:T 对F 错【答案】:B46. Python中字符串切片以后的结果还是字符串【选项】:T 对F 错【答案】:A47. 微信小程序的反爬虫能力要比网页的高很多。【选项】:T 对F 错【答案】:B48. cookies在http请求中是明文传输的。【选项】:T 对F 错【答案】:A49. 默认情况下,MongoDB可以通过外网访问【选项】:T 对F 错【答案】:B50. Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据;【选项】:T 对F 错【答案】:A
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1