nCoV_Crawler2019疫情爬虫笔记

拼搏现实的明天。 2023-07-19 08:27 146阅读 0赞

nCoV_Crawler2019疫情爬虫笔记:

GitHub:

Ticsmyc/2019nCoV-Crawler

爬冠状病毒新型肺炎疫情实时数据+数据持久化+邮件通知

163邮箱获取授权码:

163邮箱如何开始POP3协议,获取授权码-百度经验

QQ邮箱获取授权码:

QQ邮箱如何开启POP3协议并获取授权码-百度经验

报错:

  1. Jsoup获取部分页面数据失败 org.jsoup.UnsupportedMimeTypeException:
  2. Unhandled content type. Must be text/*, application/xml, or application/xhtml+xml.

解决方案:

  1. 配置.ignoreContentType(true)
  2. Document doc = Jsoup.connect(url).ignoreContentType(true).
  3. timeout(3000).header(ProxyHeadKey, ProxyHeadVal).proxy(proxy).get();

Jsoup如何配置代理访问:

  1. 参考其他文章

报错:

  1. javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException:
  2. PKIX path building failed: sun.security.provider.certpath.SunCertPath
  3. BuilderException: unable to find valid certification path to requested target

解决方案:

  1. 信任一切SSL证书,信任任何站点,实现https页面的正常访问
  2. 参考其他文章

报错:

  1. ### Error querying database. Cause: com.mysql.cj.jdbc.exceptions.
  2. PacketTooBigException: Packet for query is too large (4,739,923 > 65,535).
  3. You can change this value on the server by setting the 'max_allowed_packet' variable.

解决方案:

用mybatis批量插入八千多条数据,执行抛出异常,意思是这个语句执行的数据太大了,需要修改mysql配置文件的max_allowed_packet属性值。

查看是否是mysql最大允许数据包的容量太小:

  1. SHOW VARIABLES LIKE '%max_allowed_packet%';
  2. max_allowed_packet 4194304
  3. slave_max_allowed_packet 1073741824

如何修改?

  1. mysql命令行:
  2. set global max_allowed_packet = 2*1024*1024*10
  3. 然后退出命令行,重启mysql服务,再进入。
  4. show VARIABLES like '%max_allowed_packet%';

安装mysql数据库:

https://downloads.mysql.com/archives/installer/ 【MySQL下载】2020年最新官方正式版MySQL免费下载 - 腾讯软件中心官网

数据爬取截图:

v2-2b9b8cb1ed8c899962ea817bca27433d\_b.jpg

v2-ed2b560d0507e543b8692a7b19d78ebf\_b.jpg

v2-864f8c04277139407a974a0a6510acdd\_b.jpg

发表评论

表情:
评论列表 (有 0 条评论,146人围观)

还没有评论,来说两句吧...

相关阅读