whtis's blog


  • 首页

  • 分类

  • 留言板

  • 关于

  • 标签

  • 归档

  • 爱馨馨

  • 搜索

使用python爬虫框架scrapy对实时新闻进行抓取并存入数据库

发表于 2017-07-28 | 更新于: 2017-07-29 | 分类于 python |
字数统计: 2,847 | 阅读时长 ≈ 11
写在前面每天的新闻更新很快,如果要全面了解非常困难,更可恶的是一些门户网站还经常取一些乱七八糟的标题,点进去是文不对题。所以萌生了一个想法:自己抓取不同门户网站的新闻更新信息,然后将这些内容进行整合,推送一些当日的热点新闻。想的很简单,真的做起来,发现自己还是太年轻,到写这篇博客为止,我也就是完成了一个基本的抓取框架,连内容都没有获得多少。不过本来就是抱着学习python的想法使用scrapy来抓 ...
阅读全文 »

使用ubuntu过程中的一些命令集合

发表于 2017-06-19 | 更新于: 2017-06-19 | 分类于 ubuntu |
字数统计: 347 | 阅读时长 ≈ 1
ubuntu命令备忘用ubuntu时,经常会用到一些有用的命令,但回头好久不用又忘了。而我又是那种不喜欢查手册的人,百度一下又得费时,所以干脆开篇博客记下来,以后直接来这查好了。 ubuntu使用tar命令备份系统命令合集这里的备份和恢复都是针对同一硬盘下的备份与恢复。 备份 tar cvpzf backup.tgz --exclude=/proc --exclude=/lost+found -- ...
阅读全文 »

ubuntu16.04删除当前用户密码文件/etc/shadow后无法进入系统的解决方法

发表于 2017-04-08 | 更新于: 2017-04-08 | 分类于 ubuntu |
字数统计: 1,254 | 阅读时长 ≈ 4
写在前面最近项目用到了dspace,在windows中向dspace中导入item时会报解压错误的error,后来经过排查,确定是windows平台编码问题导致。于是转战ubuntu,在安装了16.04版本,配置了java环境、安装编译器等等一系列工作、差不多可以进行开发的时候,我手贱删除了这个文件/etc/shadow,为什么会删除它,这就涉及到安装shadowsocks了,这里不详说。反正是在 ...
阅读全文 »

一个可以链式使用正则的类

发表于 2017-03-23 | 更新于: 2017-06-19 | 分类于 java |
字数统计: 162 | 阅读时长 ≈ 1
最近使用webMgaic爬虫框架的时候,发现链式调用真的很好用,能省掉很多套路性的代码,所以也自己动手写了一个可以链式调用进行正则筛选的工具类。下面上代码: 123456789101112131415161718192021222324252627282930import java.util.regex.*;/** * Created by wht on 2017/3/18. */public c ...
阅读全文 »

hexo博客主题--material折腾笔记

发表于 2016-11-20 | 更新于: 2016-11-20 | 分类于 hexo |
字数统计: 389 | 阅读时长 ≈ 1
  好久没怎么照看博客了,昨天突然发现,以前用的Next主题挂了。因为用的别人的东西,不知道问题。本着折腾的想法,重新换了一个主题material。该主题算是满足了我大部分的需求吧。但还是有吐槽的地方……(虽然不会写js,不妨碍我吐槽。。原作者看到估计会气的吐血) 添加谷歌和百度统计代码按照使用文档可以自行添加代码,但我添加百度统计代码时报错,所以直接把百度统计代码写到layo ...
阅读全文 »

将百度搜索结果的长url链接转换为真实的url地址

发表于 2016-09-19 | 更新于: 2017-06-19 | 分类于 java |
字数统计: 626 | 阅读时长 ≈ 2
写在前面最近写爬虫的时候,想调用百度的搜索结果,于是有了这个问题。需要注意的是,本篇内容转化是仅针对百度跳转到非百度链接的,百度内部链接的跳转,如百度搜索主入口跳转到百度知道、百度文库等情况不再讨论之列。 问题描述 百度搜索入口:https://www.baidu.com/s?wd=,后面加上需要的搜索内容即可。如需要进行更加精确的搜索,可以使用百度的高级搜索功能。 百度搜索结果示例:https: ...
阅读全文 »

PostgreSQL使用手记

发表于 2016-09-14 | 更新于: 2017-03-23 | 分类于 SQL |
字数统计: 968 | 阅读时长 ≈ 4
写在前面  因为项目需要,要将本来的mybatis+mysql改为mybatis+postgresql,使用途中难免遇到坑,以下是我遇到的,记录下来供参考。好久没写blog,感觉都快长草了,目前在想要不要开一个分类,写点日常废话😂  好了,言归正传。 为什么要用PostgreSQL为什么要用呢,上面已经说了,项目需要。postgresql经常被拿来和mys ...
阅读全文 »

Java学习笔记--设置代理及打开外部程序

发表于 2016-05-29 | 更新于: 2016-09-14 | 分类于 java |
字数统计: 249 | 阅读时长 ≈ 1
设置系统代理 系统设置全局代理 123System.getProperties().setProperty("proxySet", "true");System.getProperties().setProperty("http.proxyHost", "ip");System.getProperties().setProperty("http.proxyPort", port); 使用了sel ...
阅读全文 »

HttpClient4.x使用中出现的几个问题及解决方法

发表于 2016-05-05 | 更新于: 2016-09-14 | 分类于 Web相关 |
字数统计: 302 | 阅读时长 ≈ 1
最近才开始接触这个工具包,官网上目前已经更新到HttpClient4.5.2了。google的时候看到HttpClient从4.0版本改了底层,因此使用时会出现一些方法不再适用的问题,这里记录出现的一些问题以及相应替代的方法。 1、 创建HttpClient时使用下面的语句,会出现org.apache.http.impl.client.DefaultHttpClient' is depre ...
阅读全文 »

Java阶段性总结

发表于 2016-04-21 | 更新于: 2016-09-14 | 分类于 java |
字数统计: 353 | 阅读时长 ≈ 1
花了大半年的时间,算是彻底从头看了一遍Java的基本知识,参考书籍是《Java语言程序设计》原书第五版,作者为Y.daniel Liang,基础篇和提高篇中的重要内容都摘录在了之前的文章中。本文就是对之前的Java总结做个分类,方便自己以后回顾。 第一篇 程序设计基础(1~5章)第一章 计算机、程序和Java概述第二章 基本数据类型和基本操作第三章 控制语句第四章 方法第五章 数组第二篇 面向对象 ...
阅读全文 »
123…5
whtis

whtis

48 日志
12 分类
24 标签
RSS
© 2021 whtis | Site words total count: 60.0k
由 Hexo 强力驱动
|
主题 — NexT.Gemini v5.1.3