【新闻源监控系统】具备了自然语言处理特性

新闻源监控系统】发布了0.3.1版本,作为技术探索性项目,本次更新在0.2.0的基础上,增加如下新特性:

  • 爬虫与 API 部署到 docker 容器中
  • 系统具有了人工智能 NLP 特性,包括关键字提取、新闻分类、情感评价。模型都采用 NLP 工具现成的,在情感评价和新闻分类上的准确率还有待提高。
  • 关键字提取使用 HanLP
  • 新闻分类使用 THUCTC
  • 情感评价使用 SnowNLP
  • 移植爬虫到 python scrapy 框架下

顺着新闻分类的开发,看了一下朴素贝叶斯算法,不过还需要先复习复习线性代数。

文章《我是如何用机器学习技术帮助 HR 省时间的》中,提到的三种机器学习的文本分类算法: TextGrocery,fastText,Naive Bayes都值得一一细看一下。

【新闻源监控系统】——一位网络新闻编辑的Web全栈开发实践

在大楚网做新闻编辑的时候,我一直梦寐以求有个工具,让新闻监控和部分转载工作自动化,这样我就能更优雅的编辑标题和写Tips了,所以我开始尝试做这么个工具。

新闻源监控系统(Auto News System)

项目名暂定——新闻源监控系统(Auto News System)

现在还只是个雏形,已实现监控、记录、查询【湖报系】【长报系】【大楚网】的新闻更新。

送给所有在编辑岗位辛勤工作的编辑们。


现状

当前监控爬虫运行在自己的电脑上,偶尔会离线,应用界面右下角有标示当前监控服务器在线、离线状态。

Bug与需求请在文末留言,我会尽快反馈、处理。


动机

加过一个群,名叫”苦逼的网编停不下来”的群,是6年前我在一房产网站做编辑的时候,群里都是全国各地站点的编辑们。大家在群里讨论工作、发闹骚,最热闹时每天群里会有上千条消息。

断断续续做记者、编辑约6年时间,觉得网络编辑还算件有乐趣的工作。每天早上打开电脑,从各处搜集信息,然后筛选、编辑、归类、比较、分析、排序、制作封面配图、发布,最后得到有序的新闻条目、房产行业信息和漂亮的页面,心里有大大的满足感。

但编辑中有大量枯燥重复的工作,汇总零散信息、人工值守新闻更新、复制粘贴。3年前有过用自动采集方案来代替的想法,简单弄过一段时间”按键精灵””火车头采集”,但技术实力不过关,实际工作中并没起到什么作用。

现在虽然不做编辑工作,但作为一个 Code for a Better World 的 Web Developer,我觉得这会是一项有意义、有挑战的工作。

计算机简直是做这些辛苦工作的最佳”人选”,所以可爱的小编们就能解放生产力,将更多精力投入到思考、学习、设计、撰写等方面,将编辑工作更提高一个层次。

“苦逼的小编”也可以停下来,有更多时间优雅的喝咖啡。感觉生活都变更美好了呢:)


实践意义及技术实现

2000年接触Web页结缘Javascript,到如今NPM成为世界上最大包管理器NPMNodeJS的软件包管理器),让我发现,我能利用现有能力去解决很多以前难以解决的问题,顺便收获一些现在没有的能力。

当前的技术实现包含:

未来开发自动新闻分类的时候,还能接触些中文自然语言处理

本站主机与域名迁移到aliyun

之前的香港主机每天狂掉线,大陆几乎无法访问,于是再次折腾将域名注册和主机都换到阿里云上,再加cdn基本大陆东北、东南、华中都能访问了,后面好让我来分享下作为前端开发工程师的经验。

现在的wordpress多媒体文件处理已经足够好,就把nextgen gallery插件给移除掉,为解决图片的引用,在数据库里弄了近1天,仍有部分图片没有修复对应上。

小试用Adobe Edge Reflow制作“响应式”web页

预览页面:寻访襄阳十八怪-大楚襄阳-“襄”知道吗-第1集

很久没有折腾web设计相关的事情,前段时间因为工作上有个不错的想法,我决定尝试下“响应式web设计”。说下我碰到的问题和如何解决,也许对有兴趣的人会有用。我制作的成品看起来不太美观,只是尝试下相应式web设计的方法,让思维与时俱进吧。

什么是响应式web设计

responsive-web-design
响应式web设计,使网站在多种浏览设备上阅读和导航,同时减少缩放、平移和滚动

响应式web设计,引用下Wiki百科的解释:英文是Responsive Web Design(通常缩写为RWD),又称为自适应网页设计、响应式网页设计。 是一种网页设计的技术做法,该设计可使网站在多种浏览设备(从桌面电脑显示器到移动电话或其他流动产品装置)上阅读和导航,同时减少缩放、平移和滚动,完整说明请见Wiki百科页面

为什么做这个尝试

互联网消费向移动端转移,这是个顺应趋势的有益尝试。另外我想实现通过多种多媒体手段,包括图片、影片、声音、动画、文字、交互、设计来“讲故事”,用前段时间很时髦的词,也可是说是“全媒体”尝试。

网络媒体是利用所有这些形式来传递信息的媒介了,何不利用好这一优势。

我所在的单位有个说法叫“H5”,有好的内容需要包装,除了会为电脑端制作页面,另外为移动端制作个页面,也就是做个“H5”。

通过多种多媒体方式,用响应式web设计呈现,以达到在不同终端,风格相似、完整、清晰的呈现内容,这样做真是太棒了!

关于“大楚襄阳-襄知道吗”栏目

人力三轮车倒着踩-襄阳十八怪
人力三轮车倒着踩-襄阳十八怪

“襄知道吗”这个栏目名字是同事的主意,第一期内容选题是“襄阳十八怪”,是襄阳一对师生合作撰写的关于襄阳历史、民俗的打油诗,其中的“人力三轮倒着踩”真经典,让我想起来我小时候爸爸出差带我去襄阳,看师傅踩稀奇的三轮车,最后还讲方言“带一个袜子还加一块欠”。

这个有趣的选题也符合我想要的有趣又智慧,而且作者的这一番用心让我觉得很佩服。

心得

下面开始正题。

Adobe Edge Reflow是免费软件,现在是预览版,官方页请点此

在使用软件前我找到这些参考资料

我的页面是为电脑端呈现为主,同时适配移动端,所以我选择使用最大媒体查询,而后选定3种媒体查询尺寸:960px、768px、480px,分别对应典型的电脑端、平板电脑、智能手机,当然还有一个default默认。

媒体查询尺寸

设计当中,从默认尺寸开始,然后逐个往小尺寸进行,在编辑更小尺寸的时,根据需要覆盖页面元素的定位与尺寸,这样才不易混乱。

在我的工作流程中,先在Photoshop中画出线框图,然后导出图片到Edge Reflow中编辑。Edge Reflow配合Photoshop互连,可以方便的导入智能对象、形状、图层等,我在试用中没能连接上,可能是我的Edge Reflow版本不对。我使用PS当中的“生成”功能,为频繁修改、导出单独图片元素增加不少效率。

PSCC中的生成功能

Edge Reflow更多起到的是一个设计页面框架(框架层)的作用,同时做一些粗略的样式编辑(表现层,详情见用户体验要素),因为这两项工作在Edge Reflow中进行的好处就是,完全的“所见即所得”。之后再将生成的HTML与CSS放到Dreamweaver中添加视频、设置字体样式等。

调试中我使用Chrome浏览器,模拟测试不同移动设备的呈现效果,最后再放到手机上测试。

在Chrome中调试移动端页面

最后

电脑端生产内容-移动端消费内容,相比于电脑端生产-电脑端消费来说,千差万别的终端设备,给web前端设计人员带来调试方面更大的挑战,Adobe提供Edge Inspect来方便在移动终端调试页面。但看我做的这个试验品,感觉很失败。在这公司呆久了,线框图提笔一画,就是Banner+区块罗列的模式,思维都固化咯,感觉很失败。

拍摄show出个性的微博

你的社交网站个人页面,就是你在互联网上的形象,如果你是个追求个性、注重个人品牌的家伙,那么一定非常讨厌千篇一律的模板和背景图片。

本期节目就以新浪微博为例子,看看如何通过拍摄制作背景图片来达到个性化页面的目的。

在youtube上观看

本站服务器折腾移至BlueHost

网站内容要丰富,服务器存储空间是基础。以前的cndns美橙互联服务器168元/年的空间才100MB,对于一个以图片为主要内容的网站完全无法满足。现在的网站服务器迁移到美国的bluehost了,和朋友丁奕一起合租,人均187元/年,存储空间无限量,这下完全解决存储容量的后顾之忧了。尽管上图片,让图片相册爆发吧,哈哈!

继续阅读“本站服务器折腾移至BlueHost”