网页正文自动提取方法研究任务书
2020-02-18 17:22:28
1. 毕业设计(论文)主要内容:
社会网络舆情分析领域都会涉及到网页正文内容提取。对于分析而言,有价值的信息是正文部分,大多数情况下,为了便于分析,需要将网页中和正文不相干的部分给剔除。可以说正文提取的好坏,直接影响了分析结果的好坏。对于特定的网站,我们可以分析其html结构,根据其结构来获取正文信息。正文部分,不同的网站,正文所在的位置不同,并且html的结构也不同,对于爬虫而言,抓取的页面是各种各样的,不可能针对所有的页面去写抓取规则来提取正文内容,因此需要一种通用的算法将正文提取出来。
(1) 实现基于标签用途的正文提取算法,比如title或h1,h2标签一般用作标题,p一般表示正文段落,根据标签的含义去提取正文。
(2) 实现基于标签密度判定,主要根据字符统计,正文部分html标签的密度比较低,确定一个阈值,按照标签密度提取正文部分。
2. 毕业设计(论文)主要任务及要求
1.查阅15篇相关文献(不少于3篇外文文献),并每篇书写200—300字文献摘要(装订成册,带封面);
2.认真填写周记,完成至少1500字开题报告;
3.完成5000中文字以上的相关英文专业文献翻译,并装订成册(中英文一起,带封面);
3. 毕业设计(论文)完成任务的计划与安排
(1)2019/1/19—2019/2/28:确定选题,查阅文献,外文翻译和撰写开题报告;
(2)2019/3/1—2019/4/30:系统或技术架构、程序设计与开发、测试与完善;
(3)2019/5/1—2019/5/25:撰写及修改毕业论文;
4. 主要参考文献
1. 软件工程(第2版),钱乐秋等,清华大学出版社,2013年。
2. web前段开发技术-html、css、javascript, 聂常红,人民邮电出版社,2013年。
3. 大数据时代-生活、工作与思维的大变革,[英]维克托.迈尔-舍恩伯格等,浙江人民出版社,2013.