网页正文自动提取方法研究任务书

2020-02-18 17:22:28

1. 毕业设计（论文）主要内容：

社会网络舆情分析领域都会涉及到网页正文内容提取。对于分析而言，有价值的信息是正文部分，大多数情况下，为了便于分析，需要将网页中和正文不相干的部分给剔除。可以说正文提取的好坏，直接影响了分析结果的好坏。对于特定的网站，我们可以分析其html结构，根据其结构来获取正文信息。正文部分，不同的网站，正文所在的位置不同，并且html的结构也不同，对于爬虫而言，抓取的页面是各种各样的，不可能针对所有的页面去写抓取规则来提取正文内容，因此需要一种通用的算法将正文提取出来。

（1）实现基于标签用途的正文提取算法，比如title或h1,h2标签一般用作标题，p一般表示正文段落，根据标签的含义去提取正文。

（2）实现基于标签密度判定，主要根据字符统计，正文部分html标签的密度比较低，确定一个阈值，按照标签密度提取正文部分。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 毕业设计（论文）主要任务及要求

1.查阅15篇相关文献（不少于3篇外文文献），并每篇书写200—300字文献摘要（装订成册，带封面）；

2.认真填写周记，完成至少1500字开题报告；

3.完成5000中文字以上的相关英文专业文献翻译，并装订成册（中英文一起，带封面）；

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 毕业设计（论文）完成任务的计划与安排

(1)2019/1/19—2019/2/28：确定选题，查阅文献，外文翻译和撰写开题报告；

(2)2019/3/1—2019/4/30：系统或技术架构、程序设计与开发、测试与完善；

(3)2019/5/1—2019/5/25：撰写及修改毕业论文；

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 主要参考文献

1. 软件工程（第2版），钱乐秋等，清华大学出版社，2013年。

2. web前段开发技术－html、css、javascript, 聂常红，人民邮电出版社，2013年。

3. 大数据时代－生活、工作与思维的大变革，［英］维克托.迈尔－舍恩伯格等，浙江人民出版社，2013.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码