网页核心内容提取与转换插件开发与实现开题报告
2022-01-04 21:12:18
全文总字数:2105字
1. 研究目的与意义及国内外研究现状
互联网技术的发展,使得用户对于数据的存储和管理的方式有了越来越高的要求。然而在一些工作学习中,需要我们浏览大量的互联网站点去寻找我们需要的内容,无限的重复”搜索→选取信息复制黏贴→保存”,浪费时间人力。
本课题基于chrome平台,利用java,js等语言设计一个适用于网络数据收集的插件,实现对网页核心关键内容的提取并下载。该插件能实现由浏览器自动帮助用户搜集有意义的信息,减少不必要的浏览和一些错误的操作,提高工作效率。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 研究的基本内容
了解文字与图片的在网页表达中的区别,重点研究插件开发和网页核心内容提取。该插件先将获取到的信息保存在后台并将其转化为标准的pdf或者word文档,并提供下载链接供用户下载。
具体研究内容包括:
1.熟悉chrome插件开发;
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
3. 实施方案、进度安排及预期效果
实施方案:
对提取公开网页的核心文本和图片的算法进行重点研究,编程实现将其封装成chrome插件。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
4. 参考文献
[1]石丽萍 .浅析基于web的云存储技术
[2]刘凡凡 .支持定址网络爬虫系统的研究和实现
[3]李喆 .chrome扩展及应用开发
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付