网页核心内容提取与转换插件开发与实现开题报告

2022-01-04 21:12:18

全文总字数：2105字

1. 研究目的与意义及国内外研究现状

互联网技术的发展,使得用户对于数据的存储和管理的方式有了越来越高的要求。然而在一些工作学习中，需要我们浏览大量的互联网站点去寻找我们需要的内容，无限的重复”搜索→选取信息复制黏贴→保存”，浪费时间人力。

本课题基于chrome平台，利用java，js等语言设计一个适用于网络数据收集的插件，实现对网页核心关键内容的提取并下载。该插件能实现由浏览器自动帮助用户搜集有意义的信息，减少不必要的浏览和一些错误的操作，提高工作效率。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

了解文字与图片的在网页表达中的区别，重点研究插件开发和网页核心内容提取。该插件先将获取到的信息保存在后台并将其转化为标准的pdf或者word文档，并提供下载链接供用户下载。

具体研究内容包括：

1.熟悉chrome插件开发；

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

实施方案：

对提取公开网页的核心文本和图片的算法进行重点研究，编程实现将其封装成chrome插件。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

[1]石丽萍 .浅析基于web的云存储技术

[2]刘凡凡 .支持定址网络爬虫系统的研究和实现

[3]李喆 .chrome扩展及应用开发

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付