消费者洞察人工智能编码平台—问卷管理与半开放题编码设计与实现开题报告
2020-02-18 20:06:36
1. 研究目的与意义(文献综述)
背景资料:数据显示,在市场调研领域中,专项研究个案的数量每年在不断扩张,由此半开放题的处理量也水涨船高;而随着人工成本的逐年攀升,通货膨胀等因素,半开放题数据处理的成本也在不断上涨。因此,寻找智能化方式处理海量半开放题数据变得迫在眉睫。
目的及意义:
本项目的研发将立足于市场问卷调查的特点,围绕实际需求展开,总结目前国内外各种市场问卷调查数据处理的经验,以实现海量数据的自动化、智能化、规范化为目标,设计出一套功能齐全,可扩展性较强,易用和稳定的市场调研半开放题自动处理系统平台。
2. 研究的基本内容与方案
基本内容与目标:
-
通过阅读相关文献,对.Net平台下的相关技术有一个整体的掌握,深入学习并掌握有关C#程序设计方面的知识,熟悉前端开发工具,了解市场调研项目管理以及半开放题编码业务流程。
-
整合现有的信息资源,提供开放而标准的信息交换协议和通道,以先进的技术方法提供市场调研数据处理的支撑。
-
以实现海量数据的自动化、智能化、规范化为目标,设计出一套功能齐全,可扩展性较强,易用和稳定的市场调研半开放题自动处理系统平台,并测试效果。
拟采用的技术方案及措施:
可将本系统功能分为问卷管理和编码管理两部分:
-
问卷管理
-
功能分析
问卷管理主要实现通过研究并解析来自Conformit的xml文件,从而完成问卷中各类题型的识别,包括:封闭题、各类半开放题(Single、Multi、Grid3D、Grid、MultiGrid、OpenTextList、Ranking、NumeriList)以及开放题,可将其分为导航、新建、上传、修改、删除、导出、导入、搜索、输出和完成十个子模块。功能结构图如图1所示:
图1 问卷管理功能结构图
-
详细设计
1)导航:用户可以从问卷管理界面返回到主界面。
2)新建:用户在新建问卷时,首先选择日期,然后系统在对应IP地址的主机的ASP页面上获取该日期可以创建问卷的相关信息,并选择其中一个可创建问卷。
3)上传:选择一个问卷,根据其LocalID分别将ASCII表(以下简称A表)、Schema表(以下简称S表)、Excel表(以下简称E表)上传到数据库中,若这三张表的LocalID与问卷的LocalID不一致,则报错。上传数据文件之前,一般用户可以删除该问卷,但是已经上传文件的问卷只允许管理员删除。
4)修改:选择一个问卷,可以重新选择问卷的品类。
5)删除:一般用户只能删除未上传数据文件的问卷;管理员可以在任何时候删除任意问卷。
6)导出:选择一个已处理完的问卷进行导出操作,导出的序列化文件是对整个问卷数据的封装。
7)导入:将某个问卷导出的序列化文件导入到该系统中,可以还原这个问卷的数据。
8)搜索:问卷搜索的依据有问卷ID、问卷名称、创建者、创建时间、参考问卷、问卷类型、以及完成状态。
9)输出:将已处理完问卷的A表、S表、E表,此外,输出整个问卷的码表(以下简称CF表)和勘误表(以下简称KW表)。
10)完成:设置问卷的状态为“完成”,对于开放题,则系统自动检查是否所有题目全部编码完成,问卷的初始状态为”未完成“。
-
数据库设计
表1 项目信息表
字段名称 | 字段说明 | 数据类型 | 缺省值 |
ProjectID | 项目ID | INT |
|
CategoryID | 品类编码 | VARCHAR(4) |
|
LocalID | 项目的LocalID | VARCHAR(50) |
|
ProjectName | 项目名称 | VARCHAR(100) |
|
ONLNum | 项目的OnlineNum | VARCHAR(50) |
|
Client | 客户 | VARCHAR(100) |
|
Vertical | 行业 | VARCHAR(100) |
|
Tracking | 是否tracking | CHAR(1) | 0 |
ProjectRef | 参考项目的项目ID | INT | 0 |
Creator | 创建人的用户名 | VARCHAR(100) |
|
CreateDate | 项目创建时间 | Smalldatetime |
|
Status | 项目是否编码完成可以导出 | BIT(1) | 0 |
IsExport | 项目是否已经导出 | BIT(1) | 0 |
IsUpload | 项目是否已经上传 | BIT(1) | 0 |
NumID | Workbench中的项目ID | INT | -1 |
PIC | Workbench中的PIC,为项目创建者的邮箱 | Varchar(100) |
|
RlateInfo | 记录项目“非语义编码”中的关联的题目信息以及当前题目样本的排序方式 | varchar(2000) |
|
TotalVerbatim | 所有半开题和开放题的用户回答条数的总和 | int |
|
TotalWordCount | 所有半开题和开放题的用户回答字数的总和 | Int |
|
ProjectRefDetail | 参考项目的Local# ONL# | varchar(100) |
|
表2 项目-码表(勘误)关系表
字段名称 | 字段说明 | 数据类型 | 缺省值 |
ProjectID | 项目ID | INT |
|
Cf_Kw_Name | 码表/勘误表名称 | VARCHAR(1000) |
|
Tracking | 是否tracking | CHAR(1) | 0 |
表3 SCHEMA表
字段名称 | 字段说明 | 数据类型 | 缺省值 |
SchemaID | 仅作为主键的用途 | INT |
|
Question ID | 题目ID | VARCHAR(20) |
|
Variable ID | 题目子域ID | VARCHAR(40) |
|
Type | 类型 | VARCHAR(40)
|
|
Start | 开始列 | Int |
|
Finish | 结束列 | int |
|
Answer Code | 答案编码 | VARCHAR (32) |
|
Question Label | 题目内容 | VARCHAR(2000) |
|
Answer Label | 答案内容 | VARCHAR(2000) |
|
Level ID | 循环层次ID | VARCHAR(50) |
|
Category | 题目类型 | CHAR(2) |
|
Infile | 题目所在数据表名 | VARCHAR(50) |
|
表4 品类信息表
字段名称 | 字段说明 | 数据类型 | 缺省值 |
CategoryID | 品类编码 | VARCHAR(4) |
|
Description | 品类名称 | VARCHAR(100) |
|
Industry | 行业名称 | VARCHAR(100) |
|
表5 半开放题编码结果表
字段名称 | 字段说明 | 数据类型 | 缺省值 |
VariableID | 题号子域 | VARCHAR(500) |
|
ResponseID | 样本编号 | INT |
|
Other | 用户的ROWDATA | NVARCHAR(300) |
|
Other_Code | Other的编码结果表 | Varchar(200) |
|
Number_of_MatchedCode | 匹配上CODE的个数(主要针对来自SCHEMA表中选项有重复的情况) | int | 0 |
BackTracking | 上一编码的结果 | INT |
|
Is_Exist | 该条记录对应的用户回答是否存在 | INT | 1 |
表6 项目的码表
字段名称 | 字段说明 | 数据类型 | 缺省值 |
CodeID | 编码ID | INT |
|
CodeNum | 编码号 | VARCHAR(10) |
|
CfName | 码表名称 | VARCHAR(1000) |
|
FatherID | 该条目的父节点编号 | INT | 0 |
Leaf | 是否为叶子 | BIT(1) | 0 |
ReadOnly | 是否只读 | BIT(1) | 0 |
Description | 编码描述 | NVARCHAR(300) |
|
RefAns | REFERENCE ANSWER,参考描述 | NVARCHAR(2000) |
|
SerialNum | 全局顺序号 | smallINT |
|
SerialNo | 顺序号 | smallINT |
|
Hidden | 是否隐藏 | BIT(1) | 0 |
Compiled | 是否编译过 | BIT(1) | 0 |
IsEdit | 是否修改过 | BIT | 0 |
KeyWords | 关键词汇总 | NVARCHAR(4000) |
|
IgnoreCodeNumSet | 针对链接半开题做codeframe的码表,新增扣时需要跳过的code集合 | Varchar(1000) | NULL |
Color | 码表条目的颜色 | Int | 1 |
Reserved | 预留 | Varchar(300) |
|
Statistic | 记录将来统计每条码的计数 | Varchar(1000) |
|
表7 编码结果表
字段名称 | 字段说明 | 数据类型 | 缺省值 |
Variable ID | 题号子域 | VARCHAR(500) |
|
responseid | 样本编号 | INT |
|
CodingResult | 编码结果 | VARCHAR(200) | 空 |
CodingRightOrNot | 编码结果正确否 | int | 99 |
Complete | 是否提交 | BIT(1) | 0 |
Marked | 是否标注 | BIT(1) | 0 |
BackTracking | 上一语义编码的结果 | VARCHAR(200) | 空 |
BackCodingRightOrNot | 上一次编码结果正确否 | int | 99 |
Locate | 是否定位 | BIT(1) | 0 |
-
编码管理
-
功能分析
编码管理是整个系统的核心模块,主要实现半开放题的自动处理。对于半开放题的处理,分为项目-勘误表、勘误两个子模块。项目-勘误表模块主要实现项目对应勘误表的相关操作,分为新建、打开、编辑(加锁/开锁)、搜索、导出、帮助子模块。勘误模块包括自动处理、搜索、帮助子模块。功能结构图如图2所示:
图2 编码管理功能结构图
-
详细设计
1)项目-勘误表
-
新建:若是该项目不存在勘误表,或是处理完与已存在勘误表相关联的题目,则根据未处理的题目新建勘误表(系统会自动将未关联勘误表的题目过滤出来,不用担心勘误表重叠问题);新建的勘误表内容初始为半开放题的选项,选项的同义词部分为空。
-
打开:打开已存在或是参照项目的勘误表,显示与之相关联的题目进行编码。
-
编辑(加锁/开锁):一旦加锁,用户不能对勘误表进行任何修改;只有在开锁状态,用户才能对勘误表进行编辑。
-
添加:分为添加选项与勘误条目,可以直接操作;
-
修改:只能修改勘误条目以及添加的选项,对于原题目的选项不能修改。
-
删除:只能删除勘误条目以及添加的选项,对于原题目的选项不能删除。
-
搜索:根据关键字在勘误表中搜索,并将包含关键字的勘误词或选项高亮标出。
-
导出:按规定格式导出选择的勘误表。
-
帮助:用于显示帮助信息。
2)勘误
-
自动处理:对照用户编辑好的勘误表,对样本中的相应半开放题进行勘误校对,主要包括选项回填与增填,任何时候样本的增加与勘误表的修改都将触发勘误校对所有样本。
-
搜索:根据关键字在勘误表中搜索,并将包含关键字的样本高亮标出。
-
帮助:用于显示帮助信息。
-
数据库设计
表8 项目勘误表
字段名称 | 字段说明 | 数据类型 | 缺省值 |
KwCodeID | 勘误条目ID | INT |
|
KwName | 勘误表名称 | VARCHAR(1000) |
|
FatherID | 该条目的父节点编号 | INT |
|
ReadOnly | 是否只读 | BIT(1) | 0 |
Description | 勘误条目的描述 | NVARCHAR(300) |
|
QuestionIDSet | 问题的集合 | VARCHAR(1000) |
|
KwCodeNum | 勘误条目编码 | INT | 0 |
SerialNum | 勘误条目序列号 | Smallint | 0 |
Color | 勘误表条目的颜色 | Int | 1 |
Reserved | 预留 | Varchar(300) |
|
Statistic | 记录将来统计每条码的计数 | VARCHAR(1000) |
|
3. 研究计划与安排
(1)2019/1/19—2019/2/28:确定选题,查阅文献,外文翻译和撰写开题报告;
(2)2019/3/1—2019/4/30:系统架构、程序设计与开发、系统测试与完善;
(3)2019/5/1—2019/5/25:撰写及修改毕业论文;
4. 参考文献(12篇以上)
-
senderovich, nikita, and a. maysuradze. interactive coding of responses to open-ended questions in russian[c]. knowledge engineering and semantic web. springer international publishing, 2015:195-209.
-
fielding j, fielding n, hughes g. opening up open-ended survey data using qualitative software[j]. quality amp; quantity, 2013, 47(6):3261-3276
-
jiu gen yuan,zhi guo li,ruo nan xing. design research of electronic journal system based on asp.net[j]. applied mechanics and materials,2014,3207(556).
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付