摘要:[目的/意义]评估政府开放数据平台FAIR原则的实施效果有助于平台规范标识符、统一元数据标准等,增强政府数据的发现、共享和重用。[方法/过程]采用网络调研法,借鉴国际代表性评估框架,结合调研构建面向政府开放数据平台的FAIR原则评估指标体系,并选取国内外8个样本平台作为案例,从可发现、可访问等4个维度展开评估分析,比较FAIR原则实施状况和差异。[结果/结论]从永久性标识符方案、元数据标准规范、数据使用许可等方面提出相应改进策略,完善国内政府开放数据平台数据管理规范,为后续相关平台的建设与利用提供理论指导和实践借鉴。
摘要:[目的/意义] FAIR原则在科技期刊的应用有助于增强期刊论文支撑数据的可发现、交互、共享与重用。评估FAIR实施情况有利于其推广实施,以期为我国期刊论文的支撑数据共享与重用提供有益参考。[方法/过程]本文在国外FAIR原则评估模型的基础上,综合考虑各模型的优势和指标设计特点,结合《数据分析与知识发现》期刊论文相关的科学数据特征,构建FAIR原则指标评价体系,基于该体系从4个维度分析调研结果,最后对中文期刊论文的支撑数据FAIR应用提出合理化建议与优化策略。[结果/结论]FAIR原则在期刊论文支撑数据的应用仍需进一步完善,科研人员的数据共享意识及对于FAIR原则的认知度远远不够,建议从宏观和微观两个层面推广FAIR原则及其实施,推动数据更加开放和可重用。
摘要:[目的/意义]为揭示数据论文与期刊论文关联出版的新形态,对目前数据期刊的开放共享、数据论文与期刊论文之间的关联进行研究,有助于推动科学数据的开放共享发展,促进科学数据的高效流通,使科学数据在多层维度释放数据价值。[方法/过程]基于FAIR原则,从元数据元素、文献服务等角度出发,构建数据流向视角下数据论文与期刊论文之间的互关联模型,分析数据论文与期刊论文之间的关联过程,并选取代表性数据期刊Data:in Brief的数据论文为实例展开模型验证与实践参照。[结果/结论]本文基于“可访问”“可发现”对“开放共享”展开研究;基于“可互操作”和“可重用”对“关联”展开研究。通过构建理论模型、实例验证,厘清数据论文与期刊论文之间的关联模式以及验证理论模型的可行性与合理性。
摘要:[目的/意义]为服务国家重大战略需求,抓住学科更名的历史机遇,把握一级学科的整体发展脉络成为构建中国自主的信息资源管理知识体系的重要环节。[方法/过程]以CNKI收录的学科核心期刊文献为数据源,首先采用K-Means聚类算法以及融合TF-IDF算法和LDA主题模型的分类方法计算最佳主题数量并识别研究主题内容;然后从更名前后的主题强度、主题新颖度、研究主题发展变化情况3个方面深入分析;最后,本研究提出主题词交叉联立的分析方法预测研究主题未来发展方向。[结果/结论]信息资源管理一级学科的更名会刺激新主题的产生与发展,新主题在研究内容、研究范围等方面的拓展反过来丰富了本学科的内涵和外延,对于学科未来的守正创新发展具有一定参考价值。
摘要:[目的/意义]对比分析中关在图书情报领域的学科话语权,有助于加快构建中国特色哲学社会科学学科体系,发现不足,提升自我。[方法/过程]首先,借助LDA主题挖掘模型实现主题抽取,并结合热点主题识别指标厘清近十年图情领域中美两国热点主题分布态势;在此基础上初步筛选学科话语权量化指标,通过专家打分遴选指标并确定权重,形成学科话语权量化公式,进而从热点主题分布角度探究中美学科话语权总体概况;随后,通过梳理热点主题词特点与变化趋势,从对图情领域科研活动影响范围的广度与深度两方面剖析中美两国在该领域的学科话语权演变;最后,本文结合话语分析理论,凝练中国在图情领域的学科话语权及提升路径。[结果/结论]中国在图情领域突出的学术引领力实现了学科话语的高质量传播,其出色的学术影响力助力我国优势积累学科话语权,但在规范学科话语的语境控制方面道阻且长。
摘要:[目的/意义]通过分析公众对元宇宙中个体、业界、政府3方面内容的感知,针对性地为个体、企业、政府参与元宇宙生态建设提供建议。[方法/过程]参考三螺旋模型,构建基于个体一业界一政府维度的元宇宙公众感知分析框架,采用改进LDA和BERT算法,基于知乎问答分析公众对元宇宙中个体、业界、政府3方面内容的感知主题,主题的热度、情感及相关演化。[结果/结论]公众在个体、业界、政府维度上的感知既有差异又有联系。演化上,公众关注点逐渐细化深入,态度受体验、舆论影响显著,但趋于理性。通过挖掘不同维度的热点、潜力点及问题,能针对性地为不同主体提供建议。
摘要:[目的/意义]基于客观数据形成一套自动筛选方法,对专利成果质量进行快速识别,为推动专利成果转化工作提供决策支持。[方法/过程]首先,以专利成果的发明人数量、IPC号数量等形式特征结合语义向量匹配度特征、专利成果质量标注结果,构建高质量专利成果筛选指标体系;其次,以“先进制造与自动化”领域为例,在专利之星平台检索该领域的发明专利作为专利文本数据来源,并以湖北省需求为例,将其相关的产业发展规划(宏观)和市场技术需求(微观)作为需求文本数据来源;随后,采用分词、去停、文本向量化等步骤对专利文本和需求文本进行处理,并整理形成训练集和测试集;最后,调用8种机器学习分类算法模型进行训练与评估,并对训练效果最优的算法展开应用测试,以验证筛选方法的可行性。[结果/结论]结果显示,随机森林算法模型在选取的8类算法模型中整体表现最优,被用为高质量专利成果筛选方法中的内核分类算法。此外,本文提出的筛选方法对专利成果质量识别具备较强的可行性,能够结合不同省(市)的特定专利需求,快速地进行大批量专利成果的筛选,在一定程度上可有效降低人力、物力和财力成本的消耗。
摘要:[目的/意义]立足价值共创视角划分医生群组能够有效揭示不同医生群组知识服务的价值共创水平,为医生群体的细分管理和社区可持续发展提供支撑。[方法/过程]本文首先基于价值共创理论构建医生群组特征体系,再通过网络爬虫获取好大夫在线平台21946个医生样本数据,接着利用聚类算法划分医生群组,最后分析不同医生群组的特征差异。[结果/结论]结果显示,医生可划分为5种类型:高价值共创型医生、一般价值共创型医生、低价值共创型医生、高价值共创潜力型医生和价值共毁型医生,不同类型的医生在价值共创水平、知识服务表现、个体特征和疾病类别分布上存在显著差异。本文研究结果拓展了在线社区知识服务和用户研究的理论体系,有助于促进医患双方价值共创和社区可持续发展。
摘要:[目的/意义]为满足科研人员对科技文献内部细粒度语义信息进行高效查询的迫切需求,前期研究提出了面向科技文献的多维语义索引体系,然而基于HashMap的常见倒排索引会导致查询效率低下。本文旨在通过面向不同维度语义特征建立混合倒排索引,以改进语义查询性能。[方法/过程]本文以Treap、B+树等多种数据结构探索适合不同语义维度的倒排索引构建方法,并将其组合形成多种适用于科技文献多维语义组织的混合倒排索引构建方法,并通过对比实验,在排序查询和布尔查询条件下分析验证不同类型倒排索引构建方法的查询性能。[结果/结论]实验结果表明,组合形成的8种混合倒排索引构建方法中,表2所示的C3( HHHB)被证明在排序查询条件下具有最高的效率,而C4(TTTB)则在布尔查询条件下被证明最为高效。本文的方法能有效解决单一索引结构导致的查询效率问题。
摘要:[目的/意义]探究平台特征对跨社交媒体UGC信息分享行为的影响,揭示用户跨社交媒体场景的新特征。[方法/过程]通过刺激一机体一反应(SOR)理论框架构建平台特征对跨社交媒体UGC信息分享行为的中介调节模型,以时间维度和平台维度拼接应用商城数据、百度指数数据、社交媒体数据等,构建多源异构面板数据集作为样本,使用固定效应模型验证相关假设。[结果/结论]平台的声誉和用户服务技术迭代通过感知有用性正向影响跨社交媒体UGC信息分享,而平台的关注度通过感知有用性显著负向影响信息分享行为:平台声誉和用户服务技术迭代对感知有用性和跨社交媒体UGC信息分享之间的关系具有负向调节作用。本文关注跨社交媒体UCC的信息分享行为,为UGC创作者采用跨社交媒体信息投放策略提供参照,为社交媒体维护平台生态提供启示。
摘要:[目的/意义]探究在线健康社区用户算法回避行为的影响因素和内在机理,为在线健康社区算法服务与监管的优化提供对策建议。[方法/过程]以“认知一情感一行为意愿”范式为理论框架,构建在线健康社区用户算法回避行为影响因素理论模型,并通过SEM-ANN-NCA三阶段的数据分析方法对影响因素进行分析验证。[结果/结论]在线健康社区用户参与的认知层面中,隐私关注、感知侵扰、感知威胁和系统功能过载正向影响用户的算法焦虑,且都是算法焦虑的必要条件,4个认知要素对于算法焦虑的重要性按照感知侵扰、隐私关注、系统功能过载、感知威胁由高到低排列;在情感层面,算法焦虑正向影响算法回避行为,并且是算法回避行为的必要条件。
摘要:[目的/意义]准确预测舆情观点的演化态势,对化解舆情危机具有重要意义。[方法/过程]针对HK模型用于用户观点演化预测存在的不足,进行如下改进:首先,从和当前事件相似度高于阂值的历史博文中获取用户的初始观点值;其次,利用用户间交互行为以及关注关系计算亲密度,修订用户信任阈值;最后,融合用户全局影响力、用户间交互度以及观点接近度计算用户间的综合信任度,突出用户间观点影响权重的差异性。最终利用改进的HK模型实现对社交用户观点演化预测。[结果/结论]实验结果表明,改进的HK模型用于观点演化预测具有较低的MSE值和MAE值,可为舆情发展提供有效预测。
摘要:[目的/意义]本文提出并构建群体观点提取模型,划分网络舆情群体观点的同时提取重点关键词展现群体观点的实质内涵,为舆情引导提供参考。[方法/过程]基于LDA主题模型与TextRank关键词模型构建群体观点提取模型,以生猪+期货为关键词抓取网络舆情数据为实验样本,计算最佳群体观点数量后进行群体观点划分,并提取核心关键词来体现观点的语义内涵。[结果/结论]基于LDA和TextRank的群体观点提取模型,能够较好地根据语义内涵划分群体观点并提取核心关键词,经过提取并排序后的关键词能够明确体现各个群体观点的核心语义内涵,有助于服务金融和舆情监管机构根据期现货市场行情、群体观点语义内涵以及数量峰值出现阶段合理开展舆情监控与引导工作。
摘要:[目的/意义]目前在文化强国战略背景下,我国学术话语权正处在重要的发展阶段,学术话语权评价有助于促进中国学术应对新时代发展的挑战,推动中国特色学术话语权国际化和本土化,明晰未来中国学术话语权发展的总体方向与具体举措。[方法/过程]本文采用文献与网络调研、比较研究、科学计量学等方法,系统地梳理了国内外学术话语权的基本理论、实践脉络,立足于中国学术话语权国内外发展实践,基于学术主体视角,参照相关学术成果评价指标体系,并对中国社会科学学科进行了实证研究,在此基础上,进一步思考和分析了提升中国学术话语权的现实路径。[结论/发现]中国学术话语权评价的核心要素主要由学术引领力、学术竞争力、学术创新力和学术传播力4部分组成,通过实证分析发现中国社会科学学科的多数学科在国际上的地位还比较低。最后提出了提升中国学术话语权国际影响和地位可从这4个方面进行全面提升。
摘要:[目的/意义]学术论文是学者科研水平与学术贡献的重要佐证和标志。构建科学的学术论文评价模型,对人才评价、科研经费分配、评奖评优、晋升及招聘等都具有重要指导意义。[方法/过程]文章选择Web of Science数据库中“Information Science and Library Science”学科类别下发表于2010年的论文作为研究对象。首先,基于论文多方面的关联特征构建模型特征空间;然后,采用机器学习中被广泛用于预测任务的有监督学习算法-BP神经网络训练模型,并进行十折交叉验证确保模型稳定性;最后,通过计算模型的校正决定系数和均方根误差(RMSE),选择出最优模型。[结果/结论]本研究构建的最优BP神经网络模型的校正决定系数达0.91,均方根误差(RMSE)约19.8,评价性能较好。