本文针对疫情背景下周边游信息挖掘的意义和目标,提出了基于对偶对比学习文本分类及图神经网络两大核心技术的解决方案,并针对微信公众号文章分类、周边游产品热度分析、本地旅游图谱构建与分析、疫情前后旅游产品需求的变化分析四项问题进行了深入研究。
微信公众号文章分类:针对数据集无标签的问题,通过爬虫技术获取旅游类文本并结合THUCNews新闻文本分类数据集构建训练集。采用BiGRU生成式文本摘要算法对公众号文章进行摘要,并设计RoBERTa-BiGRU-Attention融合模型进行文本分类。引入对偶对比学习框架提升模型在小规模数据集上的学习能力,最终将数据集中的文本分为4315篇与旅游相关和1971篇与旅游不相关的两类,结果比对正确率达到了96.90%。
周边游产品热度分析:对游记攻略文本进行预处理,包括分句、去除无关文本、噪声数据清洗与转换等。构建旅游领域的命名实体识别数据集,使用BERT-BiLSTM-CRF算法进行命名实体识别,并采用分层设置学习率、学习率衰减、加入对抗训练等训练策略,识别出1913个有效实体。利用BERT模型对实体所在语句进行情感分析,并基于改进威尔逊区间法计算产品热度,构建了基于好评率、浏览次数、时间差三个维度的热度评价模型。结果显示,2018-2021年旅游产品热度最高的分别是“优之品西点”、“浪漫海岸”、“Hello炸鸡(方兴店)”、“麦壳西点(开发区店)”。
本地旅游图谱构建与分析:采用改进Apriori算法进行关联分析,抽取(实体,关系,实体)三元组,并构建GNNLP模型进行链路预测,挖掘节点间的隐含关系。利用Neo4j工具进行可视化分析,生成面向不同分析对象的定制化视图。结果显示,GNNLP模型挖掘出的隐含关联关系较普通单一模型效果平均提高了11.76%。
疫情前后旅游产品需求的变化分析:基于构建的本地旅游图谱,分析了新冠疫情前后茂名市主要旅游产品的市场变化趋势和同一产品热度变化、产品之间的关联强度随疫情的变化规律。结果显示,部分旅游产品热度上升,部分下降,产品间关联度也发生变化。根据分析结论,提出了旅游企业产品供给、资源优化配置以及市场持续开拓的建议,为政府部门推进疫情时期旅游业的发展提供参考。
研究结论:本文提出的解决方案有效解决了数据分散化、碎片化的问题,提高了文本分类的准确度,增强了热度分析的全面性和准确性,实现了对隐含的高层概念深层次挖掘,构建了对疫情背景下本地游发展具有参考意义的知识图谱。