基于大数据空间标记的惯常环境技术定义 马仪亮1,宋彦亭2 (1.中国旅游研究院,北京100005;2.农业农村部规划设计研究院,北京100125) [摘要]旅游是在非惯常环境的活动,但非惯常环境要由惯常环境来定义。无论学术上还是技术上,惯常环境自身也都缺少相对统一和明确的定义,使得我国旅游统计执行错乱频生,各类负面舆情不断。文章探讨了惯常环境技术定义的国际实践、原则和推荐的表达,认为惯常环境是由以居所为中心和以职学地为中心的两类惯常空间的合集,一个以不等圆组成的不受行政区划限定的不规则区域。研究还发现:1)为减少位置噪声点干扰使得簇质点偏移,对两个惯常空间进行具有噪声的基于密度的空间聚类时扫描半径宜限定在1km以内;2)以居所为中心的惯常空间不超过1个,以职学地为中心的惯常空间个数小于等于2,根据位置点衰减情况判断,前者空间半径以40km为宜,后者空间半径以2km~3km更为合理;3)无需用全样本位置数据进行标记,通过代表性用户出游率或抵达率扩样实现总体推算;4)不能标记惯常环境的用户,可假定其出游率或抵达率与能标记的用户相同,即符合同一性假定。该研究可为大数据的旅游统计规范化应用提供技术参考,为基于大数据的旅游流研究夯实了基础。 构成一个相对独立的知识体系,也就是具有特有的概念、原理、命题、规律等所构成的严密的逻辑化的理论体系[1]。1999年,联合国世界旅游组织在定义旅游时首次引入惯常环境概念,此后各国陆续将惯常环境确立为定义旅游的概念要件。联合国主导的《2008年国际旅游统计建议》,定义“游客指出于任何主要目的(出于商务、休闲或其他个人目的,而非在被访问国家或地点受聘于某个居民实体),在持续时间不足一年的期间内,出行到其惯常环境之外某个主要目的地的旅行者。”[2]实际上,惯常环境并不指向旅游,惯常环境之外才指向旅游。张凌云开创性地将惯常环境之外定义为“非惯常环境”,引发了关于旅游的本质和游客在非惯常环境中游憩行为的深入探讨。一方面,张凌云提出了旅游就是人们在非惯常环境下的体验和在此环境下的一种短暂的生活方式,并将旅游的本质定义为“对非惯常环境的体验”[3]。一些学者也认同非惯常环境核心概念是旅游学的逻辑起点之一[4]。另一方面,更多学者确实以非惯常环境概念为逻辑起点,对旅游者非理性行为、旅游欺诈现象、价格感知、生命的意义、体验差异等现象进行了深入研究[3,5-7],显著推动了对旅游活动的学术理解。旅游在非惯常环境发生,学术研究也更多聚焦于此。仔细观察相关研究发现,广域环境减去惯常环境后就是非惯常环境,世界上每个人的广域环境在空间上是相等的,也就是所处发展阶段面向人类生活的全部活动空间。这意味着,非惯常环境是依靠惯常环境来定义和理解的。从而定义项中的另一个概念“惯常环境”应该要有一个比较准确的已知定义,才能避免被定义项陷入定义模糊[8]。 [关键词]惯常环境;技术定义;空间标记[中图分类号]F59[文献标识码]A[文章编号]1002-5006(2024)05-0161-10DOI:10.19765/j.cnki.1002-5006.2024.05.015 0引言 旅游学能否成为一门独立的学科,取决于能否 无论是从地理上还是心理上定义,惯常环境势必存在理论上的空间边界,否则惯常环境就与广域环境重合,也就失去了讨论旅游的逻辑起点。遗憾的是,惯常环境的理论边界仁者见仁。Govers等定 1基于位置大数据的惯常居住及职学空间标记 义惯常环境,与其说是从地方、空间、流动的多视角出发,通过网络、电话、留置问卷等方法进行超大样本的调查,对传统观点的惯常环境进行重置,不如说他们引入游客感知,提出了“让旅游者决定用何种时间和地点的数据来划分惯常环境和旅游、旅行的界限。”[9]自此,惯常环境需要从社会地理、环境心理等多视角进行综合考察的观点趋于主流,确定其空间边界的分歧越来越大,而不是相反。甚至出现认为交通的快捷、舒适、方便程度左右人们的心理距离,交通格局的变化可以达到“天涯若比邻”的效果的观点[10],过度强调个体对距离的心理感知,而忽视出行频率。这一逻辑正如韩炳哲所说“电子邮件以此方式造就出即时性,即它完全除掉作为空间间歇的诸多道路。它摆脱了空间本身……每一个远方、每一段距离都要被灭除。要做的是,使一切在此时此地即可得以被支配。”[11]随着虚拟现实、元宇宙等数字化技术发展,惯常环境似乎就真的可以与广域环境重合了,届时,继续探讨旅游就没什么实际价值了。学术上百家争鸣是旅游研究之幸,对于旅游统计则可能意味着不知所措和频繁的统计数据质疑。因为,如果人人有自己的惯常环境理解以及在此基础上的旅游活动认知,就难以建立一套各方认可的统计规则。如果技术定义中也依赖游客感知,惯常环境就变成了一个因人而异的主观概念,关于旅游人数的统计就只能经由游客抽样调查这一种方法了,因为能且只能在游客自己感知是否离开惯常环境的基础上进行扩样推算。由于不同经济发展水平、不同文化风俗、不同生长阶段的人对惯常环境大小的感知不同,区域旅游统计数据之间就完全失去可比性了。管婧婧等也认为惯常环境的地理边界应该是开放和发散的,但是从统计操作角度可强行划定物理距离尺度[8]。国际上并没有关于惯常环境的统一技术定义,联合国世界旅游组织建议各国根据交通便利情况、人口密度、文化行为、距离行政边界的距离远近等确定一个“唯一的个人惯常环境”[2]。一些国家用“出城”“异地”“外地”“离开本地”“离家40km(或50km、80km等)”等表述,含糊其辞。我国自1993年开展国内旅游统计、2000年出台旅游统计制度至今,从来没有对惯常环境下过定义,使得很多学者不理解旅游人次怎么统计得来,也不能准确向学生和基层旅游统计人员传授讲解,特别是各地争相用位置数据监测假日游客接待情况,方法各不相同,且都不是在标记游客惯常环境基础上展开,新一轮旅游数据乱象有愈演愈烈之势。 1.1惯常环境技术定义的国际隐喻 惯常环境的出现经历了数十年演变,根据张凌云对国际上主流旅游定义的梳理,“非定居地”“离开自己的住地”“离开定居地点较远的地方”“离家”“离开日常生活圈”等表述都出现过(表1)。从表1可以看出,学术上对旅游的定义多从离开居住地展开。各国虽然尽量回避定义惯常环境,但为了统计需要都采用隐喻的方式大致勾勒惯常环境的空间规则。美国对游客出行的时空要求是50miles(约80km)①,法国则是离开住所超过100km②,日本要求游客离开日常生活环境达到单程80km③,澳大利亚要求过夜游客离家40km以上,对一日游则为离家往返50km④,西班牙规定游客必须出行至行政边界(市)以外⑤。这些国家虽没有明确定义惯常环境,但有两方面的隐喻:1)个体只拥有一个惯常环境;2)住所是多数国家从技术上定义惯常环境的核心。我国官方颁布的旅游统计调查制度使用惯常环 境 概 念,但 从 来 没 有 对 惯 常 环 境 进 行 过 界 定。2020年颁布的《全国文化文物和旅游统计调查制度》中出现了“惯常环境”“惯常生活环境”“惯常居住地”“惯常居住环境”等多种表述,但没有对惯常环境进行完整定义。从制度的表述中,统计操作上的惯常环境是从居住地展开的。各国技术上对惯常环境的界定可以分为3种:第一种是整圆说,法国、日本和澳大利亚等将惯常环境明确为住所或家周边一定半径距离范围,呈圆圈状;第二种是不规则生活地说,英国限定为游客所在镇或者乡村,西班牙为市政边界内;第三种是“悬置”说,中国、美国和加拿大等都对惯常环境进行模糊处理。 《2008年旅游统计国际建议》关于惯常环境的表述最为全面,但都是抽象性建议,而不是关于时空的具体规定,如“一个人的惯常环境是旅游的一个关键概念,被定义为一个人日常生活的地方(不一定是一个毗邻的地方)。”[2]“一个人的惯常环境包括其所属住户的惯常居住地,其自身的工作或学习 在位置用来确定居住国和该住户及其所有成员的惯常居住地。”[2]可以知道,惯常环境至少应由住户的惯常居住地和其工作或学习地两部分组成。离开某层级行政区或离家40km是多数国家进行旅游统计的最低空间标准,居住地和工作或学习地往往都在这一空间范围内。我国则不然,没有定义惯常环境,但把离开居住地10km作为游客统计的基本准则,甚至低于一些城市居民的平均通勤距离,很多人工作和学习地与居住地不在以居所为中心的10km范围内,就造成了由居住地去往超过10km的工作地周边多大范围外才计入旅游的技术障碍。把以居所为中心的那部分惯常环境称为以主要居所为中心的惯常空间,半径为Rh,根据我国目前的制度规定Rh暂时等于10km。把以职学地为中心的那部分惯常环境称为以职学地为中心惯常空间,半径为Rw。如何通过大数据的方法对两个空间进行界定和标记,是本文研究的主要内容。 1.2以居所为中心的惯常空间标记 通过拦访居所所在地住户受访者可能介意隐私避而不答,对于其活动范围又因对距离感知较为含糊难以精确化处理,本文选取位置大数据进行客观标记。随机选取2022年6月南京电信某用户M信令位置点,位置点每半小时提取一次,合计提取到该用户位置点1188个(每个点都由经纬度刻画),可以大致看出该用户主要在两个区域活动,位置点总体分布如图1所示。 先 用K均 值 聚 类 算 法(K-Means clusteringalgorithm)进行空间聚类,算法步骤是预先将数据分为K组,随机选取K个点作为初始的聚类中心,然后 地以及其定期和经常光顾的任何其他地方,即使该地远离其惯常居住地或在另一地区时也是如此。”[2]“每个住户都有一个主要住所(有时称为首要或基本住所),这种住所通常根据逗留的时间确定,其所 计算每个点与各个种子聚类中心之间的距离,把每个点分配给距离它最近的聚类中心(或簇质心),该聚类中心以及分配给该中心的点集就代表一个聚类(或簇)。一旦全部点都被分配了,每个聚类的聚类中心会根据聚类中现有的点被重新计算,如此反复迭代直至满足误差平方和(各簇内的样本点到所在簇质心的距离平方和)局部最小。简便起见,各簇内的样本点到所在簇质心的距离以两点之间的直 线 距 离 表 征,即 欧 几 里 得 距 离。设 有X点(lat1long1)和C点(lat2 long2),lat1和lat2分别为两点的纬度,long1和long2分别为两点的经度,则: 聚类,当K值为2时(图2左上),位置点可以聚类为红色和蓝色2簇。K值为3时(图2右上),可以聚类为蓝色、绿色和红色3簇;K值为4时(图2左下),可以聚类为蓝色、红色、黑色和绿色4簇;K值为5时(图2右下),则可以聚类为蓝色、红色三角、红色圆、绿色和黑色5簇。实际上,簇数越多并不见得越好,K值增多后反而将更多的伪中心标记出来造成更多干扰。如图1所示,该用户在A点(纬度:32.05413°,经 度:118.76824°)、B点(纬 度:32.053888°,经 度:118.765833°)和C点(纬 度:32.10333°,经 度:118.9408°)3个位置点出现频繁,6月出现次数分别为436次、265次和103次。计算两个经纬度点之间的距离,A点与B点相距228.43m,A点与C点相距17.15km,B点与C点相距17.38km,进一步考察表2可以有以下发现。1)加入时间标签,A和B两点为白天活动点,C点为夜晚活动点。2)A点为该用户工作地附近的可能性较大,B点以及周边位置点(纬度:32.043841°,经度:118.78541°;纬度:32.05726°,经度:118.770929°;纬度:32.05404°,经度:118.76583°等)距离A点很近,多数仅相距数百米,大概率为该 式(1)中,d为X点和C点之间的距离(单位为m);r=6371.004km,为地球半径;i为某个簇的位置点个数,Xi和Ci是某个簇位置点的位置属性标记,uCi为簇质心点;本文聚类中,||Xi-uCi||以式(1)中d表征。 对夜晚22:00至次日早晨5:00期间位置点进行 两 个 参 数:扫 描 半 径(eps)和 最 小 包 含 点