根据相关专业机构及专业人员的实际应用效果反馈,欧博abg铁路数据在风控策略及助贷业务的客群资质识别都有非常明显的效果。本文详细解析覆盖8亿人的铁路数据,希望可以给到各部门伙伴一定的参考。
目录:
前言
一、覆盖8亿群体的12306历史发展
二、铁路客运用户画像系统
2.1系统总体架构设计
2.2对接系统及数据
2.3数据处理的类型
2.4铁路系统主要数据源分布
三、基于用户行为的用户画像
铁路旅客画像
四、铁路用户画像实现步骤
4.1数据源分析
4.2客票特征数据
4.3客票原始数据
4.4目标分析
4.5标签计算
4.6铁路用户特征
4.7铁路用户出行特性
五、客列车分类【主要关注GCD列车】
高速动车组列车(G字头)
城际动车组列车(C字头)
普通动车组列车(D字头)
直达特快旅客列车(Z字头)
特快旅客列车(T字头)
快速旅客列车(K字头)
普通旅客快车(普快)
普通旅客列车
临时旅客列车(L字头)
旅游列车(Y字头)
六、指标分析逻辑举例
6.1单个指标分析
6.2多指标分析
6.3通过旅客周转量及客流量做分析
6.4通过客运量做分析
6.5常住地界定
七、用户画像系统铁路公司对外应用场景
7.1核验服务
7.2精准营销
7.3业务预测
7.4风险识别
八、用户画像系统的应用
8.1征信服务
8.2用户核验系统
九、铁路数据应用场景及价值
9.1社会价值
9.2经济价值
十、结语
前言在个人金融风控场景,常见的数据除了基础核验外(身份证2要素、银行卡3/4要素、运营商3要素)外,运营商爬虫(现禁用)、央行征信(持牌机构使用较多、助贷机构及金科使用较少)、民间借贷记录、设备行为统计形成的用户画像等,社保、公积金、电商数据由于数据的开放性问题,其实使用的不多。
然后由于最近半年的数据行业的缓存及敏感数据的外泄或与高利贷合作的不良行为,导致主营运营商爬虫及民间借贷记录2类数据产品的机构被查,相关产品无法对外,引起了大部分包括银行在内的相关风控策略的大调整及产品调整。
很多行业的伙伴都在愁,有无什么数据来源合规安全且可以在一定程度上替换运营商爬虫及民间借贷记录数据效果的,航旅及铁路或者是相对有效的。
根据相关专业机构及专业人员的实际应用效果反馈,铁路数据在风控策略及助贷业务的客群资质识别都有非常明显的效果。
之前已经分析过航旅数据,这次详细解析覆盖8亿人的铁路数据,希望可以给到各部门伙伴一定的参考。
铁路数据部分字段维度是这样的:
一、覆盖8亿群体的12306历史发展12306网站于2010年1月30日(2010年春运首日)开通并进行了试运行。用户在该网站可查询列车时刻、票价、余票、代售点、正晚点等信息。
2011年06月12日,京津城际铁路率先试水网络售票。
2011年9月30日,所有动车组线路实施网上订票。
2011年11月20日,Z字头全部直达特快列车车票实施网上订票。
2011年12月23日,铁道部最终兑现在年底前网络售票覆盖所有车次的承诺。
2013年11月20日,12306新增支付宝支付通道。
2013年12月6日,改版后的12306网站上线。
2013年12月8日,12306手机客户端正式开放下载。
自2015年11月26日铁路春运售票工作启动以来,截止12月15日,铁路部门共发售火车票1.7亿张,其中,通过12306网站发售车票突破1亿张,已占到售票总量60%。自2011年推出网络购票以来,12306网站累计发售火车票35亿张。
自2017年7月17日起,乘坐G、D字头列车的乘客可以通过12306网站或客户端提前预订动车上的饭菜以及站外的食物。同时,如果是通过电话、车站窗口、代售点、自动售票机等其他方式购票,也可登录12306网站或移动客户端,从首页选择“订餐服务”,输入车次和联系人信息后,同样能进行点餐,可以通过微信和支付宝实现快捷支付。
另外,已经订好的旅客,如果要进行网上退票、改签、变更到站,系统会自动提醒旅客进行退餐,在实体窗口进行了以上操作的旅客,也可在网上自行办理退餐。【意味着,铁路体系的用户餐饮消费记录最早可以溯源到2017年7月。】
2019年5月,来自中国国家铁路集团有限公司的统计显示,系统年售票量已超过31亿张,日售票能力达到1500万张,高峰时每秒售票量达700张,网页浏览量超过1500亿次/天。互联网售票占铁路售票总量的82.8%,12306已经成为世界上规模最大的实时票务交易系统。【10000次浏览量才有1张票成交,万分一的成交率。这其中应该大多都是抢票软件带来的流量。】
中国铁路客票系统作为全球交易量最大的铁路票务系统,已服务8亿人群,并有3亿12306网站注册用户,2亿12306客户端总装机量。
目前,12306互联网售票占比最高超过80%。
铁路客运快速发展积累了大量数据,这些数据产生于系统运行、业务运营、旅客出行等各个环节,对它们的整合和分析可为管理部门提供决策支持,为运营部门业务开展提供支撑,为旅客用户提供更个性化、更好的社会化服务。因此,充分发掘和利用这些数据资产,可为铁路产生巨大的价值。
中国铁路客票团队从2012年开始进行大数据的应用技术研究,针对数据采集、存储、处理、共享、可视化及数据安全等形成技术积累和人才储备,对客运业务及运营需求进行数据归类、模型建立和经验总结,将技术与应用结合实践,搭建小规模的大数据平台,并在部分业务系统中开展试点应用。
【铁道部是在2011年年底前实现网络售票覆盖所有车次,代表铁路+互联网已初步实现,互联网化过程会产生大量线上数据,这就需要铁路部门开始建设相应的数据治理平台及数据在内部应用的尝试】
二、铁路客运用户画像系统大众出行的工具无非就是自行车、摩托车、汽车、客车、铁路、航空、海运等。铁路作为人们出行的重要交通工具之一,一开始也只是想着或者只提供单一的快速出行服务。但互联网的高速发展、给予了铁路更便捷的购票方式体验,而高速铁路班次的开通为注重出行质量的群体多了一个选择,这样的基础环境下,铁路用户的数量增长很快。
但其实还是会持续面临竞争对手汽运、空运的竞争,并且互联网时代用户都习惯了一条龙的服务。即便是传统的铁路服务也不能不随之升级转变,逐渐往生态合作的方向嵌入出行链前后的产品服务,提升用户体验,提升竞争能力,也为铁路集团延展了更多的收入入口。
例如站车WIFI运营服务、互联网订餐、约车、酒店、旅游等延伸服务系统,延伸服务的开发为铁路客运一站式服务提供了基础。维护客户关系的核心的保障核心服务质量的同时,给与客户出行链条全方位的增值服务。
与之匹配的,将原本的客运决策系统,仅能基于客座率、运行图、旅客出行规律等提供决策服务的,重新升级打造成为增加针对旅客购票行为、出行行为、订餐行为、站车WIFI上网等数据进行深入挖掘的的用户特征的分析系统,满足不同旅客的个性化产品服务需求。
铁路客运用户画像系统对内不仅能够为铁路12306互联网售票系统、站车WI-FI运营服务系统、互联网订餐服务系统等铁路各个系统提供旅客群体分析、用户异常行为发现、客运产品智能精准营销、广告投放等服务,对外可以为第三方企业提供数据核验、精准营销方案等服务。
【旅客群体分析及用户异常行为发现等,其实都需要相关场景板块用户参与频次够多才可以实现,单纯依靠铁路体系的沉淀数据,进展会相对较慢。另外对外服务的产品能力其实是参考运营商体系搭建的,铁路数据核验=运营商3要素核验,铁路客户精准营销=运营商精准营销。从单的客群覆盖率来说,铁路是比任一一家运营商的覆盖都大的,但从频率和维度来说,铁路之前的数据沉淀肯定还是有待提高的。】
铁路客运用户画像系统综合考虑了分布在业务系统专网、铁路服务内网、铁路服务外网等网络中的相关服务系统,构建了安全可靠的数据采集子模块以及数据服务子模块,在保证各铁路客运信息系统正常运行的情况下,能够进行业务数据采集存储,深度挖掘潜在的价值,并将分析结果运用到各个业务系统内,提高各个信息系统的服务质量。
客运用户画像的规划起因:
一方面,铁路企业无法依赖传统的运输服务来分析旅客的特征及分类;
另一方面,随着铁路的竞争对手(航空、公路等)对旅客用户标签特征的越来越重视,这种反差会直接导致铁路高价值旅客的大量流失。因此才有铁路公司自行打造客运用户画像系统的念头。
2.1系统总体架构设计铁路客运用户画像系统需要与铁路12306互联网售票系统、客运营销系统、站车WIFI运营服务系统、互联网订餐系统等进行数据交互,考虑跨网数据传输、设备资源分布等情况,铁路用户画像系统主要在铁路服务内网建设。
铁路客运用户画像系统按照铁路服务内外网安全规范进行建设,利用数据及服务接口通过安全平台组件实现业务系统专网、铁路服务内网、铁路服务外网等部署的相关系统与铁路客运用户画像系统间的数据交换。
2.2 对接系统及数据无论是铁路12306互联网售票系统、客管系统、清算系统、客服系统、财保系统、短信平台、支付平台等客运生产和服务系统,还是来自于客运相关的延伸服务系统互联网订餐、广告和站车Wi-Fi运营服务等系统。由于系统构建的时间不同,采用的技术不同,系统中存储的数据类型和格式也千差万别,要把这些数据都纳入到铁路客运用户画像系统中,经过加工和整理后才能使用。
2.3 数据处理的类型根据铁路信息系统的数据特点,主要涉及的数据来源包括网站和手机交易终端的业务交易数据、网站和手机APP的浏览行为日志数据、线下设备的传感器数据、安全设备的图像视频数据、通信设备的信令数据等。
根据数据的格式分成结构化、半结构化两大类;根据数据来源的业务时效性要求可以分成批量离线运算、准实时分析运算、实时流式运算、实时数据检索等类别。
2.4 铁路系统主要数据源分布作为数据存储和处理的基础平台,铁路客运用户画像系统需要从多个客运生产、服务系统以及延伸服务系统中进行数据采集。
(1)铁路客票发售和预定系统
铁路客票发售和预定系统(简称“客票系统”)主要包含旅客实名信息、铁路客票数据、订票存根等。
铁路客运用户画像系统可以从客票系统获取旅客购票和出行的相关信息。
(2)铁路12306互联网售票系统
铁路12306互联网售票系统为旅客提供了互联网售票渠道,该系统产生了大量的用户登录、查询、购票、支付等日志数据,以及用户的基本信息,包括姓名、身份证号、手机号、邮箱等。
铁路客运用户画像系统可以从铁路12306互联网售票系统获取旅客购票行为方面的信息。
(3)铁路旅客运输管理信息系统
铁路旅客运输管理信息系统(简称“客管系统”)是以客运管理和服务人员为用户,集客运乘务管理、站车交互、旅客服务于一体的综合管理信息系统,实现了旅客运输管理和服务信息的共享。
铁路客运用户画像系统通过接口可以从客管系统获取客运管理和服务方面的相关数据。
(4)铁路旅客运输清算系统
铁路旅客运输清算系统以清算规则为依据,通过创建清算数据库、构建清算模型和规则库进行清算处理,为运输企业提供收入费用的清算和资金结算服务,同时利用智能分析和数据挖掘技术为运输企业提供辅助决策支持。
铁路客运用户画像系统可以从清算系统获取费用清算方面的相关数据。
(5)12306客户服务系统
12306客户服务系统是铁路服务客户的重要窗口,系统采取语音自助、人工在线、网站查询、客户信箱等方式,为社会和铁路客户提供客货运输业务和公共信息查询服务,并受理旅客投诉、咨询和建议,累计了大量的旅客的反馈数据和问题处理方式集。
铁路客运用户画像系统可以从12306客服系统获取旅客咨询、反馈、投诉方面的信息。
(6)铁路财产保险信息系统
铁路财产保险信息系统是为适应铁路保险业务快速发展的需要,以保险核心业务系统、电子商务系统、财务系统为重点,利用既有铁路信息资源,构建的保险信息服务体系,实现了投保、承保、理赔、客户服务等保险业务全流程的电子化、网络化。
铁路客运用户画像系统可以从铁路财产保险信息系统获取投保、理赔方面的相关信息。
【投保理赔方面的数据,用在意外险营销场景比较直接,另外可以根据投保及理赔情况,给与保险机构一定的核保风控参考作用】
(7)短信平台
短信平台与现有交易业务系统紧密结合,提供短信息收发功能,目前主要包括铁路12306互联网售票系统注册用户的注册通知、购票通知、行程通知等数据,有助于提升用户体验和实现精准营销。
铁路客运用户画像系统可以从短信平台获取用户在验证、订票等环节的一些操作信息。
【短信验证码的注册、沟通及行程通知可以明确用户的出行前的行为,只不过无是否真实出行的反馈。因此如果只关注出行前的行为,部分短信运营商的数据库中也可以获取。】
(8)支付平台
电子支付平台为业务系统提供支付功能,支撑客户进行业务办理,如互联网购票、窗口POS购票、办理货运业务等。
铁路客运用户画像系统可以从电子支付平台获取客户办理业务或者产品销售过程中支付环节的相关信息。
【为铁路公司提供支付能力的支付机构,其实可以通过用户在铁路体系的支付行为获取用户的出行频率及次数,在铁路生态体系消费情况,从而对外输出一定的用户相关的铁路标签产品。】
(9)延伸服务系统
延伸服务系统酒店预订、餐饮服务、广告、定制服务和站车Wi-Fi运营服务等子系统,主要包括用户的查询、订阅、广告点击、服务定制等方面的数据,铁路客运用户画像系统可以从延伸服务系统中获取的相关数据。
【延伸服务系统的服务,例如酒店预订这块,除非铁路相关APP的用户粘性很强或者有大的优惠力度,要不然感觉这个业务起量非常难。另外餐饮这块现在就自身体验来看,覆盖率(用户购买率)其实也一般般,原因是受限于用餐时段限制及餐品及价格影响,后续这块如果有优化,或者可以有较大的提升。至于广告等服务的用户数据适合非常垂直的服务场景,与营销推送及风控的场景匹配度还是非常有限。】
(10)外部系统
除上述内部系统外,可以通过接口从气象、航空等外部系统获取主要航线的架次、起飞时间、票价等,重要地区的气象数据等。
三、基于用户行为的用户画像 1. 铁路旅客画像铁路旅客用户画像系统是通过对铁路用户的行为数据、交易数据等进行采集、加工和分析,形成用户精准画像数据,为旅客提供精准服务推荐和个性化的客运服务,对内提升铁路客户服务能力和行业核心竞争力,对外支撑精准广告投放以及开展数据增值服务。
铁路旅客用户画像系统的建立填补了铁路信息化的一项空白,通过对铁路用户的行为数据、交易数据等进行采集、加工和分析,形成用户精准画像数据,支撑精准广告投放和精准服务推荐,为用户提供更个性化、更好的社会化服务,有利于铁路部门提升客户服务能力、提高信息资源收益和核心竞争力。
铁路客运用户画像系统实现了标签体系、标签场景、标签生产、标签输出以及价值分析功能,该系统从用户、时间、标签三个维度构筑铁路客运用户标签,能够整合铁路客运各个信息系统多触点、全渠道的用户数据,进行多维度分析建模,自动化生成用户标签,服务业务场景。这些功能满足了企业对大数据应用全面性、深入性、易用性这三方面的需求。
铁路客运用户画像系统的标签主要从统计方法角度,可以分为事实标签、业务标签、模型标签、外部标签;从标签业务角度,可以分为用户基础标签、交易类标签、出行类标签;从时间角度,可以分为近7天标签、近30天标签、近90天标签、近一年标签等。标签结构如图所示。
四、铁路用户画像实现步骤构建用户画像包含以下步骤:
4.1 数据源分析构建用户画像是对用户行为数据的抽象表示,所以需要的数据源包括用户相关的所有数据。首先针对用户行为数据进行分类,将数据分成静态数据和动态数据。静态数据主要包括人口属性、社会属性、账户属性、商业属性等;动态数据包括访问行为、接触点行为、交易行为等。
【铁路自身的风控系统,针对防黄牛、薅羊毛、恶意抢占票的数据基本都是以动态数据为主】
以下是铁路体系比较全的数据字段,也是铁路数据现在谨慎对外数据产品来源维度。
4.2 客票特征数据购票日期、购票时刻、上车站、下车站、购买席别、购票方式。
4.3 客票原始数据始发日期、车次、运行区间、列车始发时间、上车站、下车站、售票时间、售票方式、席别名、上车人数等;
席别名:特等座、一等座、二等座、无座;
售票方式:窗口售票、窗口订票、网上订票、自动售票、快通卡(京津城际客运专线特有方式);
城市节点信息:城市名称、行政级别、各年城市人口数量等级、各年人均GDP、各年人均可支配收入等;
路网信息:车站数据录入,包括车站名称、车站代码、车站类型、车站等级、车站里程、所属路局、所属城市等;
列车信息:列车开行车次、始发终到站、上车站、下车站及区间运行时间。
4.4 目标分析由于标签和标签规则需要业务专家参与进行制定,所以定义好画像的目标是至关重要的。通过对目标的确定和数据的分析,定义出对应的用户标签(兴趣、偏好、需求等),最终为用户打上标签。同时定义出来的标签根据业务的不同,可以分成事实标签、业务标签、模型标签、反馈标签等类型。
以下标签维度,其实严格来说,仅靠铁路体系的数据肯定是不能完全挖掘出来,因此铁路应该是有接入了其他的用户数据维度或者其投资支线机构有相关的维度数据才能补充完整。
反馈标签:有房一族、有车一族、富豪人群、企业高管、出行达人、价格敏感。
模型标签:高消费人群、目的预测、消费指数、影响力指数、价值评分、潜在分析。
业务标签:旅客定位、活跃度、出行等级、出行规律、接触点、出行喜好。
事实标签:人口属性、社会属性、会员属性、消费习惯、出行记录、出行方式。
4.5 标签计算(1)标签计算模型参考
根据标签的特征,铁路客运用户画像系统标签的计算方法可以分为规则计算、统计分析、归纳总结等,适于规则计算的标签有性别、年龄、籍贯等,可以通过身份证号码识别,统计分析类主要有出行次数、购票次数、出行时间分布等,根据业务规则通过统计计算获得。归纳总结类,主要是根据用户标签属性进一步通过数学模型归纳总结用户属性,如常驻地等。
(2)基础标签计算参考
用户的基础标签主要包括用户的证件号、姓名、手机号、籍贯、年龄、性别等,其中证件号、姓名、手机号等都可以根据用户的实名制信息或者注册信息直接获得。
(3)统计类标签计算参考
主要是根据旅客交易行为数据进行计算,可以获得旅客的交易频次、出行偏好、消费水平等特征的数字化体现,为旅客群体分类提供了重要的数据基础。在铁路客运用户画像系统中,用户的统计类标签主要包括购票次数、退票次数、购票金额、出行里程等,这些标签根据统计周期分为近一年、近9个月、近半年、近3个月、近7天等5大类。
根据旅客的出行、交易、偏好等信息进行计算,以某旅客为例的统计标签计算如下所示:
用户出行标签:近3月乘车总次数、近1年乘车总次数、近1年车费消费总金额、近1年乘车总里程、近1年总旅行时长、近1年乘车总里程。
用户交易标签:近1年订单总数量、近1年交易未支付总张数、近1年作为乘车人退票总次数、近1年作为乘车人改签总次数、近1年车票挂失次数、近1年改签数量、近3月作为乘车人退票总次数、近3月作为乘车人改签总次数。
用户偏好标签:近1年普通席别乘车数量、近1年高端席别乘车次数(软卧、高软、特等、商务)、近1年互联网购票比例、近1年手机购票比例、近1年提前0-24小时购票比例、近1年提前24-48小时购票比例、近1年提前48小时以上购票比例、近1年G等级列车乘车比例、近1年D等级列车乘车比例、近1年C等级列车乘车比例。
特征分析举例,近一年提前0-24小时购票比例判断该旅客出行有无计划及频率占比、近一年GDC等级列车乘车比例判断消费水平、近一年手机购票比例判断手机购票频次等。故通过对旅客统计类标签的计算结果进行分析,可以基于某一个特征或者少数特征组合对旅客进行群体划分。
基于以上铁路用户的基本出行标签数据,金融风控环节如何使用? 营销环节如何形成用户画像?我们先来看看铁路用户数据背后的含义。
4.6 铁路用户特征铁路用户特征主要包括:性别、年龄、收入水平、职业特点(个体商人、企业老板、公职人员、自由职业),家庭环境等因素。
(1)年龄与性别
不同年龄与性别出行者,在出行目的与出行次数上存在差异。年龄介于18-55岁之间的城市居民,其出行目的主要是工作、学习、出差、探亲、旅游、访友等等,并且其出行频率要显著高于其他年龄段的城市居民。女性频率显著低于男性出行频率。随着出行者年龄的额变化出行者对出行时间、出行方式、车次的偏爱会呈现一定的差异。
(2)职业
旅客出行行为的选择将会在一定程度上受到个人职业的影响。按照职业的不同,大致可以将出行者分为自有职业人员、个体商人出差、政府企事业单位等部门的公务员公务出差,以及中低收入者、学生出行等几大类。
比较来看,公务员在出行过程中喜欢选择快速、舒适、安全、高效的出行方式,对于价格敏感度较低,自有职业人员在出行时对价格敏感程度相对较高。学生群体,因为可以半价乘坐火车的原因,则学生中绝大部分更倾向于选择铁路这一方式出行。
(3)收入
收入高低会直接影响绝大出行者的出行行为。不同收入水平阶层的出行者由于其日常生活习惯的不同,出行行为存在着明显的不同。收入较高、经济能力较强者,鉴于其对生活质量的要求,其在出行中更愿意以高价钱获得更好的、更舒适的出行环境。
出行者会在个人经济承受能力与出行需求之间寻找一个相对的平衡点,此外,出行者的出行目的与出行路线的选择也会直接影响其出行行为。
例如不同的收入水平选择的交通工具肯定不一样,同一区间的收入水平的群体选择相同的交通工具的不同档位的服务肯定有区别。
(4)样本年龄及收入结构
这里收集某调研报告中的调查样本年龄分布数据:
调查样本年龄结构:
4.7 铁路用户出行特性出行工具、出行距离、出行目的(工作、学习、出差、旅游、探亲、访友)、出行费用、出行时间。
(1)出行工具
市内:步行、自行车、摩托车、小汽车等。
私人交通方式;常规公交、轨道交通、出租车等公共交通方式。目的:通勤、通学、休闲娱乐、购物、回程等。
城市群城际间出行:公路、铁路、水运、航空及城际轨道交通。城市群一般半径为400KM,公路及铁路更具竞争优势。目的:公务、商务、出差、旅游、探亲访友等。
(2)出行距离
出行距离的长短会直接影响到出行者的出行行为。例如在出行距离较短时,出行者大多会选择自驾、乘公共汽车等公路方式出行,公路出行方式的多样性也使得公路交通方式在短距离出行中具有很大的灵活性。
同时公路广泛覆盖的特点可以轻松实现门到门的便利旅行,而对于较长距离的出行,铁路出行则会作为出行者的首要选择,其主要原因是铁路出行相对比较经济、安全、快速与高校。
在运行速度与舒适程度的大大提高使得更多的人们在800-1000公里左右的出行时转向选择铁路交通,但对于1000公里以上或者更远距离的出行,由于铁路覆盖范围的局限性,使得航空运输占有一定的优势。
(3)出行目的
工作、公务、经商、旅游、出差、访友、购物、探亲等。
不同出行目的的出行者,对交通运输服务指标的要求也存在明显的差异。例如:因公务问题的出行者,对价格的敏感性较小,他们更多的追求出行环境的舒适、高速与安全。而经商出行的出行者,则更加注重到达时刻的准时性,同样的访友、购物与探亲等自费出行目的的出行者,会综合考虑更多的因素,即如何在经济能够承受的情况下选择相对快捷及及时的出行方式。
(4)出行费用
出行费用是出行者在整个出行过程中所支付的所有经济开销的一种综合评估,也是影响出行者选择出行方式的主要因素。出行费用分为出发地的市内交通费用、目的地市内交通费用以及城际间的交通费用三个部分。
以业务出行为主要出行目的的出行者,更倾向于选择小汽车或者高速铁路这样的较舒适与便捷的出行方式,非业务出行的则选择普通铁路或者告诉大巴的概率大一些,。这可能是因为业务出行的费用来源通常为公费,出行者对出行费用不敏感,更加重视旅途上的舒适性与便捷性;非业务出行一般为自费,出行者对出行费用较敏感,更加看重各交通方式的经济性。
(5)出行时间
出行时间分三个部分,出发地市内的出行时间、城际间的出行时间和目的地市内的出行时间。不仅出行的距离影响总出行时间,而且换乘的方便程度也有所相关。
五、客列车分类【主要关注GCD列车】 1. 高速动车组列车(G字头)2009年12月26日起,武广高铁开行23趟列车,依据规定,武广高铁开行高速动车组的车次有个新字母打头,为“G”,寓意为“高速”。目前在设计时速为300公里或350公里的线路上运行时,最高时速为300公里,铁路系统标准念法为“高**次”。例如:G字开头1号车G1001次就是武汉站~广州南站直达列车。
2. 城际动车组列车(C字头)2008年8月1日,京津城际铁路正式对公众运行,新启用车次为C+4位数字,意为城际列车,目前最高时速是300公里,铁路系统标准念法为“城**次”。京津城际的车次范围是C2001~C2282次。例如:武汉城际列车的车次范围是C5001~C5720。
3. 普通动车组列车(D字头)目前,在设计为每小时300公里或每小时350公里的线路上行驶时,最高速度为每小时250公里。当在设计为250公里/小时或200公里/小时的路线上行驶时,最大速度为200公里/小时。
4. 直达特快旅客列车(Z字头)最高速度是每小时160公里,铁路系统的标准代码是“直行时间”。其中大多数是整排软座,少数汽车配备硬卧和硬座,只有一些汽车停在终点站所在的火车站和/或铁路局内的大车站。这种火车是空调火车。
5. 特快旅客列车(T字头)最高时速140公里,铁路系统标准念法为“特**次”。跨局特快全程只停省会城市、副省级市和少量主要地级市等特大站或直达,管内特快全程一般只停地级市。此类列车为空调列车。
6. 快速旅客列车(K字头)最高时速120公里,铁路系统标准念法为“快**次”。全程停靠地级市类的中大站,也有少量直达的。此类列车95%以上为空调列车。其中K1-K2000为跨局列车,K7001-K9850为管内列车。
7. 普通旅客快车(普快)范围是1001-5998,即快速客运列车,停靠在县级市和大多数县级大中型车站,大约有40列这种类型的火车。其中,1001-1998是长途列车跨越3局或更多局的本地列车,2001-2998是跨越2局的列车,4001-5998是短途列车铁路局内的本地列车。
8. 普通旅客列车简称普客,或慢车,正规的说法中没有“普慢”。范围为6001-7598,停靠大部分可以停靠的站点。由于票价低廉,列车基本上“站站停”,很受沿线乘客喜爱。
9. 临时旅客列车(L字头)在客流高峰期间运营的临时快速客运列车停靠在县级市和大多数县级主要车站,铁路系统的标准代码为“临时”。这种火车通常在春夏季和国庆节期间行驶。跨局临时旅客列车通常没有空调,这也被称为“农民工专列”。
10. 旅游列车(Y字头)只有极少数的旅游列车使用这个数字,铁路系统的标准代码是“旅行时间”。其中Y1-Y498是局间列车,Y501-Y998是管内列车。
目前只有北京,天津存在这种列车,运行区间为北京北站~延庆站/沙城站,天津站/北站~宝坻/蓟县。
动车组列车:一等座、二等座、部分列车有商务座;还有部分夜间运行的动车组列车有软卧。
直达特快列车:以软卧为主,部分列车挂有硬卧和硬座或高级软卧;
特快列车:硬座、硬卧、软卧、部分有高级软卧或软座;
快速列车:硬座、硬卧、软卧,很少一部分有软座;
临时旅客列车、普通列车与快速列车基本相同;
城际动车组列车:一等座、二等座;
高速列车:一等座、二等座、商务座。
六、指标分析逻辑举例 6.1 单个指标分析头等舱的多数有钱人;折扣票据的多是普通阶层且提前有计划的,或出游的或定时出差的;当天往返或隔天往返的基本都是商务出行;节假日往返的多是旅游或探亲。
6.2 多指标分析年龄+价格:低年龄+折扣票据属于正常资质用户层;低年龄+正常票价或头等舱的不是富二代就是创业老板;中年+折扣票据的或是旅游客群或是普通阶层;中年+正常票据属正常阶层;中年+头等舱偏老板阶层(公务舱结合分析类似)。
往返地+身份证归属地:目的地与身份证归属地一致的,一般是回家探亲的;出发地与身份证归属地一致的,一般是常驻城市(可结合出发地次数增强判断)。
出行频率+目的地:出行频率高的,目的地基本一样的,基本是商务出行,且属于高端商务了,业务稳定的;出行频率高,但目的地经常变换的,大部分是开拓市场的或者是经常出游的。
另外,铁路出行黑名单可用来判断用户失信行为,能出现在出行失信名单的用户,证明在出行过程中有出现严重的不良行为,那保不准其在真实贷款后,会有不还款或者在催收环节恶意辱骂催收人员的行为。
只不过这部分人群数量过少,出行黑名单是从2018年下旬才逐渐按月公布,每期公布名单一般几百到上千个失信人度等,当信贷公司每天几万几十万的调用过程,只为查询这个几千个航旅失信名单,实际应用价值不大,也会增加中间的查询耗时,影响用户体验。
6.3 通过旅客周转量及客流量做分析2018年每月份全国铁路旅客周转量及客流量
2018年全国铁路客流量为33.75亿人次,旅客周转量为14147亿人公里,人均运转里程为419公里。
2017年全国铁路客流量为30.84亿人次。
2017年全国铁路旅客周转量为13457亿人公里。
2017年全国铁路旅客人均运转里程为436公里。
2018年一到十二月份全国铁路主要指标完成情况表:
这个数据表可以根据当前建模溯源要求自行补充分析,主要是从月份周期中先定位大部分人群的出行目的、家乡位置等,非特殊月份进行商务、出差、通勤的分析会更精确。另外出行人次及公里数在给政府做人口迁徙流动决策分析时比较有用。
6.4 通过客运量做分析2018年全国各大铁路局的客运量排名:
NO.1 上海局(客运量:6.78亿人;客票收入:768亿元)2018年发送旅人人数6.78亿人,(2017年6.28亿人),同比增长7.8%。客票收入方面,2018年768亿元,(2017年703亿元),同比增长9.2%。
NO.2 广州局(客运量:4.7亿人;客票收入:579.5亿元)2018年发送旅客人数4.7亿人,(2017年4.134亿人),同比增长13.7%。广州局旅客发送人数增长量排第一,增长幅度排第5。客票收入方面,579.5亿元,(2017年511亿元),同比增长13.4%,增量第一,增幅第六。
NO.3 北京局(客运量:3.2亿人;客票收入:456.7亿元)2108年发送旅客3.2亿人,(2017年3.07亿人),同比增长4.3%;客票收入方面,456.7亿元,(2017年430.7亿元),同比增长6%。
NO.4 成都局(客运量:2.93亿人;客票收入:289.3亿元)2018年旅客发送人数,2.93亿人,(2017年2.45亿人),同比增长19.4%,增量排名与增幅排名均排第三位。客票收入方面:2018年收入289.3亿元,(2017年222亿元),同比增长30.2%,增幅排第三。
NO.5 沈阳局(客运量:2.37亿人;客票收入:185.5亿元)2018年旅客发送人数2.37亿人,(2017年2.35亿人),同比增长1%;客票收入方面185.5亿元,(2017年178.3亿元),同比增长4%。
NO.6 南昌局(客运量:2.36亿人;客票收入:230亿元)2018年旅客发送人数2.36亿人,(2017年2.22亿),同比增长6.4%;客票收入方面,230亿元,(2017年210亿元),同比增长9.4%。
NO.7 武汉局(客运量:1.84亿人;客票收入:212亿元)2018年旅客发送人数1.84亿人,(2017年1.76亿人),同比增长4.5%;客票收入方面,212亿元,(2017年193.7亿元),同比增长9.5%。
NO.8 济南局(客运量:1.46亿人;客票收入:153.8亿元)2018年旅客发送人数1.46亿人,(2017年1.35亿人),同比增长7.4%;客票收入方面,153.8亿元,(2017年145.4亿元),同比增长5.7%。
NO.9 郑州局(客运量:1.35亿人;客票收入:146.7亿元)2018年旅客发送人数1.35亿人,(2017年1.27亿人),同比增长6.8%;客票收入方面,146.7亿元,(2017年135亿元),同比增长8.6%。
NO.10 南宁局(客运量:1.15亿人;客票收入:99.4亿元)2018年旅客发送人数1.15亿人,(2017年1.03亿人),同比增长12.1%;客票收入方面,99.4亿元,(2017年86.6亿元),同比增长14.7%。
NO.11 西安局(客运量:1.11亿人;客票收入:126亿元)2018年旅客发送人数1.11亿人,(2017年9071.6万人),同比增长22.6%,增幅全路第一,增量2054.7万人,增量也排到了第4位;客票收入方面,126亿元,(2017年96.4亿元),同比增长30.6%,客票收入方面,西安局增幅同样位居第一。
NO.12 哈尔滨局(客运量:1.1亿人;客票收入:82.7亿元)2018年旅客发送人数1.1亿人,(2017年1.12亿人),同比增长﹣1.3%,18个铁路局里面唯一一个负增长的铁路局;客票收入方面,82.7亿元,(2017年80.7亿元),同比增长2.4%。
NO.13 太原局(客运量:7520.7万人;客票收入:50.4亿元)2018年旅客发送人数7520.7万人,(2017年7313万人),同比增长2.8%;客票收入方面,50.4亿元,(2017年45.7亿元),同比增长10.2%。
NO.14 兰州局(客运量:6082.7万人;客票收入:56.99亿元)2018年旅客发送人数6082.7万人,(2017年5006万人),同比增长21.4%;客票收入方面,56.99亿元,(2017年48.74亿元),同比增长16.9%。
NO.15 昆明局(客运量:5463.5万人;客票收入:56.9亿元)2018年旅客发送人数5463.5万人,(2017年4759.6万人),同比增长14.7%;客票收入方面,56.9亿元,(2017年43.6亿元),同比增长30.5%,客票收入增幅排名第2。
NO.16 乌鲁木齐局(客运量:3802.5万人;客票收入:51.2亿元)2018年旅客发送人数3802.5万人,(2017年3557.9万人),同比增长6.8%;客票收入方面,51.2亿元,(2017年46.3亿元),同比增长10.7%。
NO.17 呼和浩特局(客运量:3566.6万人;客票收入:24.7亿元)2018年旅客发送人数3566.6万人,(2017年3467万人),同比增长2.8%;客票收入方面,24.7亿元,(2017年24.2亿元),同比增长2.3%。
NO.18 青藏铁路公司(客运量:1636.4万人;客票收入:21.5亿元)2018年旅客发送人数1636.4万人,(2017年1480.3万人),同比增长10.5%;客票收入方面,21.5亿元,(2017年19.9亿元),同比增长8.1%。
以上罗列的数据目的是找出铁路出行频率最高的城市集群,然后结合城市集群的经济发展及就业工资分布,可以交叉获取群体的资质能力。出行频率不高的城市集群或者是线下金融机构可以考虑的布点选择或者通过其他出行工具数据补充轨迹信息,获取群体资质能力。
6.5 常住地界定根据联合国经济和社会事务部统计司在《人口和住房普查原则与建议》中的建议,常住地可按照以下标准界定:
在最近12个月的大部分时间一直居住的地方,不包括因度假或工作引起的短暂出行;
至少在最近12个月一直居住的地方,不包括因度假或工作引起的短暂出行。
旅客出行一般是从常住地出发经过一个或多个目的地后返回常住地,完成一次出行。对于普通旅客,旅客在目的地的停留时间要远小于在常住地停留的时间。铁路出行数据可以描述旅客乘坐火车的出行轨迹,通过分析旅客的出行记轨迹、在目的地的停留时间,利用逻辑判断、概率计算等方法可以判断旅客每次出行的起点,从而可以利用旅客一年以上的出行数据推断旅客的常住地。
基于出行数据识别常驻地:
利用铁路旅客出行数据推断常住地信息,受出行数据质量影响,影响因素主要有:
出行次数过少:部分旅客在统计周期内的通过铁路的出行次数过少,不能形成有效的出行回路,无法在出行起点与出行终点之间确定常住地,这些旅客的常住地不能通过铁路出行数据进行识别。
行程不连续:综合交通背景下,旅客可组合多种交通方式完成出行,导致铁路出行数据在整个行程上是不连续的,该类型旅客需要结合其他交通方式的出行数据进行判断。
多出行起点:铁路出行数据可能构成多个出行回路,旅客出行时可能存在多个不同的出行起点,该情况下可选取比重最大的出行起点作为常住地。
目的地最大停留时间:根据不同的出行目的,旅客在目的地的停留时间一般会有一个时间上限,当旅客在目的地的停留时间过长时旅客可能存在多个常住地,该情况有效无法识别旅客常住地。
七、用户画像系统铁路公司对外应用场景铁路互联网售票系统上线以来注册用户已经超过3.5亿,乘车用户超过8亿,每天都产生海量的用户行为日志数据。随着铁路12306互联网售票系统,站车WIFI运营服务、广告平台、互联网订餐等系统数据的不断规范和收集,数据中已经囊括了铁路客运多年的运营数据,包括对客票产品的清晰描述和定位、对旅客的行为收集可达“可视化”程度、对延伸产品的转化的理解等方面,急需从平台囊括的万千数据中,借鉴当前互联网产品的发展模式,找寻适合铁路发展的数据增值应用,提高铁路客运的整体效益和服务水平。
铁路客运用户画像系统实现对全路局交通场景的信息以及延伸服务产生的数据进行交互、汇集、共享,通过数据清理和挖掘分析,为各种铁路客运服务系统进行资源管理、分析与服务提供支持。同时,根据具体的客运业务系统的需要,进一步开发扩展支撑功能。
增值服务主要针对六个方面:核验服务、精准营销、业务预测、风险识别、征信服务。它们都是构建在精准刻画的用户画像的基础之上,其往往存在目标人群定位不准确、轻视用户行为两个问题。而我们的目标是建立精准的“用户画像”,以来支撑构建出准确的用户分群和利用机器学习算法构建的精准营销(个性化推荐)系统、预测系统、风险识别系统、征信服务系统等。
7.1 核验服务2015年年底央行发布的《非银行支付机构网络支付业务管理办法》。这份新的非银支付管理办法于2016年7月1日起正式实施。其要求支付机构为客户开立支付账户的,应当对客户实行实名制管理[45]。
无论从保障消费者权益、防范非法活动、降低支付风险、促进行业发展等那个角度来看,第三方支付实名制都是一件利国利民的好事。但在推行和实施的过程中,无论监管机构,还是支付机构,如能更好的兼顾用户体验,才能把好事办好。毕竟第三方支付行业胜在高效的支付效率和较低的用户交易成本,而差的用户体验必然增加用户交易成本甚至降低支付成功率。这无疑不利于仍然处于起步阶段的网络支付行业持续发展。
忙于响应监管、却疏于兼顾用户体验,支付宝、微信支付等主流第三方支付平台近期对于实名验证流程的大步推进,也让不少用户不由叫苦。各第三方支付平台急切需要简化用户核验流程,在提高用户体验的情况下完成用户的核验,故需要借助外部系统提供的核验服务。
而铁路为了保障铁路旅客生命财产安全,维护旅客运输秩序几年前就开始实行实名制,旅客通过互联网、电话等方式购票时,购票人需要提供真实准确的乘车人有效身份证件信息;取票时,应当提供乘车人的有效身份证件原件或者复印件。
目前铁路互联网售票系统注册用户突破3.5亿,乘车旅客信息超过7个亿,全部旅客信息都是通过实名制核验的。所有的数据都是真实可靠的,所以铁路客运用户画像系统可以对第三方服务平台提供身份核验服务,发挥铁路旅客数据的价值,降低第三方支付平台实名制实施的难度。
当然铁路的身份核验服务肯定不如公安部的身份核验服务覆盖率、准确性及时效性,对于一些非涉及资金及敏感信息的场景,铁路的身份核验服务可以使用。
7.2 精准营销对于互联网的营销原本就属于数据驱动的领域,大数据更是提供了一个前所未有的机会,以大数据为基础的智能营销是行业发展的必然趋势。
近几年为了满足旅客现代化、多元化、全行程、综合性的出行服务需求,提高铁路整体形象,按照“统一规划、协同建设、分级管理、资源共享”的组织原则,建设铁路客运延伸服务系统,开展餐饮服务、酒店预订、旅游预订、定制服务、行程信息服务、站车商业、体验店等围绕旅客出行的业务服务和各业务销售渠道的广告管理业务。
随着铁路延伸服务的不断完善,铁路客运互联网产品个数和种类快速增长,信息过载是铁路客运大数据环境下最严重的问题之一。这种浏览大量无关的信息和产品过程,无疑会使淹没在信息过载问题中的用户不断流失。
推荐系统作为有效缓解该问题的方法,受到工业界和学术界越来越多的关注。如何充分利用丰富的用户反馈、社会化网络等信息进一步提高推荐系统的性能和用户满意度,成为大数据环境下推荐系统的主要任务。用户需要花费大量的时间才能找到自己想买的产品。
根据旅客的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。为了解决这些问题,铁路客运用户画像系统需要构建个性化推荐系统。
该系统是建立在海量用户画像系统的应用数据挖掘基础上,进行准确定位产品与用户关系的智能服务系统,常见的算法有:协同过滤、基于内容的推荐、基于人口统计学的推荐,为了兼顾各个算法的优点,采用混合推荐算法,为铁路延伸服务系统传入不同推荐算法的推荐的产品列表,以帮助铁路延伸服务为其用户购买产品提供完全个性化的决策支持和信息服务。
7.3 业务预测(1)旅客流量预测
铁路以其运量大、速度快、低效能、污染少、安全可靠等不可替代的优势,逐渐成为了城市间公共客运系统的骨干架构。然而,单一地考虑某一条线路的走向、站点位置,而未从全局整体规划考虑,就不可避免的造成资源的浪费。
铁路客运为了保持市场竞争力,实现利润最大化,需要了解日常铁路客运流量、淡旺季变动指数、冷热门线路。其中,为了准确把握市场,需要对客流进行充分的了解和预测。
(2)餐饮服务预测大数据应用显现出巨大的经济价值。
正是由于餐饮行业竞争激烈而又利润微薄,要想成功实属不易,不少餐馆开始转向大数据以获得竞争优势。而对于餐饮业,大数据的关键在于数据分析的能力,有效的数据分析能力才可能产生高质量的结果。良好的数据资产将成为未来核心竞争力,一切皆可被数据化,铁路客运系统目前服务的用户量已超过7亿,每天会产生大量的数据,这些数据的积累,有助于企业进行预测和决策。
基于铁路客运用户画像系统收集的用户行为数据,通过深入分析,用户的基本信息、消费频次、点菜口味、消费水平等都会被发现,并将其进行提炼,分析有助于企业进行预测和决策,并将其运用到餐饮行业“进、销、存、管理运营”等四个重要节点。
(3)酒店服务预测
市场预测是酒店开展收益管理工作的基础,其主要作用是为酒店收益管理人员获取市场信息、掌握未来市场的需求变化情况,分析顾客的消费行为、实施客房预订与存量控制,价格决策以及确定超订量等提供必需的数据。同时,也为酒店管理者制定市场战略和进行市场决策提供重要的参考依据。
(4)旅游服务预测
旅游行业是大数据应用前景最广阔的行业之一,对用户的行为分析,可以准确预知客流趋向,进而采取相应的措施疏导客流。可以知道游客喜欢什么样的产品,进而开发建设适销对路的产品;还可以知道游客需要什么样的公共服务,进而改进旅游公共服务。
通过铁路客运的海量用户行为数据,进行数据挖掘,可以准确的分析出旅游的客源市场在哪里、哪些产品是消费者关注的,这就为精准营销提供了重要的数据支撑。
7.4 风险识别(1)异常购票用户识别
为了识别异常用户主要使用两种方案:用户与客票系统交互日志;用户常用联系人之间的关系网络。
用户行为日志作为铁路互联网售票系统提供服务过程中,用户与系统交互过程中产生的有关用户访问行为的数据,日志数据详细描述用户对互联网售票系统的使用情况,通过对海量的购票日志数据进行数据分析,挖掘并提取出用户异常购票行为特征,建立规则库,根据规则识别出异常购票行为。
基于用户的常用联系人构建关系网络,识别出异常用户的子拓扑图,根据识别出的子拓扑图在全量用户及常用联系人的关系网络中进行相似度计算,识别出危险性较高的用户。
通过离线分析识别出异常购票行为和异常购票用户的识别模型,当用户在铁路互联网售票系统购票过程中,实时的收集该用户的行为日志数据以及基本数据(个人信息、常用联系人信息等),并与离线分析出的识别模型进行匹配,从而达到实时的管控和打击黄牛党刷票等行为的目的,维护了互联网售票交易的公平性。
(2)羊毛党识别
羊毛党以多种形式存在于网络里。虚拟多台电脑设备并使用IP欺骗的方式,用软件同时控制多台智能终端做为肉机,在社区软件里组成关联群、招聘“兼职人员”等等,专业的羊毛党可以用极低的成本获取极高的收入,致使许多电商、O2O平台损失惨重,甚至被搞垮。
运用技术手段,在注册环节减少恶意软件的入侵;提高领取门槛;完善用户的信息审核,邀请用户填写仔细的个人资料,锁定IP,设定最大阈值的注册量,通过相关历史数据,对已注册用户进行比对,通过规则对其进行识别等。
八、用户画像系统的应用 8.1 征信服务大数据的发展对征信发展起到了非常大的促进作用,征信最早起源于消费分期,没有定量的描述。进入大数据时代,用户的行为数据得到了沉淀和积累,可以使用机器学习和数据统计的模型来计算和评估用户的信用,从而促进社会诚信建设的快速发展。
通过铁路客运用户画像系统建设和机制安排,将旅客的购票、订餐、酒店预订、旅游出行、广告点击等信息记录下来,使之规范化、数字化、公开化,变无规律为有规律,变不可考为有证查,变不可知为能可知。
大数据征信面对的是铁路客运所有的旅客行为数据以及上千个维度的评价指标。为了对铁路客运浩繁复杂的数据进行实时、自动的挖掘和计算,铁路客运用户画像系统借助互联网、大数据、云平台等新技术,需要创建一套以全路数据挖掘、旅客信用计算、对外服务三大核心技术为支撑的大数据征信模式,实现了旅客行为数据采集,行为信用计算的一体化和全自动化。不仅能够为铁路客运提供服务,也可以跟其他企业进行信用业务共享。
在金融风控及用户分层场景,部分金融公司在建模过程也获得不错的反馈。特别一些P2P业务客群通过铁路的标签识别出相对优质的小部分客群,然后对这部分客群往银行等优质金融场景导,其实也是在助贷业务做铺垫。
8.2 用户核验系统用户核验系统主要是根据铁路客运用户画像系统计算出的用户标签为第三方提供用户身份核验服务,发挥铁路旅客数据的价值,降低第三方支付平台实名制实施的难度
设计用户信用值计算模型。目前第三方软件以“预付可提高排名”,“专享100M提速光纤”……为“噱头”,吸引了大量的用户借助其进行购票,严重的影响了公平公正的购票环境,为了打击非正常购票用户,上线了风控系统。
然而目前风控系统只是根据用户登录IP更换频率、设备指纹更换频率、余票查询频率、CDN地址更换频率等角度实时的识别异常请求。海量的历史数据还没有进行更深一层的分析,还不能有效的挖掘出历史数据的潜在的价值,后期可以根据用户画像系统提供的用户的行为特征数据,设计用户购票信用值模型,预测用户恶意购票的指数,并对接风控系统实现异常用户识别的模型,同时从离线和实时两个方面更加高效的识别异常用户。
九、铁路数据应用场景及价值以下围绕铁路数据在社会及经济2个维度,简单罗列相应的应用场景供参考。
9.1 社会价值(1)为政府部门提供宏观经济分析报告
铁路客流大数据及货运大数据均体现覆盖区域的人口流动及经济变动情况,形成全国或区域化的宏观经济分析报告,可为政府部门提供全国及区域经济变动情况,辅助政府部门实施更精确的宏观经济调控策略及手段。
(2)与执法部门实现联防联控
铁路大数据已覆盖全国超过8亿的人口,是人民群众出行的主要交通工具,因此铁路部门可以与执法部门联通,联防联控,及时发现犯罪分子的踪迹,实现快速精确打击抓捕犯罪分子的目的,保障铁路出行安全及社会稳定。
(3)助力智慧城市的发展
通过对铁路大数据的挖掘分析及提取,通过XXX打通各部委数据,打造适合智慧城市需求的数据产品,助力智慧城市的发展,实现对城市的精细化和智能化管理,从而减少资源消耗,降低环境污染,解决交通拥堵,消除安全隐患,最终实现城市的可持续发展。
(4)打造包括铁路、高速、国道及海事等全面的交通运输信用体系
通过整合共享公路建设、水运工程建设、道路运输、水路运输、安全生产、海事执法,以及铁路、民航、邮政等领域的信用信息,与全国信用信息共享平台、国家企业信用信息公示系统等国家级平台进行对接共享。推动奖惩信息在行政许可、招标投标等业务系统中的应用,加快构建“守信者无事不扰,失信者利剑高悬”的奖惩格局。
(5)打造铁路智慧供应链,支撑实现货运跨界收益
铁路智慧供应链利用铁路物流平台,实现上下游供应链及并行的商贸或生产供应链间的资源配置优化,促进物流服务产业链直接相关的商贸及供应链金融服务体系融合,并将通过“运贸融一体化”来获取跨界收益。
(6)为优化交通接驳设施提供决策支持
不同区域、不同季节、不同时间的铁路客运量是不一样的,针对铁路客运数据的统计分析,为各站点所在城市的交通部门提供交通接驳设施安排及规划,为乘客带来从铁路出口直达城区中心或各景点区域地带的无缝链接交通乘坐体验。
(7)为打造旅游景点选址提供铁路热力数据支持
政府或投资机构可以选择全国铁路乘客热力数据,从人口集中游玩的区域中挖掘适合打造新的旅游景点的数据支撑,或者为扩充景点区域提供可靠游客流量数据支撑。
(8)为政府实现流动人口监测提供人口流动数据做参考
外来人口大部分都是通过铁路运输实现的,特别是长距离迁徙。而外来人口是各个城市都需要重点关注的,不管是短期游玩还是长期居住。因此铁路的客流数据可以提前告知各个城市监管部门,提前做好外来人口的流动监控。
(9)为物流园区科学布点规划提供运力数据参考
铁路历年货运数据可以支撑货运起始地、中转地及目的地三地的物流园区选择,实现铁转路或路转铁的运力调配最优,降低运输链条上各企业的物流运输成本,提高装卸货及运输的效率。
(10)为物流公司提供铁路运输信用体系的不良运输企业名单,降低合作风险
铁路运输体系中涉及的关联运输企业数量众多,这个合作过程中产生的不良运输企业名单,可以为各物流公司在选择合作伙伴时及时发现潜在风险,降低合作后的损失。
(11)为商业车险保费定价提供相关决策支持
商车保费定价中行驶里程、约定行驶区域、车型、投保车辆数、绝对免赔额等都会影响其定价,与铁路货运长期合作的车辆行驶区域相对稳定,里程也比较清晰,有利于车险公司实现更精确的车险保费定价。
9.2 经济价值(1)为保险机构提供经营决策支持
保险机构根据存量客群在保险机构及铁路场景的活跃度,根据年龄、性别、舱位等级、频次及出发到达地点等维度,打造不同保费、保额及保期的出行意外险甚至健康险或寿险等,实现千人千面千险的产品创新,满足不同保险客群的实际保障需求。
根据中国银保监会发布的2018年保险数据统计报告显示,2018年保险业新增保单件数290.72亿件,同比增长66.13%。其中,寿险本年新增累计保单0.89亿件;健康险32.01亿件,增长417.28%;意外险64.99亿件,增长168.51%。
寿险、健康险及意外险年新增保单约98亿件,均主要是与人相关的险种,因此在做营销画像可借助铁路大数据达到更好的效果。假设保险机构20%的客户是通过铁路大数据优化经营决策转化的,每次调用接口费用3元,则可为中铁带来58.8亿元的年收入规模(铁路大数据单次使用总费用按3元,以下例子同理)。
(2)满足保险机构投保反欺诈需求
保险反欺诈主要针对车险及寿险产品,通过对铁路大数据各维度的挖掘,结合外部风险数据,综合判断新增投保及存量续保客户是否有投保欺诈行为的潜在风险。
而2018年寿险本年新增累计保单0.89亿件,车险4.48亿件,假设其中20%的保单的反欺诈是通过铁路大数据实现的,则可为中铁带来3.2亿元的年收入规模。
(3)为旅游机构提供经营决策支持
2018年国内旅游55.39亿人次,而国家铁路旅客发送量完成33.17亿人次。铁路旅客人次少于旅游人次,则可以铁路人次数据作为评估标准。假设铁路人次中有80%是通过铁路出行旅游的(剩下20%为非旅游需求),则也有26.5亿人次,其中平台20%的用户通过通过铁路大数据优化经营决策转化的,则可以带来15.9亿元的年收入规模。
(4)为银行机构提供经营决策支持
随着居民可支配结余资金的稳定增长,国人们对理财的潜在需求在持续提升。同时,互联网网民人数稳定增长以及支付技术的快速发展等为互联网理财的发展提供了基础。
截至2018年12月,我国购买互联网理财产品的网民规模达1.51亿,则各大平台需要对共15亿的注册用户进行资质分层才能知道哪些是优质客群(转化率按照10%反推计算注册用户数量),则可为中铁带来45亿的年收入规模。
(5)为电商平台提供经营决策支持
截至2018年12月,我国网民规模为8.29亿,假设电商平台用户基本覆盖网民,则电商平台用户总数也为8.29亿元,如每人每年需要消费一次,电商平台需要对这些用户进行资质分层,判断该向平台用户推送什么产品。假设平台20%的用户通过铁路大数据优化经营决策转化的,则可带来近5亿的年收入规模。
(6)为教育机构提供经营决策支持
2013年至2017年,毕业生总数从700万人增至800万人,年复合增长率为3.3%,并将于2022年达到930万人。不断增长的高校毕业生总数使其求职竞争更加激烈,毕业生们对职业技能培训的需求增加。
截至2018年上半年,在线教育人数达1.72亿,按照年30%的增长率,新增部分人数是通过铁路大数据优化经营决策转化的,则可带来1.5亿元的年收入规模。
(7)为酒店平台提供经营决策支持
截至2018年12月,在线旅行预订用户规模达4.10亿,较2017年底增长3423万,增长率为9.1%,占网民整体比例达49.5%。网上预订机票、酒店、火车票和旅游度假产品的网民比例分别为27.5%、30.3%、42.7%和14.5%。则酒店在线预订用户数量有近1.24亿人,假设其中平台30%的用户通过铁路大数据优化经营决策转化的,则可带来1.1亿元的年收入规模。
(8)为网约车平台提供经营决策支持
截至2018年12月,我国网约出租车用户规模达3.30亿,假设其中平台30%的用户通过铁路大数据优化经营决策转化的,则可带来2.97亿元的年收入规模。
十、结语除了以上场景外,现在使用数据比较成熟也比较愿意花钱的,其实都是金融或与金融相关的风控场景、然后才是营销获客的客户分层场景。而风控场景除了公安、银联、运营商及设备数据算是比较易得及实现比较多外,包括铁路数据这些国有数据,99%的风控人员都基本没接触过,更别说运用在风控建模上了。
而现在大数据行业的发展已经是国家重点推进的,因此可用的数据维度其实会越来越多,不仅风控人员不仅需要时刻关注,并了解更多新的有效数据。各行各业与数据相关的其实都需要关注不同数据的应用逻辑,保持数据应用敏感度,这才可以将可得数据在合规的前提最快的应用起来,不管对内还是对外。
主要参考材料:
基于出行全过程的旅客城市群出行方式选择,研究基于大数据的铁路客运用户画像系统研究及应用
基于计划行为学的旅客中长距离出行方式选择行为研究
基于客票特征数据的我国高速铁路旅客出行行为分析研究
基于铁路出行数据的旅客常住地智能识别算法研究