您好,欢迎来到派智库! 手机版|微博|设为首页|加入收藏

派智库

今天是:

主页 > 评论 > 中国经济 > “互联网+税务”推动税收大数据分析的路径选择

“互联网+税务”推动税收大数据分析的路径选择

发布时间:2017-07-10 作者:派智库 来源:税务研究 浏览:【字体:

[摘要]2015年9月30日,国家税务总局印发《“互联网+税务”行动计划》以来,各地税务机关展开了以“互联网+税务”为主题的大胆创新和生动实践。同时,随着《“互联网+税务”行动计划》以及金税三期工程的全面推广,金税三期工程与"互联网+税务"开始融合,逐渐形成以税收大数据分析为支撑的现代化决策机制。税收大数据分析是系统工程,本文基于目标任务、组织数据、构建模型和结果评估四个方面,系统地论述了构建税收大数据分析引擎的通用路径,分析了各阶段的核心要素,并对推进税收大数据建设提出了建议。 dedecms.com

  (中经评论·北京)2015年9月30日,国家税务总局印发《“互联网+税务”行动计划》以来,各地税务机关展开了以“互联网+税务”为主题的大胆创新和生动实践,主要体现在社会协作、办税服务、发票服务、信息服务、智能应用五个方面,形成了很多好的经验、做法,但在税收大数据应用方面稍显不足。须知,“互联网+税务”依靠大数据推动才是根本所在。“互联网+税务”促进了税收大数据的发展,税收大数据的核心是税收数据分析,税收数据分析的目标是智能分析,所以在税收大数据分析方面应该有所突破。
  
  多年来国家一直在提倡信息管税,税务机关已经和纳税人之间建立了数据沟通的渠道。当前税务机关所掌握的企业微观数据的数据体量以及精细度无与伦比,且具有持续获取的优势,随着金税三期工程的全面推广,税收数据采集将更加规范、标准。下一步,开始往互联网拓展,将形成更为广泛、全面的税收大数据集,为税收大数据分析奠定良好的基础。税收大数据的分析是税收数据深入利用的引擎,税务机关应把握互联网+大数据发展机遇,探索税收大数据分析的方向和重点,形成以数据分析为支撑的现代化决策机制,服务于国家、社会和个人。

织梦好,好织梦


  
  一、现状分析
  

  大数据的目标是产生价值,产生价值的推动力是分析,分析方法是税收大数据的重要因素。长期以来,税务工作中的数据分析,常见的形式有报表浏览、简单查询、复杂查询、税负分析、收入预测等,其一般应用特征是基于汇总、分类简单计算基础之上的原始税收数据的展现和对税收现象的一般描述。金税三期工程的管理决策模块,包含政策评估、税源分析、纳税遵从、征管状况、绩效管理等,也常常依赖于数据分析的过程。而现有的分析方法大多是指标法。通过分行业指标、分税种指标以及延伸出的指标组合、联立指标、指标特征库等进行分析,固然有些成效,但囿于指标法本身的缺陷,难以全面深度刻画事物特征,导致税收征管工作耗时费力,从反馈情况看并不令人满意。当然,上述问题有客观条件限制,一直以来税收数据分散于各自的独立系统之中,要想实现普遍的、全面的、实时的、可跟踪的、精确的、模拟计算的、复杂模型的综合数据分析,显然不现实。伴随金税三期工程的全面推广以及大数据的到来,税务机关推出了“互联网+税务”行动计划,在升级金税三期工程的基础上通过互联网连接税收征纳双方,将诸多的税收业务移交线上,通过互联网、物联网等新兴感知技术采集数据、第三方信息以及互联网信息,有机整合形成税收大数据,使数据分析的思路和方法日益创新、日益丰富,为税收大数据分析创造了良好的条件。税收大数据分析是未来税务决策支持的基础,也是税收信息化发展的必然选择,更是“互联网+税务”的核心命题。如何进行税收大数据分析?本文从目标任务、组织数据、构建模型和结果评估四个方面,系统地论述构建税收大数据分析引擎的通用路径,分析各阶段的核心要素,并对推进税收大数据建设提出建议。 织梦内容管理系统
  
  二、总体思路
  

  即便是“互联网+税务”,所产生服务的价值也应该有具体的对象,要与所解决的问题紧密相关,否则所输出的价值意义不大。所以,税收大数据分析应该以解决问题为导向。首先,应设定明确的目标任务,引导整个数据分析的流程。其次,应围绕目标任务组织数据,对数据进行整理、加工、清洗、整备,形成可供分析的样本。脱离主题盲目采集数据是不可取的。数据整备之后,要根据业务要求和数据状况,构建合适的模型,形成分析方案。最后,要对整个数据分析的过程以及结果进行评估,将评估结果进行反馈,让模型进一步优化。
  
  模型只有在反复迭代的实践中不断优化升级才会逐渐成熟好用。总结起来,税收大数据分析应遵循四个过程:目标任务、组织数据、构建模型、结果评估。这四个过程是顺序渐进的综合闭环系统,能将税收大数据分析过程构成连续封闭和回路且使分析活动维持在一个平衡点上,让分析过程在循环积累中优化成长,源源不断地输出价值、产生服务,促进税务生态健康持续发展。
织梦好,好织梦

  
  三、路径设计
  
  (一)目标任务
  
  
考虑到税收的特殊地位,税收大数据的分析人员需要了解国家的经济政策,关注税务工作动态,熟悉税收征管流程,精通税务实操业务。如此,才能审时度势地提出税收大数据分析的目标任务,从最重要、最紧急、最能产生效果的环节开始,确定分析主题、明确分析边界。然后,考虑落地的客观环境,本着实事求是的原则,从现有可控的资源,将问题划分为可管理、可解决的组块,形成可落地的方案。当然,实现税收大数据分析的任务非常具体,在提出分析任务之前应作统筹安排考虑,否则再好的任务目标也会落空。
  
  (二)组织数据
  
  
数据是分析的关键要素,因为数据所蕴含的信息制约着数据分析的结果。组织数据应本着科学严谨的态度。税收大数据分析需要的是有价值的涉税数据,互联网+时代的税收数据大于金税三期工程税收征管的数据,应以税收征管数据为基础逐渐扩大数据外延,理清税收大数据的来龙去脉。这是一个持续改进的过程。从目前看,考虑到税务机关获取数据的难易程度以及数据的价值密度两个方面,涉税数据分布在以下四层级: 内容来自dedecms
  
  第一层级是税务登记信息。税务登记信息是税务机关掌握的纳税人的基础数据。凡是与税务打交道,首先应进行税务登记。税务机关通过税务登记界定纳税人的时间、地域、行业、经济类型、规模等属性,相关的变动也应该在法律所规定的范围内进行变更登记,如此便形成了纳税人的基本信息。
  
  第二层级是申报、征收、发票等信息。申报信息是围绕不同税种所采集到的申报项,比如企业所得税申报表及附表、增值税申报表及附表等。
  
  申报信息是涉税的必填项,它直接反应企业的税务活动,在税收大数据分析中非常有用。征收信息主要反应企业实际入库税款的明细情况以及退库的情况,是税务活动所形成的结果信息。发票信息是企业发生交易的票证,反应企业的上下游关系以及企业的交易行为,其所记载的税务活动颗粒度较细,是未经加工的原始数据,信息密度大,是税务大数据分析的金矿。另外,稽查信息、执法信息等反应部分纳税人与税务机关的交互信息,可以辅助性地使用,也可以作为税收大数据分析筛选好坏样本的依据。 copyright dedecms
  
  第三层级是凭证、账本、财务报表等信息。这些信息是纳税人生产经营活动、交易活动、社会活动、投融资活动所形成的凭证、账本、资料、报表以及以财务活动为核心所形成的资产负债表、利润表、现金流量表、所有者权益表等。以上活动行为是企业形成税务关系的基础,是税收大数据分析的支撑。
  
  第四层级是围绕企业生产经营的采购、生产、物流等最原始、最底层的信息。该部分数据的获取难度较大、价值密度较低,围绕数据的特征描述以及分析的对象不好界定,但数据轨迹是客观的,信息不易篡改、真实性高,是税收大数据分析的目标。
  
  通常认为,大数据分析也应该有个基本集。
  
  上述数据应属于税收大数据分析的基本集,而税收征管的数据是经过历史积累、历经实践的税收数据,是税收大数据分析的核心集。由此可见,在税收大数据时代,强化税收征管数据质量,建立健全分析数据质量评价体系,依然是重中之重的基础性工作。如此,才能保障税收大数据分析的质量和效果。 织梦好,好织梦
  
  (三)构建模型
  
  
模型是对现实世界抽象的方法论,模型构建得好坏是税收数据输出价值质量的关键。通常而言,模型构建者应对数据分析的方法或算法有总体上的了解,掌握每一种模型所要表达的思想,以便更好地选择或重构模型。在税收数据分析中,没有最好的模型,只有更适合的模型。所以,至少要了解常用的模型以及每种模型的应用场景以及优劣差异点,通过反复实验比较模型的效果。模型选择的原则要兼具操作性、实用性。由于模型本质上是人类智力的产物,所以模型构建者应该储备以下能力:一是计算机、统计学、数学基本原理和常识;二是对税收法律法规、征管体制、业务流程等比较了解;三是熟练使用一门数据挖掘工具。税收大数据分析构建模型应遵循“指标集--模型群--指标集”的闭环原理。实践证明,模型构建要落实到具体指标上,才有利于解读最终结果。条件允许的话,应该考虑构建基于组合算法群的原理构建模型,发挥群策群力的优势。一个模型所得出的结论往往是偏颇的,通过多个角度构建模型,结论会相对科学、公正,会更加逼近真实值。税收数据分析,除了指标法,常用的方法区分为经典方法、传统方法和前沿方法。 内容来自dedecms
  
  经典方法,诸如税收收入能力测算法、样本推算法等。经典方法起源较早,理论研究比较深入丰富,国内外许多专家学者和实务部门运用经典方法的案例较多,得出的结果认可度较高。经典方法所提供的思维方式,以及对税收数据分析研究方面深厚的理论积淀,是值得我们充分借鉴的。传统方法,包括主成分分析、因子分析、层次分析法(AHP)、逻辑斯蒂回归(Logistic)、托宾模型(Tobit)、数据包络分析(DEA)、随机边界(SFA)、差分自回归移动平均模型(ARIMA)等。传统方法的理论研究和测算方法使用都比较成熟,侧重于统计上的理念,专家、学者或实务部门习惯使用。但是传统方法建模手段单一,难以全面考虑问题,对事实的描述不准确,挖掘深度不够,结果的准确性、区分度不高,在税收工作中难以推广应用。当然,在条件允许的情况下,传统方法可以佐证分析的结果。前沿方法,随着大数据到来,诸如神经网络、决策树、boosting、bagging、支持向量机、随机森林、分层聚类、K均值聚类、聚类、关联规则分析、贝叶斯网络等以机器学习为主的方法开始引起重视。机器学习法具有自适用、自完善、自学习的特征,随着数据的更新、以数据为导向构建模型,不受数据体量、指标数量的限制,对数据质量的容忍度较高,符合大数据的需求。但由于发展初期,运算过程中对模型的调试、校准、验证和后期的完善对专业的要求较高,常常需要编写计算机代码实现数据的处理、模型的构建以及结果的展现。特别是以数据为导向的机器学习法,不通过税收业务逻辑而构建模型,模型(算法)原理非常抽象,需要配以经典方法和传统方法进行理解分析。 dedecms.com
  
  需要强调的是,构建完成模型并输出结果并不难,最难的是模型调优。实践是获得调优经验的重要途径,通过实践可逐步实现模型的通用化、规则化。另外,方法或模型的构建应该贯穿数据分析的整个流程,而不仅是构建模型阶段。比如数据的处理、结果的展现等通用的环节都可以通过模型实现,如此可以节省人工成本,提高数据分析的整体质效。
  
  (四)结果评估
  
  
数据分析是指采集适当的分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的过程,所以要对其进行全面的论证和评价,以确定实用价值、应用落地、未来发展的前景。评估应遵循以下原则:一是以结果为导向的原则。数据分析是实践项目,要能够取得良好的效果。税收大数据分析所输出的价值,最终要服务于不同层级、不同部门的人,要能满足使用者的实际需求。二是简单实用的原则。数据分析的过程,应力求简单实用、易于解读。结构复杂、参数过多的分析过程实不可取。分析过程最好能形成规则,具有推广价值,一般的业务人员都可以使用。三是持续推进的原则。数据分析应根据情况不断地调整思路,持续推进数据分析过程,形成新的视角、思路、方法和技术。四是动态设计的原则。 本文来自织梦
  
  模型本身是对现实世界的抽象,现实世界在变,模型也应该在变。所以,模型要根据情况变化,随时构建出新的规则,以应对新形势的需要。从这一点来看,大数据以及自主学习的机器智能的产生有其历史发展的必然性。
  
  四、结论与建议
  

  上述表明,税收大数据分析是“互联网+税务”以及税收信息化的必然选择,税务机关应紧跟大数据的步伐,形成统一认识,在新的形势下运用大数据的思维和手段,着力提高税收大数据分析水平,推进税收治理能力现代化。税收大数据分析,既是综合性的工程又有很多具体的细节,需要人力、物力的投入,税务机关应高度重视。在此,本文提出以下建议:
  
  一是思维方式的转变。新事物的出现,是对固有观念、经验的冲击,我们必须持有积极的心态,接受它、理解它,并想方设法地把它应用于实践。 织梦好,好织梦
  
  从目前看,税务机关主要定位在“管理+服务”的职能。从管理上看,以前的很多政策制定、税收征管是没有能力做到以数据为中心的,原因就是信息量不大、分析不够、系统也不支持。故而,传统的税收管理方式,依赖于层层的组织和严格的流程,依赖信息的层层汇集、收敛来制定正确的决策,再通过决策在组织的传递与分解,以及流程的规范,确保决策得到贯彻,确保每一次活动都有质量保证,也确保一定程度上对风险的规避。这是一种有用而笨拙的方式。互联网+大数据时代的到来,使税务机关真正有能力以数据作为决策支持的依据。
  在大数据时代,我们可能重构税务管理方式。通过大数据的分析与挖掘,大量的业务本身就可以自决策,不必要依靠膨大的组织和复杂的流程。税务部门要逐步适应基于大数据的决策、依赖既定规则的决策,打破层级管理的瓶颈。从服务上看,税务部门应发挥互联网跨时间和空间的优势,通过大数据构建新的纳税服务模式,搭建快速有效的综合性现代纳税服务平台,使征纳双方的办税流程更加简单实用,纳税服务更加多元化,所有事项线上申请、线上流转、线上办结、线上反馈,基于大数据及时分析,逐步实现自动化、智能化,从而拓宽办税渠道,减少办税时间,减轻办税负担,提高纳税服务水平。将现有的线下业务逐步移交到线上流转,如此也能形成更多的数据积累,将更多的信息记录下来,再进一步深度挖掘分析,我们可能有全新的视角来发现新的纳税人需求,进一步与纳税人沟通交互,分析他们的轨迹、行为,让服务更有针对性。 本文来自织梦
  
  二是行动上的转变。税务当局应该着手考虑筹建大数据中心。这里说的大数据中心已经不是以往的传统数据中心、信息中心的概念,而是新形势下主管、统领所有税收大数据的中枢机构。它要承载税收大数据的生产、分配、交换、消费职能,是税收大数据的集散地。所有外部企业端、其他政府部门端、内部各层级管理部门端产生的数据都要归拢到大数据中心;所有向外对纳税人、社会公众、其他政府部门公布的数据和提供管理或服务的数据统由大数据中心进行分配和交换;所有对内实现各层级管理、服务、决策职能所需要的数据统由大数据中心按需分配;所有征管部门、纳税服务部门、其他部门“消费”数据的结果必须反馈到大数据中心,形成数据流的闭环。也就说,大数据中心的实质是要实现“数出一门”,将来一切税务工作要围绕大数据中心提供的数据资产而展开,任何人都必须用数据来说话。从这个意义上说,大数据中心应该成为税收大数据的“采集中心”、“管理中心”、“供应中心”、“服务中心”、“调度中心”。
织梦内容管理系统

  
  它以数据获取、传输、存储、校验、管理、分配、使用构成的数据流与所有职能部门的业务流交汇融合,有效支撑各项工作与任务顺利完成。为此,大数据中心必须建立自己的运作形态,也就是自己的执行机构,这就是云计算平台。云计算平台提供了基础架构和因需而变的计算力,上述一切大数据中心的职能和大数据各类应用通过云计算技术实现。事实上,云计算平台的本质乃是应对巨量数据处理和实现全社会的资源调配、协同工作以及知识共享的组合工具,不应该也不可能替代大数据中心的角色。总之,大数据中心是税收大数据分析的保障,是落实“互联网+税务”的主要支柱,是“互联网+税务”深化发展的基石。
  
  三是培养大数据人才。很多事物,特别是发展的初期,都需要人去推动。显然,对“互联网+税务”从理论到实务都了然于胸、能够付诸实践的人并不多。特别是,税收数据分析的过程比较抽象,需要具备多方面能力的人才能顺利开展。所以,必须培养这方面的人才,同时和智库合作。应从简单指标、多指标应用走向统计计量数学模型应用,进而走向机器学习算法模型应用,有朝一日创造出智能税务机器人。实际上,人工智能,首先是人工,而后才有智能。对多年来税务工作人员所积累下来的经验的记载和量化也是必不可少的。只有数据和经验相结合,才能形成可供使用的良好的知识。基于知识的深度挖掘分析,最终才可以升华成智慧,即智能。就算是基于某个场景的数据分析工作,也是综合性、循序渐进的过程,无论是一个数据分析项目还是数据产品项目,都需要数据分析人员具备计划、领导、组织、控制的项目工作能力。所以,推动“互联网+税务”以及税收大数据分析,人才的储备、培养和使用极其关键。

本文来自织梦