XBRL财务报告的语义形式化研究

时间：2022-08-17 11:46:12

XBRL财务报告的语义形式化研究

【摘要】 XBRL在财务信息的准备、分析和交流方面带来了极大便利，成为会计师、投资者和监管者的有力工具。由于缺少形式语义，对XBRL格式数据的推理存在许多限制。文章首先讨论利用XBRL技术进行财务信息搜索、集成和深入分析的需求，以及现有XBRL的不足。从技术角度分析XBRL与语义网技术融合的方法，综述近年来在增强XBRL语义方面的研究进展，提出了基于本体的XBRL元数据分析和研究框架。

【关键词】 XBRL；元数据；语义网；本体

一、引言

作为应用于财务信息领域的最新技术，XBRL（eXtensible Business Reporting Language）处理非结构化信息，利用标记元数据来识别和描述财务报告中的财务信息项。通过这些标记和分类标准，使计算机能够“读懂”财务报告，并利用内置验证机制“分析”财务信息。近年来，国内外各大证券交易所纷纷要求上市公司提供XBRL财务报告，已积累了相当数量的XBRL数据，同时也暴露出XBRL缺少形式语义的缺陷，并开始制约XBRL数据的质量和对财务信息的集成、分析利用。

XBRL主要有三个组成部分：XBRL技术规范（Specification）是XBRL的技术总纲，定义XBRL的各种专业术语，用于规范XBRL文档的结构，说明如何建立分类标准以及实例文档；XBRL分类标准（Taxonomy）是不同国家、行业或团体根据XBRL规范和自身的会计行业准则以及条件定义的适用于本地区本行业的词汇表，是一个术语字典，由XBRL Schema和链接库两部分组成，分别定义概念和描述概念之间的关系及相关文档，链接库包括定义、计算、展示、标签和引用五种文件；XBRL实例文档（Instance）是企业根据XBRL技术规范和分类标准做出的XBRL格式财务报告，是基于一个或多个分类标准所定义的概念的XBRL事实值的集合。另外，为了增强对财务数据的背景描述和计算能力，同时也考虑到XBRL技术规范的稳定性，XBRL技术规范还有两个外加可选模块，即Dimensions和Formulas。Dimensions规范描述财务数据的多维信息，提供表达XBRL背景之间关系的能力；Formulas规范表述会计的业务规则，弥补计算链接库的不足，提供跨背景的计算关系。

语义网（Semantic Web）通过增加网络信息的形式语义支持，对现有Web网进行变革和延伸，目标是帮助计算机在一定程度上理解数据的含义，实现高效的网络信息搜索和智能协同。学术界和产业界都已经认识到语义网能够有效促进企业内部和外部业务流程的集成和互操作，从而推动建立共享文档和数据的全球基础设施，使信息搜索和重用更加容易。

语义形式化是指将数据中的含义按某种数学规则用符号方式精确表示出来，以适合于计算机的理解和推理。笔者首先讨论利用XBRL技术进行财务信息搜索、集成和深入分析的需求，以及现有XBRL的不足，然后从技术角度分析XBRL与语义网技术融合的方法，综述近年来在增强XBRL语义方面的研究进展，最后，提出基于本体的XBRL财务信息分析和研究框架。

二、XBRL财务信息的集成和分析需求

计算机和互联网的发展正改变着社会经济生活的方方面面。在会计领域，互联网颠覆了传统公司报告的生产、披露与传播方式，使得信息供求双方获取及传播信息的可用方法和途径发生了空前变化。美国证交会（SEC）早已要求上市公司从2005年开始自愿呈报XBRL财务报告，并强制要求美国国内外大型、按美国GAAP编制财务报表的公司，且全球公开发行普通股权益达50亿美元以上的公司从2009年开始提交XBRL财务报告；从2005年开始，中国沪深两市的所有上市公司也开始采用XBRL对定期财务报告进行全文披露；SEC还要求美国基金公司从2011年开始必须提交XBRL格式的风险/回报摘要；日本、西班牙的央行都要求其监管的银行定期提交XBRL格式的财务数据。因而，随着XBRL的推广应用，需要处理大量的XBRL数据。

可以将XBRL数据处理需求分为两类：

（一）数据收集和报告

公司和其他财务数据生产者能够自动采集、汇总数据并转换成XBRL格式。利用XBRL数据可以容易地生成多种形式的报告，分别适用于内部管理、财务报表、税务文件和信用报告。要求能进行自动处理、错误检验和一致性验证。

（二）数据使用和分析

收到XBRL格式数据的用户能够进行自动化处理，节约数据核对和重复录入的时间。软件能够立即验证数据，发现错误并立即报告数据缺失，也可以帮助进行数据分析、选择和重用数据处理。特别是满足投资分析的信息需求，简化数据的选择和比较，深入进行公司经营分析。可以降低贷款成本，加快放款速度。监管和政府部门能够有效地整合、验证和评估相关的财务信息。

作为XML的一种应用，XBRL的目标是为有关财务数据增加语义，特别是采用XLink实现的多种链接库能定义多个数据项之间的、形式的计算关系。但是，总体来看，目前XBRL仍然只是解决信息的语法表达问题，尚不能实现大多数形式语义表达。如标签和引用文档、包含关系都缺少形式语义，常常导致XBRL实例文档中出现大段的文本块，仅供人工阅读，无法支持用计算机实现分析、推理工作，从而难以满足上述需求。

XBRL财务报告分类标准采用自然语言定义标记元数据，可能降低财务数据质量。刘勤（2006）针对XBRL的应用优势，从标准技术、管理、实施等多个角度进行剖析，通过质疑，发现目前XBRL在分类标准、多个分类的差异、处理成本等方面都存在一系列问题，其实质是标记元数据的不一致性。Debreceny等（2005）的研究也指出，应从技术性、可用性、完整性、可及性、一致性等方面来验证分类标准元数据的充分性。

Berners-Lee继发明Web之后，于1998年提出了将Web延伸为语义网的思想。此后引起学术界对语义网的研究热潮，控制Web标准的W3C组织也相继了多种相关的规范和技术，如RDF、OWL、SPARQL等。多年以来XBRL和语义网在各自领域发展迅速，互不相交。近年来，XBRL的发展引起W3C组织的关注，2008年Raggett开始作为W3C Fellow加入到XBRL国际组织的标准委员会，国外学术界对将语义网技术应用于XBRL的研究正逐渐形成热点。

三、XBRL数据的语义形式化方法

从语义网的基本技术来看，目前主要关注资源描述框架（RDF）和本体的应用。通常认为本体是共享概念模型明确的形式化规范说明。作为智能知识处理的核心技术，本体提供了共享特定领域信息内容的框架，使多Agent能够共享对交互信息的语义理解，并在数据挖掘、信息检索、知识获取、知识管理、信息集成等领域中获得大量应用。XBRL数据的语义形式化实质上是对XBRL标记元数据的语义形式化。

（一）直接基于本体增加形式语义

较早的研究主要探索对基金、上市公司的XBRL格式数据转换成RDF/OWL本体，主要涉及两种语言间不同表示构件的映射关系、不一致性的处理，仅限于较小数据量。在实验系统建立过程中也发现需要增加XBRL的形式语义，并扩充OWL的计算能力。这种方法的主要关键是建立一个明确的信息模型，即OWL本体。

为了增强XBRL的形式语义支持，大量研究涉及开发基于本体的XBRL数据管理方法和架构。Declerck等（2006）研究将XBRL分类标准直接转换成描述逻辑的方法，最终用Protégé工具获得一种“本体化”的XBRL分类标准。Li等（2009）通过在XBRL规范之上附加增强本体的方法，也采用Protégé和Jena工具建立了财务数据的分析环境，但这些应用基本上还是基于传统方式的有限扩展，未采用SPARQL支持推理查询。

（二）对多本体之间的异构语义的不一致处理

在一个分布式的网络环境中，跨企业、跨行业的XBRL分类标准、实例文档和内部数据实际上都存在语义上的异构，因此如何实现多种分类标准的语义融合，容忍不一致性是实现XBRL财务数据互操作集成和分析的基本前提。Zhu等（2007）提出利用模式匹配和情境中介技术解决XBRL财务报告分类标准和报告实例中的语义歧义；Núnez等（2008）提出在一种协同的网络环境中，建立上层的抽象OWL本体，以期达到对多种跨分类标准的XBRL财务报告的比较和交换的目标。

XBRL财务数据和元数据结构的本体表示的核心动机是增强企业分析应用的潜力。这种企业分析应用是构建在多种结构化和非结构化集成数据而形成的财务报告数据之上的。如果将这种应用与推理引擎相结合，就能够显著增强合规管理。为了定义一个合适的XBRL的本体表示，Spies（2010）深入分析了XBRL元数据分类标准的原理，讨论了相应的细分系统，提出了采用OWL语言为公认会计准则XBRL分类标准建立本体的方法，且与OMG的本体元模型（ODM）兼容。

（三）基于语义的XBRL与商务智能应用的融合

随着证券市场上越来越多的欺诈交易，监管部门、投资者和公众普遍关注及时、准确发现可疑交易，避免造成严重损失。这类应用需要结合XBRL数据与商务智能技术。为了能有效融合这两种技术，XBRL数据必须进行语义解释或扩充。Hou等（2006）试图利用本体驱动的方法建立一个高效管理证券数据并准确发现可疑非法交易的系统。首先基于大量的案例和工业标准建立一个反映实体特征及其关系的证券领域本体模型，然后将各种系统中的数据按XBRL格式导入本体库成为本体实例，从而形成可进一步推理的各种关系基础，最后，用户通过发出语义SPARQL查询找出可疑交易。通过精确语义定位的分析过程，提供了查询任务的准确性和效率。

随着互联网的普及推广，可以从网上及时获取大量企业的财务数据，特别是XBRL的运用大大推进了企业相关数据的集成效率，但海量数据必须进行提炼和浓缩才能被有效利用，达到持续报告的目标。Mendez-Nunez等（2010）利用语义网和感知计算理论，提出了从财务数据归纳生成简短报告的框架和方法。这种简短报告由几个自然语言句子构成，可以帮助定义产生本体。

欧盟著名的MUSING项目提出建立XBRL本体用于元数据的形式化表达，从而支持新一代商务智能分析系统。以XBRL作为主要支撑，新型应用程序通过集成语义技术将知识管理、先进的预测分析和智能的第三方数据访问结合起来。用于集成这些知识和项目结果的基础性骨干在本体中被形式化，而本体自身作为模式为MUSING知识基础库服务。MUSING的合作伙伴德国人工智能研究中心开发了一个类似于XBRL本体的方法，并将其在PDF2XBRL的翻译过程中用作骨干模式。这个方法通过使用自然语言处理将资产负债表的信息归类到XBRL分类标准，把数据翻译成机器可读可处理的、可重用的信息。另一方面，在MUSING里所有的知识都被概念化到本体中。

四、XBRL元数据分析和研究框架

从以上讨论可看到，为了提高XBRL数据质量，满足深入分析的需求，关键是解决XBRL标记元数据的质量问题，特别是通过元数据的语义形式化能实现计算机的自动推理、变换和分析。XBRL规范的推广使用，形成XBRL标记元数据的分布式使用环境。根据以上的XBRL数据处理需求和现有的研究情况来看，学术界至少面临以下挑战：

・现有OWL的功能扩展，需要扩展描述逻辑理论

・对多个本体之间的语义歧义的处理

・寻找高效的自动推理方法

为了解决这些问题，需要进行以下研究：

一是面向情境的XBRL元数据形式化语义表达与推理

作为分布式元数据一致性的研究基础，首先从本地应用情境出发，研究情境信息建模方法，探索描述逻辑在行为及财务领域的扩展，然后试图提出基于动态描述逻辑的一般元数据形式化描述，关注局部的具体知识，并构造对应的推理方法。

二是分布式元数据形式化语义表达与推理

以网络环境为背景，研究分布式XBRL中的元数据语义精确表达与推理。首先根据分布式XBRL的元数据特点和需求，研究描述异构静态和动态知识的统一形式化逻辑组成框架，然后扩充描述逻辑，按容纳不一致的思路，研究基于分布式描述逻辑的标记元数据形式化表达，构造适合分布特点的全局推理方法。

三是本体管理中对不一致知识的处理机制

在精确表达XBRL标记元数据语义的基础上，采用本体元建模理论，引入知识分区的多个本体空间思想，研究在元数据本体的注册、演化和映射的管理过程中对不一致知识的处理机制。

四是XBRL元数据的一致性自动检测和消解方法

XBRL的语义形式化为一致性自动检测和消解方法提供了坚实基础。综合以上对本地和网络信息的探索，区分多种认知歧义和冲突矛盾类型，研究分布式元数据一致性的自动检测算法和辅助消解方法。

这些研究将有助于进一步完善描述逻辑理论，构造有效的XBRL一致性逻辑检测方法，加速语义网技术的实用化。

五、结论

在财务信息领域存在大量复杂、有价值、动态的信息，各种用户需要通过一种通用的信息模型最大限度地分析和利用信息。经过多年的努力，XBRL成为各方公认的这种信息模型，从而为信息共享提供了坚实的基础。但XBRL缺少形式语义的不足，也形成进一步深入分析数据的主要障碍。现有的语义增强方法主要集中于利用本体技术规定静态的精确概念及其关系，进一步的研究应主要致力于解决分布式网络环境中的XBRL元数据形式语义表达和推理方法，解决多种本体间的不一致问题，并提供高效的推理机制。

【参考文献】

［1］ R.Debreceny， C.Felden， B.Ochocki， et al. XBRL for Interactive Data［M］. New York： Springer， 2009.

［2］ Cardoso J， Hepp M， Lytras M. The Semantic Web： Real-World Applications from Industry［M］. New York： Springer， 2008.

［3］刘勤. 对当前一些有关流行观点的思考［J］. 会计研究， 2006（8）： 80-85.

［4］ Debreceny R. Financial reporting in XBRL on the SEC’s EDGAR system： a critique and evaluation［J］. Journal of Information Systems， 2005， 19（2）： 191-210.

［5］ Klyne G， Carroll J. Resource Description Framework （RDF）： Concepts and Abstract Syntax， W3C Recommendation［EB/OL］. http：//www.省略/TR/rdf-concepts/， 2011-5-1.

［6］ Smith M， Welty C， McGuinness D. OWL Web Ontology language Guide［EB/OL］. http：//www.省略/TR/owl-guide/， 2011-5-1.

［7］ W3C. SPARQL query language for RDF ［EB/OL］. http：//www.省略/TR/2004/WD-rdf-sparql-query-20041012/， 2011-5-1.

［8］ Lara R， Cantador I， Castells P. XBRL Taxonomies and OWL Ontologies for Investment Funds ［C］. ER Workshops 2006， LNCS 4231， 2006， pp. 271-280.

［9］ Méndez S， Labra J， Andrés J， et al. Analysis of XBRL documents containing accounting information of listed firms using Semantic Web Technologies［C］. Metadata and Semantics， 2009， pp.375-381.

［10］ Declerck X， Krieger H. Translating XBRL into description logic［C］. The 9th International Conference on Business Information Systems， Klagenfurt， Austria， 2006.

［11］ Li B， Liu M. An ontology-augmented XBRL extended model for financial information analysis［C］. IEEE International Conference on Intelligent Computing and Intelligent Systems， 2009，（3）： 99-103.

［12］ Zhu H， Madnick SE. Semantic integration approach to efficient business data supply chain： integration approach to inter-operable XBRL［R］. MIT Sloan School of Management， 2007.

［13］ Núnez SM， Suárez JA， Gayo JE. A Semantic Based Collaborative System for the Interoperability of XBRL Accounting Information［C］. Emerging Technologies and Information Systems for the Knowledge Society， LNCS 5288， 2008， pp. 593-599.

［14］ Spies M. An ontology modeling perspective on business reporting［J］. Information Systems， 2010， 35（4）： 404-416.

［15］ Hou X， Hu G， Ma L， et al. Ontology Driven Securities Data Management and Analysis［C］. Frontiers of WWW Research and Development-APWeb 2006， LNCS 3841， 2006， pp. 1083-1095.

［16］ Mendez-Nunez S， Trivino G. Combining semantic Web technologies and computational theory of perceptions for text generation in financial analysis. IEEE International Conference on Fuzzy Systems （FUZZ）， 2010， pp.1-8.

［17］ MUSING.cordis.europa.eu/fp6/dc/index.cfm?fuseaction

=UserSite.FP6HomePage. 2011-4-20.

XBRL财务报告的语义形式化研究

文档上传者

热门推荐更多>

XBRL财务报告的语义形式化研究

文档上传者

热门推荐 更多>

热门推荐更多>