Logical structure identifier and provision classifier of procurement contracts in Spanish

Rodríguez González, Luis Carlos (2021). Logical structure identifier and provision classifier of procurement contracts in Spanish. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Logical structure identifier and provision classifier of procurement contracts in Spanish
Author/s:
  • Rodríguez González, Luis Carlos
Contributor/s:
  • Montiel Ponsoda, Elena
  • Rodríguez Doncel, Víctor
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: July 2021
Subjects:
Freetext Keywords: Tecnología legal, Revisión de contratos, Aprendizaje automático, Clasificación de textos, Reconocimiento de estructuras lógicas de documentos, Contratos de adquisiciones, Legal Tech, Contract Review, Machine Learning, Text Classification, Logical document structure recognition, procurement contracts
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Lingüistica Aplicada a la Ciencia y a la Tecnología
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (4MB) | Preview

Abstract

El objetivo principal de este trabajo es el de explorar y definir un conjunto de métodos para identificar y extraer información de los contratos de compras y definir diferentes enfoques para automatizar el proceso. Esto permitirá a los usuarios finales (como abogados o compradores) identificar cuándo un contrato determinado incluye (o no) las cláusulas y disposiciones comúnmente utilizadas en la contratación. En este trabajo, se han implementado métodos de reconocimiento de estructura de documentos y aprendizaje automático para identificar la estructura lógica de los contratos y para la extracción y clasificación de cláusulas. El interés asistentes automáticos para la redacción y revisión de contratos es un área en crecimiento dirigida a mitigar el coste en la administración de contratos. Revisar un contrato para verificar, por ejemplo, si hay cláusulas abusivas, buscar información específica o enmendar información, son tareas que requieren mucho tiempo. Muchas de estas tareas se pueden automatizar extrayendo elementos específicos del contrato. Sin embargo, la extracción de estos elementos es actualmente un proceso mayoritariamente manual. Por tanto, es deseable un sistema automático capaz de dar soporte a las tareas de extracción y clasificación de cláusulas. En nuestro trabajo, nos enfocamos en los contratos de compras, ya que son una parte importante de la relación comercial entre las empresas y su base de suministro. La mayor parte del gasto de la empresa se gestiona y regula en los contratos de adquisiciones. El impacto de los errores de los contratos puede producir importantes costes y pérdidas. Además, los departamentos de compras no tienen suficiente conocimiento, tiempo y apoyo para redactar y revisar todos los contratos que generan. Con el objetivo de reconocer la estructura y el contenido del contrato de adquisiciones, construimos un corpus anotado de contratos de compras. Nuestro corpus cuenta con documentos con anotaciones en el texto del contrato para indicar la estructura lógica del documento y las diferentes categorías de cláusulas utilizadas por las áreas de compras y legales para gestionar y regir los procesos de adquisiciones. En este trabajo, nuestro objetivo es explorar y experimentar el proceso de identificación y extracción en todas sus fases, desde el reconocimiento de la estructura en el texto del documento original hasta su clasificación final en diferentes cláusulas. Nuestro trabajo toma como entrada los contratos de adquisición como documentos en texto plano y, en primer lugar, reconoce la estructura lógica a través de la identificación de segmentos de bloques de texto significativos y sus dependencias jerárquicas entre ellos. Nuestro método solo utiliza información sobre la secuencia de objetos de texto, características textuales y de diseño sin conocimiento previo sobre la estructura y el contenido del documento. Abordamos la identificación de las cláusulas contractuales como un problema de clasificación de texto supervisado. Se utilizaron varios algoritmos de clasificación de texto para clasificar qué cláusula aplica a segmentos de documentos específicos. Nuestro trabajo tiene en cuenta todo el documento con su estructura para identificar y clasificar el texto en diferentes categorías de cláusulas. Se llevaron a cabo varios experimentos para explorar e identificar clases de cláusulas en los contratos de compras, para evaluar su precisión y encontrar los potenciales problemas. Los resultados de los experimentos mostraron algunas complejidades adicionales para los contratos de adquisiciones, además de los problemas ya conocidos de clasificación de textos. Se aplicaron varias estrategias para hacer frente a estos problemas y mejorar el rendimiento de los métodos.---ABSTRACT---The main goal of this work is to explore and define a set of methods to identify and extract information from Procurement Contracts, and different approaches to automate the process. This will allow final users (such as lawyers or purchasers) to identify when a given contract document includes (or not) the clauses and provisions commonly used in procurement. Document structure recognition and Machine Learning methods have been implemented to identify the logical document structure for clauses extraction and clauses classification. The interest in computer-assisted contract drafting and review assistants is growing in the area to mitigate the cost of managing contracts. Reviewing a contract to check for abusive clauses, to searching for specific information or amending information are highly time-consuming tasks. Many of these tasks can be automated by extracting specific contract elements. However, extracting elements from contracts is currently mostly a manual process. An automatic system able to support the intellectual activity of classifying provisions is therefore desirable. In our work we focus on procurement contracts as they are an important part of the business relationship between companies and their supply base. Most the company expense is manage and rule in procurement contracts. The impact of contracts errors can produce significant costs and loss. In addition, procurement departments do not have enough knowledge, time and support to do draft and review all contracts they generate. With the aim to recognize procurement contract structure and contents, we build an annotated corpus of procurements contracts. Our corpus has documents with annotations in the contract text to indicate the logical structure of the document and the different provisions categories used for procurement and legal areas to manage and rule acquisitions processes. In this work, our objective is to explore and experiment with the identification and extraction process in all its phases, from the recognition of the structure in the original document text to its final classification in different clauses. Our work take as input procurement contracts as plain text documents and firstly recognize the logical structure through the identification of meaningful text block segments and their hierarchical dependences among them. Our method only uses information on the sequence of text objects, textual and layout features with no previous knowledge about the structure and content of the document. We approached the identification of contract clauses as a supervised multiclass text classification problem. Several text classification algorithms were used to classify what clause applies to specific documents segments. Our work takes into account the whole document with its structure to identify and classify the text on different clause categories. Several experiments were carried out to explore and to identify clauses classes in procurement contracts, evaluate their accuracy, and find the source of any potential issues. The results of the experiments showed some additional complexities for procurement contracts, in addition to the already known problems of text classification. Several strategies were applied to cope with this problems and improve the performance of the methods.

More information

Item ID: 68734
DC Identifier: https://oa.upm.es/68734/
OAI Identifier: oai:oa.upm.es:68734
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 06 Oct 2021 13:00
Last Modified: 06 Oct 2021 13:00
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM