Publication:
Categorización de la oferta pública mediante técnicas big data

Loading...
Thumbnail Image
Identifiers
Publication date
2019
Defense date
2019-10-15
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Geographic coverage
España
Organizational Units
Journal Issue
Abstract
La contratación pública en España tiene un gran impacto económico tanto a nivel nacional como internacional. Es por eso que el Estado muestra interés por desarrollar métodos basados en las TIC que manejen la información sobre oferta pública y simplifiquen la manera en que ésta es publicada y consultada. Con este fin, el Gobierno de España pone a disposición del ciudadano la Plataforma de Contratación del Sector Público, un sitio web que recoge toda la información sobre contratación pública y sirve como punto de encuentro virtual entre organismos contratantes y entidades licitadoras. A diario se suben y actualizan multitud de licitaciones a la Plataforma de Contratación del Sector Público, haciendo que el sitio maneje un gran volumen de datos muy cambiantes y en constante aumento. Si bien a priori parece que disponer de toda la información de contratación en un mismo lugar es la opción más cómoda en cuanto a acceso y almacenamiento, la cantidad de información es tal que resulta muy complicado analizarla manualmente y encontrar elementos de interés. Este proyecto busca subsanar esta limitación mediante el diseño de un sistema que analice las licitaciones publicadas en la Plataforma de Contratación del Sector Público con el objetivo de caracterizar la Contratación Pública en España. De esta manera, se determinan los tópicos más recurrentes en las ofertas que salen a concurso y, conociendo dichos tópicos, se podría definir al Sector Público actual. Para ello, el sistema utilizará técnicas de Procesamiento del Lenguaje Natural para extraer el contenido de las ofertas y, tras un estudio de varios modelos de tópicos, aplicará el que mejor se ajuste a los datos obtenidos para interpretar la información y obtener las temáticas más relevantes de la oferta pública.
Public Procurement in Spain has a great economic impact both nationally and internationally. Therefore, the Spanish Government is interested in developing ICT based mechanisms to deal with public tender’s related information and simplify the way in which it is published and inquired. With this in mind, the Spanish Government provides citizens with the Public Sector Procurement Platform, a website that collects all data regarding public procurement and acts as a virtual meeting point between contracting organizations and tendering entities. Lots of bids are published and updated daily on the Public Sector Procurement Platform, so the site handles a huge and rapidly increasing volume of changing information. Although having all procurement information in the same place seems to be the most convenient option in terms of storage and accessibility, the amount of data is so great that it is hard to analyze it manually and find elements of interest. In addition, Platform’s native bids search engine is based on fixed metadata values rather than on tenders’ contents themselves, and these search criteria are usually too wide to provide accurate results when users search for tenders adapted to their profiles. Hence, the most reliable data source that one could use to determine the specific subject of a bid is its technical specification document. However, it is hard for computers to inspect and understand texts due to the complexity of natural language; humans can do this, but on a much smaller scale than a computer. This project aims to fix this limitation by designing a system capable of analyzing bids published on the Public Sector Procurement Platform. This way, Public Procurement in Spain could be characterized by determining the most frequent topics appearing in public tenders. To achieve this, the aforementioned system should be able to analyze the text of the technical documents associated to the tenders published in the Public Sector Procurement Platform with Natural Language Processing techniques and, after studying several topic models, apply the model that better fits the training data in order to interpret the information and get the most relevant topics. Also, the proposed system must comply with European directives regarding e-administration, cost minimization and accessibility improvement to citizens. Hence, the use of free software will be preferred over licensed one. According to usability, the system should implement a visualization tool such that the characterization results can be easily interpreted at plain sight ...
Description
Keywords
Procesamiento del Lenguaje Natural, Modelado de tópicos, Contratación Pública, Aprendizaje automático, Natural Language Processing, Topic modeling, Machine Learning
Bibliographic citation