Desarrollo de un sistema de arañas inteligentes para la extracción de datos de empresas

San Juan Cervera, Álvaro (2015). Desarrollo de un sistema de arañas inteligentes para la extracción de datos de empresas. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Descripción

Título: Desarrollo de un sistema de arañas inteligentes para la extracción de datos de empresas
Autor/es:
  • San Juan Cervera, Álvaro
Director/es:
  • Serradilla García, Francisco J.
Tipo de Documento: Proyecto Fin de Carrera/Grado
Fecha: Julio 2015
Materias:
Escuela: E.T.S.I. de Sistemas Informáticos (UPM)
Departamento: Inteligencia Artificial
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (1MB) | Vista Previa

Resumen

El presente proyecto de fin de grado es uno de los resultados generados en un proyecto de financiación privada por parte de Telefónica consistente en el desarrollo y posterior implantación de un sistema para minería de datos de empresas presentes en Internet. Este TFG surge a partir de un proyecto que el grupo de investigación AICU-LABS (Mercator) de la UPM ha desarrollado para Telefónica, y tiene como elemento principal el desarrollo de Agentes web (también llamados robots software, “softbots” o “crawlers”) capaces de obtener datos de empresas a partir de sus CIF a través de internet. El listado de empresas nos los proporciona Telefónica, y está compuesto por empresas que no son clientes de Telefónica en la actualidad. Nuestra misión es proporcionarles los datos necesarios (principalmente teléfono, correo electrónico y dirección de la empresa) para la creación de una base de datos de potenciales clientes. Para llevar a cabo esta tarea, se ha realizado una aplicación que, a partir de los CIF que nos proporcionan, busque información en internet y extraiga aquella que nos interese. Además se han desarrollado sistemas de validación de datos para ayudarnos a descartar datos no válidos y clasificar los datos según su calidad para así maximizar la calidad de los datos producidos por el robot. La búsqueda de datos se hará tanto en bases de datos online como, en caso de localizarlas, las propias páginas web de las empresas. ABSTRACT This Final Degree Project is one of the results obtained from a project funded by Telefónica. This project consists on the development and subsequent implantation of a system which performs data mining on companies operating on the Internet. This document arises from a project the research group AICU-LABS (Mercator) from the Universidad Politécnica de Madrid has developed for Telefónica. The main goal of this project is the creation of web agents (also known as “crawlers” or “web spiders”) able to obtain data from businesses through the Internet, knowing only their VAT identification number. The list of companies is given by Telefónica, and it is composed by companies that are not Telefónica’s customers today. Our mission is to provide the data required (mainly phone, email and address of the company) to create a database of potential customers. To perform this task, we’ve developed an application that, starting with the given VAT numbers, searches the web for information and extracts the data sought. In addition, we have developed data validation systems, that are capable of discarding low quality data and also sorting the data according to their quality, to maximize the quality of the results produced by the robot. We’ll use both the companies’ websites and external databases as our sources of information.

Más información

ID de Registro: 40293
Identificador DC: http://oa.upm.es/40293/
Identificador OAI: oai:oa.upm.es:40293
Depositado por: Biblioteca Universitaria Campus Sur
Depositado el: 06 May 2016 06:54
Ultima Modificación: 06 May 2016 06:54
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM