Concept Embedding como ampliación del concepto de Word Embedding

Cañavate Vega, Fernando (2020). Concept Embedding como ampliación del concepto de Word Embedding. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Concept Embedding como ampliación del concepto de Word Embedding
Author/s:
  • Cañavate Vega, Fernando
Contributor/s:
  • Rico Almodóvar, Mariano
  • Corcho García, Óscar
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: 1 July 2020
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview

Abstract

Desde mucho antes de descubrir el mundo de la inteligencia artificial me interesé por la esencia del conocimiento y su representación. Creo que parte del misterio del funcionamiento de nuestro cerebro reside en como éste codifica la información, de forma que, al menos de una forma subjetiva, nos parece que llegamos a tocar los conceptos, incluso a sentirlos. La representación del conocimiento no es el conocimiento en sí mismo, solo una forma simbólica de expresarlo que a su vez depende de referencias a otros conocimientos. Es una cadena que hace depender una representación de otra y a su vez de otra, y así sucesivamente, sin que al final de la cadena parezca que haya, ni siquiera, una representación más cercana a lo que conocemos como conocimiento intuitivo. Quizás el primer paso para encontrar esa piedra angular, que enlaza la representación del conocimiento con nuestra intuición, pasaría por encontrar una cierta base finita que nos permitiera representar todo lo demás en función de ella. Este Trabajo Fin del Máster de Inteligencia Artificial plantea una base finita, la de verbos, proponiendo como hipótesis que todos los demás conceptos se pueden expresar en función de ésta. Dicha base estaría formada por unos 6.800 verbos en la lengua estándar más otros 6.100 en la lengua culta, científica, profesional y tecnológica. El número de nombres o grupos nominales posibles a codificar es ilimitado, tanto como las instancias que estos representan. Se propone un algoritmo, a partir de Syntaxnet, parser estado del arte desarrollado por Google, que nos permite encontrar un embedding instance2vec o noun2vec, universal, asociado a cada nombre o grupo nominal. Por su alta dimensionalidad, el sistema no será, en una primera versión sin tratar, tan eficiente como otros, sin embargo los resultados obtenidos aportan las siguientes ventajas: Se obtiene una descomposición de cada nombre, concepto o grupo nominal en sus propiedades, dadas por las acciones que es capaz de desempeñar. Esta descomposición no solamente nos define cada nombre, sino que nos aporta información de interés humano o social sobre el uso que hacemos del lenguaje y las características que asociamos a cada cosa. Se pueden realizar diversas operaciones entre nombres, suma, diferencia y producto, obteniéndose resultados coherentes e intuitivos. Se pueden aplicar algoritmos de machine learning de clusterización para agrupar instancias según clases coherentes conceptualmente. Dado que la base está formada por elementos totalmente comprensibles, el sistema permitirá hacer cambios de base ad hoc y conseguir modelos matemáticos de lenguaje más humanos. Pensamos que podría ser implementado en los encoders de uso común para poder realizar acciones de más contenido conceptual. El sistema es válido tanto para nombres como para grupos nominales pues, en realidad, está ligado al concepto asociado a aquellos. Los vectores se forman a partir del análisis del corpus y podrían ser implementado también para codificar relaciones a partir de grafos de conocimiento o para generarlos a partir de un corpus.---ABSTRACT---Long before I discovered the world of artificial intelligence, I was interested in the essence of knowledge and its representation. I believe that part of the mystery of how our brain works lies in how it codes information, so that, at least in a subjective way, we seem to touch concepts, even feel them. It’s a chain that makes one representation depend on another and in turn on another, and so on, without at the end of the chain, it seems that there is even a representation closer to what we know as intuitive knowledge. Perhaps the first step in finding the cornerstone that links the representation of knowledge with our intuition would be to find a certain finite base that would allow us to represent every name as a function of it. This base would be formed by some 6.800 verbs in the standard language, plus another 6.100 in the cultured, scientific, professional and technological language. The number of names or nominal groups to be coded is unlimited, as well as the instances they represent. An algorithm is proposed, based on Syntaxnet, a state-of-the-art parser developed by Google, which allows us to find an embedding instance2vec or notun2vec, universal, associated with each name or nominal group. Due to its high dimensionality, the system will not be, in a first untreated version, as efficient as others, however, the results obtained provide the following advantages: It perform a decomposition of each name, concept or nominal group into its properties, given by the actions it is capable of performing. This decomposition not only defines each name but also provides as with information of human or social interest on the use we make of language and the characteristics we associate with each thing. The system give the possibility of carrying out different operations between names, addition, difference and product, obtaining coherent and intuitive results; The possibility of applying machine learning clustering algorithms to group names according to conceptually coherent classes. The fact that the base is made up of totally understandable elements, the system will allow us to make ad hoc changes in the base and achieve more humane mathematical models of language. We think that they could be implemented in the commonly used encoders to be able to make actions with more conceptual content. The system is valid for both, names and nominal groups, since, in reality, it’s linked to the associated concept to them. The vectors are formed from the analysis of the corpus and could also be implemented to code relations from knowledge graphs or to generate them from a corpus.

More information

Item ID: 63666
DC Identifier: http://oa.upm.es/63666/
OAI Identifier: oai:oa.upm.es:63666
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 09 Sep 2020 06:03
Last Modified: 18 Sep 2020 08:30
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM