Publication:
Minería de datos en portal inmobiliario

Loading...
Thumbnail Image
Identifiers
Publication date
2012-09
Defense date
2012-11-26
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
A día de hoy se realizan en internet millones de búsquedas diarias en las que un usuario busca acerca de una información concreta, como pueden ser objetos en una tienda online, noticias en una web de periódicos o páginas web en un buscador. Estas búsquedas en la mayoría de los casos aplican un simple filtro sobre el total de su información, devolviendo todos los valores que cumplan dicho filtro, sin ninguna organización previa. Con este proyecto se quiere mejorar el acceso a los resultados de una búsqueda, concretamente sobre una base de datos de viviendas en venta o alquiler sacada del portal Idealista, facilitando al usuario la selección de los objetos preferibles dentro del grupo de los resultados. Para ello, se utilizan los datos obtenidos de Idealista, para entrenar y representar un mapa auto-organizativo, una técnica de aprendizaje automático no supervisado, que permiten agrupar las viviendas dependiendo de las características que tengan las mismas. Cuánto más parecidas sean dos viviendas, más cerca se encontrarán dentro del mapa y será más fáciles de localizar las elegidas, eliminando las zonas de mapa cuyas viviendas no sean del agrado del usuario. Para calcular la similitud de viviendas, se utilizarán atributos clásicos como el precio, la localidad o en número de habitaciones, entre otras. Se tomará una base de datos inicial que incluya todas las viviendas de Madrid extraídas mediante el API de Idealista; se les aplicará un filtro seleccionado por el usuario y se procederá a entrenar el mapa tomándolos como datos de entrenamiento. El entrenamiento consiste en hacer repetidamente el cálculo de la distancia euclídea entre las viviendas y las celdas del mapa (que estarán representadas por las mismas características que las viviendas) para encontrar la celda con menor distancia, a la que pertenecerá la vivienda. Una vez se sepan las celdas a las que pertenece cada vivienda, se representará en un mapa bidimensional, en el que el usuario podrá navegar decidiendo qué nodos son más interesantes para él. De esta forma, el total de resultados de la búsqueda se reducirá facilitando al usuario la selección, sin tener que haber recorrido todos los resultados. ___________________________________________________________________________________________________________________________
Nowadays, millions of searches are made over the Internet. The users are looking for specific information, like products in an online shop, news in a newspaper’s web or websites in a web search engine. Most of these searches apply a simple filter into the whole information, returning all the values that fulfil that, without any previous organization. The aim of this project is to improve the access to the results of a search, concretely over the database of housing, on rent or on sell, extracted from Idealista portal, making easier for the user to select the favourite housing over the whole result of the search. It is used the database of Idealista to train and represent a self-organizative map, a non supervised machine with learning technique, that allows to cluster the housing depending on their characteristics. As more similar two housing are, more closer they will be represented on the map, so the selected housing will be easier to found, by removing parts of the maps which housing don’t agree the users likes. To calculate the similarity between housing, classic attributes will be used, like locality, number of rooms or prize and more. It will use an initial database that includes all Madrid housing that will be extracted thanks to Idealista API; a user’s filter will be applied over them, and then the map will be trained using them. The training consists on repeating the calculation of the Euclidean distance between the housing and the map nodes (that will be represented by the same characteristics as the housing) to find the node with less distance, that will be considered the winner, where the housing will belong. Once all the housing have their belonging node, they will be represented on a bidimensional map, in which the user could navigate deciding which nodes are better for his interests. In this way, the total number of results will be decreased making the selection easier, without having to cover all the results.
Description
Keywords
Recuperación de la información, Minería de datos, Ingeniería del conocimiento, Aprendizaje automático, Portales inmobiliarios
Bibliographic citation