política de cookies

Utilitzem cookies per a facilitar l'ús de la nostra pàgina web.

Les cookies que utilitzem no emmagatzemen cap dada personal, ni cap mena d'informació que pugui identificar-li. En cas de no voler rebre cookies, si us plau configuri el seu navegador d'Internet perquè les esborri del disc dur del seu ordinador, les bloquegi o li avisi en cas d'instal·lació d'aquestes. Per a continuar sense canvis en la configuració de les cookies, simplement continuï en la pàgina web. En visitar la nostra pàgina web, accepta la instal·lació d'aquestes cookies en el seu dispositiu.

x
Bitendian logo

Com fer un crawler per extreure informació d'interès automàticament. Episodi 4: Conclusions

|

Paraules clau: aranya, robot de cerca, cerca i recuperació d'informació, bot, cercador, intel·ligència artificial, IA, search bot, search robot, robot, crawler, web crawler, information retrieval, information search and retrieval, artificial intelligence, AI

En aquest article, dividit en 4 parts, expliquem com implementar un Information Retriever. És a dir, un sistema software capaç d'aconseguir informació d'interès de forma automàtica/desassistida/intel·ligent a partir d'informació que s'està actualitzant constantment a internet.

A la primera part hem descrit l'escenari.

A la segona part hem exposat la seva arquitectura.

A la tercera part hem donat pautes per a la seva implementació.

A aquesta quarta part treurem algunes conclusions.

 

La IA aporta valor

Un IR i en general qualsevol sistema software que apliqui IA el que fa és automatitzar tasques que, tot i que podria fer-les un humà, s'ha prefeferit construir un software que les faci. D'aquesta manera aquestes tasques es faran més ràpid i sense error humà, alliberant temps d'aquells empleats que ho efien i fent que el temps extra del que disposen gràcies a la IA aporti més valor a la societat.

 

L'etiqueta dels crawlers

Si implementem un crawler cal ser educats amb les pàgines que recorre el crawler. No consultar-les més freqüentment del que calgui, i no intentar piratejar la informació a la qual s'accedeix pagant. Només accedir a allò que com persones igualment podríem accedir de forma gratuïta o perquè ja estem pagant. A més, cal fer cas de les indicacions de robots.txt

 

Si es pot explicar, es pot programar

És a dir, si una persona sap explicar com ho fa per extreure informació quan revisa una font, aquest procés es pot automatitzar i per tant es pot programar. Si pel contrari hi ha una part innovadora o creativa en aquest procés, llavors és més difícil. Entraríem ja en el terreny de l'aprenentatge automàtic, que queda fora de l'abast d'aquest article.

 

La informació i el peix

El peix i la informació tenen més valor com més frescos són. De poc serveix saber alguna cosa quan aquesta ja ha caducat, o quan la nostra competència ja la ha aprofitat i llavors el valor baixa dràsticament.

 

És complicat clavar un clau amb un tornabís

Tot i que es pot, no és l'eina adient. Escollir bé quins llenguatges de programació i sistemes subjacents fer servir facilita molt la tasca. Ara bé... veure següent punt.

 

El llenguatge de programació no és tan important

No és el llenguatge de programació el que farà que sigui útil un Information Retriever. És l'algorisme i el disseny de la seva arquitectura, adaptada a cada situació, a més de la qualitat del software que generem... veure següent punt.

 

Molt saben fer programes que entengui un ordinador...

... però només els bons programadors sabem fer un programa que a més entengui fàcilment un altre programador. Aquests són els programes que genera una empresa de software de qualitat, i són aquests els programes potents i barats de mantenir.

 

Quan no implementar un Information Retriever

Conèixer els avantatges que aporta i saber com fer-ho sempre és un avantatge respecte a no saber. Ara bé, no té per què ser una bona decisió. Si les fonts d'informació (I1, I2, ...) ofereixen ja mecanismes de suscripció (de pagament o gratuits) per rebre de forma estructurada i completa tota la informació que ens cal, actualitzada, al moment, és probable que ens resulti més econòmic adaptar els nostres sistemes software i suscriure'ls a aquests sistemes que implementar un Information Retriever.

 

 

Glossari

Aclarim aquí alguns termes que anirem fent servir. Més enllà de donar la seva definició genèrica (que el lector podrà trobar a la wikipedia) ens hem esforçat per dir a què ens referim amb ells en aquest context.

Algorisme/Algoritme: procediment, estratègia.

API (Application Programming Interface): invocacions que ofereix una aplicació per tal que d'altres aplicacions puguin fer servir algunes de les seves funcionalitats.

BD (Base de Dades): una base de dades és un component d'un sistema de software a on es guarda informació de forma estructurada.

Bot: és un robot sense cos. És a dir, només el software.

Crawler / Aranya: bot (programa) que entra a pàgines d'internet i descarrega el seu contingut (allò que fa google amb totes les pàgines)

CRM (Customer Relationship Manager): aplicatiu que s'encarrega de mantenir els clients d'una empresa i la seva relació amb ells.

ERP (Enterprise Resource Planner): aplicatiu que s'ocupa de gestionar els processos de producció d'una empresa.

GUI (Graphical User Interface): controls que pot fer servir un usuari per utilitzar funcionalitats d'una aplicació.

IA (Intel·ligència Artificial): paradigma de programació consistent en pensar un algorisme de la mateixa manera que ho faria una persona si fos una persona qui hagués de fer la feina.

IR (Information Retriever): software que s'encarrega de trobar informació incumbent automàticament.

Magatzem de contingut descarregat: contingut descarregat pels crawlers pel seu posterior tractament.

Parser: programa que extreu informació d'un text.

Programa: és un algoritme escrit en un llenguatge que un ordinador entengui i així el pugui executar.

Robot: provè del polac "esclau" i és quelcom artifical construit per fer el que li diguis emulant el que faria un ésser humà.

robots.txt: els webs tenen un fitxer a la seva arrel que es diu robots.txt que són indicacions perquè si algu fa un crawler, les respecti. Consisteixen bàsicament en no entrar massa sovint i no entrar a segons quines rutes.

Sistema software / Sistema d'informació / Aplicatiu / Aplicació: conjunt de programes i dades que produeixen nova informació a partir d'informació existent.