Valutazione 4.87/ 5 (100.00%) 5838 voti
Blog

News correlate: algoritmo nuovo vs algoritmo vecchio

webmaster: 07/11/08 @ 17:25
Come abbiamo già scritto varie volte sto lavorando insieme a zello per vedere di ottimizzare l'algoritmo che decide se due news sono correlate o meno.

Al momento ci sono 11 possibili variabili (ne abbiamo trovata una nuova) ognuna della quali può assumere un valore da 1 a 10. Questo vuol dire che ci sono 100.000.000.000 (cento miliardi) di possibili combinazioni da calcolare. Ovviamente qualcosa di impensabile se consideriamo che il calcolo di una sola combinazione richiede almeno 0,05 secondi e che sto implementando un tesuaro nell'algoritmo - cioé che sto per aggiungere una nuova variabile - e che questo porterà le combinazioni a un bilione.

Zello ha implementato un algoritmo genetico che semplificherà di molto il calcolo delle combinazioni in modo darwinistico e quindi diminuirà i tempi.

Per verificare quale combinazione di variabili è la migliore abbiamo scelto un numero di news e abbiamo indicato un numero di collegamenti che la combinazione migliore deve trovare. Senza grandi ottimizzazioni il tool di zello ha già individuato una combinazione che trova il 68% dei link che abbiamo indicato noi a mano. Il problema è che trova anche molti falsi positivi.

Ho quindi voluto far fare al mio algoritmo (quello attuale) la stessa prova per vedere come se la cava. Bene, il mio algoritmo ha trovato solo il 9% dei collegamenti che avrebbe dovuto, ma ha anche trovato solo il 2% di falsi positivi.

Cosa vuol dire questo? Semplicemente che il mio algoritmo, per quanto sembri buono, è molto scarso quando paragonato ai primi test di zello e che appena implementato il nuovo algoritmo si vedranno dei grandi miglioramenti.

Bon, è ora di tornare al lavoro. L'implementazione del tesauro è la mia priorità ora.

Commenti: 2


Post precedente
Query ottimizzata

Post successivo
Software per statistiche


I commenti dei lettori:

Dylan666 Dylan666 il 25 Novembre 08 @ 23:09 pm

sto implementando un tesuaro nell'algoritmo


'implementazione del tesauro è la mia priorità ora.

Intendi un dizionario?

webmaster webmaster il 26 Novembre 08 @ 01:10 am

no, intendo proprio un tesauro

Lascia un commento

Insulti, volgarità e commenti ritenuti privi di valore verranno modificati e/o cancellati.
Nome:

Commento:
Conferma visiva: (ricarica)

Inserisci la targa della città indicata nell'immagine.

Login | Iscriviti

Username:

Password: