Condividi:        

Cpme processare automaticamente un file html?

Hai problemi con i file Zip, vuoi formattare l'HD, non sai come funziona FireFox? O magari ti serve proprio quel programmino di cui non ricordi il nome! Ecco il forum dove poter risolvere i tuoi problemi.

Moderatori: Dylan666, hydra, gahan

Cpme processare automaticamente un file html?

Postdi cassioli » 25/03/04 18:56

Ho avuto il permesso di estrarre da queste pagine http://msowww.anu.edu.au/library/thesaurus/italian/index-A.html le traduzioni delle varie parole, ma trattandosi di pagine molto vecchie, sembra che le liste originali siano andate perdute. Ho provato ad estrarre a mano la prima riga di ogni pagina, per metterla in un file di testo e poi importare tutto con un foglio di calcolo e ricavarne liste distinte; funziona, ma... cavolo, all'inizio non mi erano sembrate COSI' TANTE, 'ste parole! A mano non ce la faro' mai!!!

L'autore mi ha detto che cerchera' di contattare gli "antichi autori" delle liste (la pagina e' del 1999...), ma non ho molta fiducia.

Chi sa come potrei estrarre in automatico quella dannata riga tra parentesi quadre? Potrei usare uno scarica-siti per scaricare tutte le pagine, e scrivere un programma che tira fuori la prima riga, ma magari esiste un modo piu' rapido, o qualcosa di gia' fatto, che ne so?...

Comincio a scrivere il programma?... :roll: :mmmh:

Luca
cassioli
Utente Senior
 
Post: 1014
Iscritto il: 05/03/04 11:02

Sponsor
 

Postdi pjfry » 25/03/04 22:52

boh... forse con excel?
( :roll: ma che te ne fai di 'sta roba?)
Avatar utente
pjfry
Moderatore
 
Post: 8240
Iscritto il: 19/11/02 17:52
Località: terni

Postdi Dylan666 » 26/03/04 01:45

Ti dico come farei io: prima scaricherei tutto il sito con un programma apposito (se vuoi ti do un paio di nomi) salvando solo i file HTML naturalmante. Poi li convertirei in un file di testo con un piccolo programmino DOS come questo:

http://www.home.aone.net.au/kangaroo/htm2txt.htm

che ha il pregio di tasformare anche i simboli "|" in "a capo" in modo da avere tutte le parole in colonna (parlo degli indici). Poi crei un unico file di testo e lo modifichi quel tanto che basta con un po' di "trova e sostiuisci" da farlo diventare masticabila in Excel. Per questo ultimo passaggio ti consiglierei di unire tutti i testi in un colpo solo da Word usando inserisci>file...

Avevo provato fare la cosa sempre da DOS ma i caratteri jolly non sembrano supportaty da "type" o "copy", almeno dal prompt del win. Qualcuno sa come si fa da DOS ho a un software apposito (è una mia curiosità)?
Avatar utente
Dylan666
Moderatore
 
Post: 39993
Iscritto il: 18/11/03 16:46

Postdi pjfry » 26/03/04 09:27

in dos c'è find che può essere utile, credo... restituisce le righe in cui sono presenti determinati caratteri, poi si può ridirigere l'output su un file o su un altro programma :roll:
Avatar utente
pjfry
Moderatore
 
Post: 8240
Iscritto il: 19/11/02 17:52
Località: terni

Postdi Dylan666 » 26/03/04 10:42

In DOS comunque si può accodare semplicemente con;

copy *.txt indice.txt.bak

PS.
Il file di destinazione è bene abbia estensione divesra a qualli di unione (in questo caso bak, la cambierai dopo) altrimenti si riceverà un messaggio di errore perché il DOS non è riuscito ad accodare anche il TXT che stava creando (praticamente un po' come un serpente che si morde la coda)
Avatar utente
Dylan666
Moderatore
 
Post: 39993
Iscritto il: 18/11/03 16:46

Postdi cassioli » 26/03/04 14:22

pjfry ha scritto:boh... forse con excel?
( :roll: ma che te ne fai di 'sta roba?)

Sto cercando di costruire un dizionario inglese-italiano freeware il piu' completo possibile.
Si accettano suggerimenti su dove trovare altre liste di parole gartuite...

Luca
cassioli
Utente Senior
 
Post: 1014
Iscritto il: 05/03/04 11:02

Postdi cassioli » 26/03/04 14:27

Grazie a tutti, ma ho tisolto il problema in un modo piu' semplice: l'autore delle pagine ha ritrovato l'indirizzo web delle sue fonti, e li' ho trovato la lista multilingue gia' bell'e pronta in unico file. 2970 nuove parole da aggiungere al mio dizionario, con un click! :D
La LORO lista la trovate su http://www.aao.gov.au/lib/multiling.txt, mentre il mio dizionario e' su http://jumpjack.altervista.org: la lista, per il momento senza questa "astronomica" e altre su cui sto lavorando, e' nella versione freeware del dizionario, per l'esattezza qui:
http://jumpjack.altervista.org/diziop800.zip

Luca
cassioli
Utente Senior
 
Post: 1014
Iscritto il: 05/03/04 11:02


Torna a Software Windows


Topic correlati a "Cpme processare automaticamente un file html?":


Chi c’è in linea

Visitano il forum: Nessuno e 62 ospiti