Condividi:        

Salvataggio multiplo file da html a .txt

Vuoi potenziare i tuoi documenti Word? Non sai come si fa una macro in Excel? Devi creare una presentazione in PowerPoint?
Oppure sei passato a OpenOffice e non sei sicuro di come lavorare al meglio?

Moderatori: Anthony47, Flash30005

Salvataggio multiplo file da html a .txt

Postdi Gattuccio0 » 09/02/12 18:14

Ciao a tutti ragazzi,
ho un piccolo problemimo con qualche migliaio di files.

Vengo al dunque:
ci sono pagine di siti in cui ci siano degli indirizzi di aziende con nome, indirizzo, città, ecc. la mail non è visibile...bensì è un tasto (notiamente dice contatta azienda) sul quanle passando con il mouse fa vedere l'indirizzo di posta elettronica.

Se dalla finestra finestra del browser andiamo su File = salva pagina con nome... = la nominiamo es. Pippo e come file diamo la specifica "file di testo" il nostro file Pippo.txt avrà tutte le diciture leggibili compreso l'indirizzo mail.
Con una macro si uniscono tutti i file formato .txt e abbiamo il nostro elenco.

Problema:
di ogni pagina web di cui sopra accennavo, io ho una cartella con migliaia di file in formato .html. Se utilizzassi un programma per velocizzare la trasformazione in .txt (tipo HTMLAsText) il risultato non sarebbe identico, in quanto al posto dell'indirizzo mail mi darebbe un campo vuoto (vi allego i file come esempio: i dati sono inventati...ma come vedrete nel file "sbagliato" i campi mail, telefono, fax, ecc. sono vuoti e separati da "|". qui c'è il file https://rapidshare.com/files/2011477638/test.zip )

Vi ringrazio anticipatamente.
Gattuccio0
Utente Senior
 
Post: 186
Iscritto il: 22/06/09 12:46

Sponsor
 

Re: Salvataggio multiplo file da html a .txt

Postdi Gattuccio0 » 09/02/12 18:17

Scusate...mi sono perso un pezzo...la cosa importante:
al fine di riuscire nella trasformazione corretta è possibile fare una macro...oppure qualcuno conosce un software capace di riusire nell'impresa?

Vi ringrazio.
Gattuccio0
Utente Senior
 
Post: 186
Iscritto il: 22/06/09 12:46

Re: Salvataggio multiplo file da html a .txt

Postdi Anthony47 » 09/02/12 22:10

Piu' o meno forse ho capito dove vuoi arrivare, non mi e' pero' chiaro da dove stiamo partendo...

Ciao
Avatar utente
Anthony47
Moderatore
 
Post: 19213
Iscritto il: 21/03/06 16:03
Località: Ivrea

Re: Salvataggio multiplo file da html a .txt

Postdi Gattuccio0 » 10/02/12 10:37

Ciao Anthony,
sto partendo da una cartella che ha al suo interno 8.341 files in formato .html che, così come sono non posso organizzare in rubrica o importarli in nessun programma (perchè oltre ad avere codici, immagini, ecc. mi creano il problema di non farmi salvare gli indirizzi di posta elettronica, ed i recapiti).

Il mio scopo è di trasformarli in file in .txt leggibili in ogni loro dettaglio in modo da poterli organizzare in rubrica o data base (per questo poi farò una macro o ne userò una in mio possesso).

Ciao.
Gattuccio0
Utente Senior
 
Post: 186
Iscritto il: 22/06/09 12:46

Re: Salvataggio multiplo file da html a .txt

Postdi Anthony47 » 10/02/12 14:32

Allora non avevo proprio capito...
Pero', scusa, perche' devi passare su file .txt? non ti basta cercare nei file .html le stringhe "<a href="mailto:" che preludono a un email address?
Se ti quadra, sei in grado di sviluppare questa logica?

Ciao
Avatar utente
Anthony47
Moderatore
 
Post: 19213
Iscritto il: 21/03/06 16:03
Località: Ivrea

Re: Salvataggio multiplo file da html a .txt

Postdi Gattuccio0 » 10/02/12 14:43

Ciao Anthony,
qui di seguito allego un file (informazioni fittizie) per far vedere il file nativo in che stato è
https://rapidshare.com/files/3327530441 ... p_6841.zip

Se lo metti in una cartella e nella parte destra metti l'opzione di visualizzare il contenuto del file vedrai che le informazioni del contatto (telefono, fax, mail, ecc.) sono visualizzabili solo se passi sopra con il mouse...ed io mi ci perdo!
Gattuccio0
Utente Senior
 
Post: 186
Iscritto il: 22/06/09 12:46

Re: Salvataggio multiplo file da html a .txt

Postdi Anthony47 » 10/02/12 15:04

Se guardi il contenuto del file con un text editor (cioe' non lo interpreti con un browser) vedrai che al suo interno e' contenuto un tag <a href="mailto:euaffairs@DOMINIO.it">
Dovrebbe quindi bastare cercare questi testi nei file per avere gli indirizzi di email.
Se vuoi anche altro allora devi guardare come sono organizzati i dati nel file sorgente e cercare; ad esempio i telefoni sono associati al tag <a href="#" onClick=etc etc>

Ma sei sicuro di avere il diritto di compiere questa operazione sul database in tuo possesso?

Ciao
Avatar utente
Anthony47
Moderatore
 
Post: 19213
Iscritto il: 21/03/06 16:03
Località: Ivrea

Re: Salvataggio multiplo file da html a .txt

Postdi Gattuccio0 » 10/02/12 15:22

Anthony47 ha scritto:Ma sei sicuro di avere il diritto di compiere questa operazione sul database in tuo possesso?



Il file che ho allegato è un esempio che ho preso dal web...non è quello aziendale anche perchè i dati riportati sono troppi da cancellare per far si che rimanga nell'anonimato (per fare un esempio: di ogni scheda lavoro sono contenuti tutti i nominativi di collaboratori, fornitori che vi hanno partecipato con immagini, indirizzi anche personali, ecc. di parla di almeno un centinaio di record per scheda).

Questo DB una volta era un sofware in rete aziendale. Nel corso dei secoli...è stato portato su web affinchè potesse essere condiviso con collaboratori. L'azienda che aveva in gestione il tutto come farm (Planet) andò in fallimento. Avendo utilizzato un register estero per la registrazione di questo dominio...con il fallimento di PLanet sono andate perse tutte le possibilità di rientrare in possesso dei dati...non solo del vecchio dominio .com che non abbiamo potuto portare a nessun altro manteiner ma sono andate paersi tutti i contenuti che avevamo compresi data base, programma originale di back up, ecc.

Essendo io l'ultimo cretino arrivato...mi sembrava "anomalo" che non ci fosse un back up dati interno all'azienda...e quindi, l'utlima operazione che feci a suo tempo è stata quella di scaricare da web i files.

Fecero delle stampe per organizzare il tutto in modo cartaceo ma...se una scheda varia un dato...si può riscere e ristampare...ma dal momento che ci sono da rimettere tutti i dati in un nuovo DB diventa impensabile riscrivere il tutto.
Gattuccio0
Utente Senior
 
Post: 186
Iscritto il: 22/06/09 12:46

Re: Salvataggio multiplo file da html a .txt

Postdi Anthony47 » 10/02/12 23:26

La vita ogni tanto riserva qualche sorpresa, altrimenti sai che monotonia....
Non ho capito se i tag <a href="mailto e <a href="#" onClick ti sembrano un' ancora di partenza o meno.

Ciao
Avatar utente
Anthony47
Moderatore
 
Post: 19213
Iscritto il: 21/03/06 16:03
Località: Ivrea

Re: Salvataggio multiplo file da html a .txt

Postdi Gattuccio0 » 13/02/12 09:36

Ciao Anthony,
i tag <a href="mailto e <a href="#" onClick mi sembrano un ottimo suggerimento.

Quindi io dovrei creare una macro in Excell che vada ad aprire i file in .htm, che cerchi i tag e li sostituisca...e che salvi il documento in .txt?
Gattuccio0
Utente Senior
 
Post: 186
Iscritto il: 22/06/09 12:46

Re: Salvataggio multiplo file da html a .txt

Postdi Gattuccio0 » 13/02/12 10:12

...stavo pensando ad una cosa: se io nella cartella Pippo ho 4000 mila files, al posto di creare una macro, eventualmente potrei creare una sorta di applicativo (un classico .BAT) che apra i files uno ad uno e che tramite Mozzilla faccia il "salva con nome" in formato .txt e salvi il file?
Gattuccio0
Utente Senior
 
Post: 186
Iscritto il: 22/06/09 12:46

Re: Salvataggio multiplo file da html a .txt

Postdi Gattuccio0 » 13/02/12 15:52

Ciao a tutti,
ho risolto il tutto con l'utilizzo di un software free.

So che non è un lavoro "raffinato" come l'andare a tradurre una problematica in soluzione ad hoc con una macro...ma se pur "sporca" è stata una soluzione decente. L'applicazione è TXT Collector.

Ha tradotto brutalmente i codici html in testo (per cui anzichè avere due righe di testo ogni file ne ha 200)...sarà più lungo il lavoro dopo ma ha riportato tutti i campi alla perfezione.
Gattuccio0
Utente Senior
 
Post: 186
Iscritto il: 22/06/09 12:46

Re: Salvataggio multiplo file da html a .txt

Postdi Anthony47 » 13/02/12 16:05

Avevo capito che l' obbiettivo e' estrarre le informazioni dai file; per questo allora devi aprire i singoli file html, leggere il testo riga per riga; verificare la presenza del tag <a href="mailto: che prelude a un indirizzo di email, estrarre il testo dal ":" fino alla prossima sequenza ">; verificare la presenza del tag <a href="#" onClick= ed estrarre i dati che seguono.
Il tracciato dei dati lo devi vedere aprendo i file con un text editor, quanto ho scritto sopra l' ho rilevato da un file di esempio che hai postato qualche giorno fa.
Trovi esempi dove vengono aperti file per leggerli riga per riga in questi thread:
viewtopic.php?t=92323
viewtopic.php?t=92179#p526230
viewtopic.php?p=490729#p490715

Ti ricrei cosi' su un foglio excel le informazioni che cerchi; cosa farne e' tutto un altro discorso.

Ciao
Avatar utente
Anthony47
Moderatore
 
Post: 19213
Iscritto il: 21/03/06 16:03
Località: Ivrea

Re: Salvataggio multiplo file da html a .txt

Postdi Gattuccio0 » 13/02/12 22:26

Anthony47 ha scritto:Trovi esempi dove vengono aperti file per leggerli riga per riga in questi thread:
viewtopic.php?t=92323
viewtopic.php?t=92179#p526230
viewtopic.php?p=490729#p490715

Ti ricrei cosi' su un foglio excel le informazioni che cerchi; cosa farne e' tutto un altro discorso.

Ciao


Sono rimasto senza parole...
Gattuccio0
Utente Senior
 
Post: 186
Iscritto il: 22/06/09 12:46


Torna a Applicazioni Office Windows


Topic correlati a "Salvataggio multiplo file da html a .txt":


Chi c’è in linea

Visitano il forum: Nessuno e 42 ospiti