Buonasera a tutti,
Mi ritrovo di nuovo con un problema riguardo l'estrazione di dati specifici da un html, ma questa volta temo che la difficoltà sia superiore. Nello specifico, in questo sito https://5minuteconsult.com/collectionbrowse/6/drugs è presente una lista di 1900 principi attivi esistenti riguardo i farmaci. Io dovrei manualmente entrare in ognuno di essi e copiare ed incollare in Excel le indicazioni scritte sotto la sezione Indications, appunto. In questa specifica sezione vi è solitamente un testo in grassetto e neretto che vorrei fosse esportato sul foglio Excel mentre il resto può essere scartato, come si può vedere dall'immagine [https://imgur.com/AoAyp1v]. Ci tengo ad aggiungere che il formato per ogni principio attivo è essenzialmente lo stesso identico, per questo penso che forse sia possibile raggiungere l'obbiettivo richiesto.
Fatta la premessa inizio con il descrivere i vari problemi che non ho la competenza di valutare in termini di difficoltà:
1. Bisogna essere loggati con un account (gratuito con la sola richiesta di un email) per visualizzare l'intero contenuto per ogni principio attivo e non so se usando l'import di Excel possa essere un problema.
2. Bisognerebbe far in modo che entri in tutti i principi attivi in modo automatico e non ho la competenza di sapere se sia possibile.
3. Deve solo importare una parte di testo ignorando il resto ed inoltre di rado non è neanche presente (per cui dovrebbe semplicemente andare avanti lasciandolo vuoto)
Procedo con un esempio del risultato desiderato:
1. Principio Attivo | Indicazione | Indicazione | ...
2. Abacavir |HIV-1 infection
3. Abaloparatide | Osteoporosis
4. Abciximab | Percutaneous coronary intervention | Unstable angina/non-ST-elevation myocardial infarction
5. Aminocaproic Acid
6. Camphor | Cough |Pain | Pruritus/Pain
e cosi via ....
Spero di essere stato chiaro, ed aggiungo che anche una soluzione semi-automatica sarebbe molto gradita.
Vi ringrazio per il tempo che dedicherete anche solo alla lettura di questo post e vi auguro una buona serata.