Wikipedia:Bot/Sostituzioni
Da Wikipedia, l'enciclopedia libera.
I bot operano su grosse quantità di voci e, normalmente, in modo non visibile nella pagina Ultime modifiche. Occorre pertanto che le sostituzioni standard che possono effettuare siano assolutamente conosciute e condivise da tutti i wikipediani.
Ovviamente i bot effettuano anche sostituzioni o modifiche di parole specifiche, che vengono decise di volta in volta, in completa autonomia, da ogni gestore di bot. Viceversa le sostituzioni automatiche o standard (che vengono cioè sempre effettuate dal bot), devono essere comprese tra quelle elencate in questa pagina.
Qualora si volesse approntare un lavoro che coinvolge tutte le voci presenti su Wikipedia, se si dispone di un software in grado di usare i dump in formato XML prelevabili da http://download.wikimedia.org (come il pywikipediabot), sarà possibile svolgere il compito in maniera più veloce e mirata, facendo risparmiare lavoro ai server.
- Attenzione
- Le sostituzioni automatiche al di fuori del namespace principale sono generalmente non approvate, in quanto possono provocare effetti indesiderati.
Indice |
[modifica] Sostituzioni periodiche
[modifica] da Image a Immagine
- Modalità di esecuzione: automatica
- Descrizione sintetica: Image: -> Immagine:
- Discussione relativa: (discussione)
- Comando:
replace.py -regex "\[\[[Ii]mage:(.*?)\]\]" "[[Immagine:\1]]" -namespace:0 -xml:itwiki-XXXXXXXX-pages-meta-current.xml
[modifica] inversione delle accentate finali
- Modalità di esecuzione: automatica
- Descrizione sintetica:
- Discussione relativa: (Elenco)
- Comando: Regexp Attenzione: solo il primo schema è pronto per l'esecuzione totalmente automatica.
- Ripetere ogni: mese
- ultima esecuzione di:--Tf (ping) 15:50, 12 giu 2008 (CEST)
[modifica] Rimozione di riferimenti
- Modalità di esecuzione: manuale (bot-assisted)
- Descrizione sintetica: Riferimenti -> Note e Bibliografie (scegliere di volta in volta se la sostituzione corretta è uno o l'altro)
- Discussione relativa: (discussione)
- Comandi:
replace.py -regex "(={2,4} ?)[Rr]iferimenti( ?={2,4})" "\1Bibliografia\2" -namespace:0 -summary:Riferimenti->Bibliografia come da [[Wikipedia:Bar/Discussioni/Note e riferimenti]]" -xml:itwiki-XXXXXXXX-pages-meta-current.xml replace.py -regex "(={2,4} ?)[Rr]iferimenti( ?={2,4})" "\1Note\2" -namespace:0 "-summary:Riferimenti in Note come da [[Wikipedia:Bar/Discussioni/Note e riferimenti]]" -xml:itwiki-XXXXXXXX-pages-meta-current.xml
- Ripetere ogni: 2 mesi
- ultima esecuzione di: in corso da --Alleborgo 08:55, 29 set 2007 (CEST)
[modifica] collegamenti esterni interni
- Modalità di esecuzione: manuale (bot-assisted)
- Descrizione sintetica: Negli articoli di Wikipedia, ci sono dei link che puntano ad articoli di Wikipedia stessa. Sarebbe meglio correggerli con le doppie parentesi quadre.
- Discussione relativa: (discussione)
- Comando:
replace.py -fix:syntax -namespace:0 -xml:itwiki-XXXXXXXX-pages-meta-current.xml
[modifica] Virgolette, accenti, apostrofi
- Modalità di esecuzione: (semi-)semi-automatica
- Descrizione sintetica: ci sono alcuni caratteri ("`", "“", "‘", "’") spesso utilizzati a sproposito da chi scrive le proprie pagine con Word (o, più raramente, da chi è abituato a LaTeX)
- Discussione relativa: (discussione)
- Comando:
python replace.py -regex "che\`" "ché" "\`([Ss])" "'\\1" "a\`" "à" "e\`" "è" "i\`" "ì" "o\`" "ò" "u\`" "ù" "([LlDd])\`" "\\1'" "\`\`([^ ])''" '"\1"' "\`\`" '"' -xml:itwiki-XXXXXXXX-pages-meta-current.xml -exclude:excludelog.txt -namespace:0
- (Per ora queste regex risolvono solo il problema del carattere "`", e richiedono comunque di fare a mano svariati casi sfortunati. Se qualcuno sapesse come condensare in una sola sostituzione le varie vocali - cosa che si può fare con Sed ma forse non con una sola regex - me lo faccia sapere)
- Ripetere ogni: volta che esce un nuovo dump
- ultima esecuzione di: --Toobaz rispondi il 12:14, 4 dic 2007 (CET)
Problema | Descrizione | Testo da ottenere | Codice |
---|---|---|---|
Rimozione dell'accento | Alcune parole che sono scritte con l'accento non dovrebbero averlo, in teoria. | qui, qua, sto... | |
Consuetudini | I titoli di sezione "Vedi anche", "Articoli correlati " e simili, "Link esterni" e simili. | == Voci correlate == == Collegamenti esterni == |
|
Codice wiki | *Sistemazione delle entity html mancanti del segno finale ";" (ad esempio "  ") e sostituzione di quelle che rappresentano caratteri accentati (à, è...). Non vanno sostituiti: , >, <. | ||
Apostrofi e virgolette | Apici, apostrofi, virgolette alte devono essere sempre del tipo semplice. | ' " |
[modifica] da Kmq a km²
- Modalità di esecuzione: automatica
- Descrizione sintetica: [Kk]m[q2] -> km²
- Discussione relativa: (discussione)
- Comando:
python replace.py -namespace:0 -xml:itwiki-XXXXXXXX-pages-meta-current.xml -regex "[Kk]m[q2]" "km²" -summary:"Bot: -km[q2] +km²"
[modifica] Spazio dopo la punteggiatura
- Modalità di esecuzione: manuale
- Descrizione sintetica: Inserire uno spazio dopo la virgola (,), il punto e virgola (;) ed il punto (.)
- Discussione relativa: (discussione)
- Comando:
non ancora deciso
- Ripetere ogni:
- ultima esecuzione di:
[modifica] fix template portale
- se ci sono più template portale in una voce riunirli (es. da "Portale|1" e "Portale|2" a "Portale|1|2")
- mettere in ordine alfabetico i parametri (es. da "Portale|b|a" a "Portale|a|b")
- mettere i parametri in minuscolo, tranne per i nomi propri (es. da "Portale|Musica" a "Portale|musica", non vale ad es. per "Genova", "Gesù" ecc.)
Preso da Template:Portale/man. --87.0.125.182 (msg) 21:24, 3 mag 2008 (CEST)
[modifica] category
cambiare "Category" in "Categoria" come per "immagine". --87.0.125.182 (msg) 21:24, 3 mag 2008 (CEST)
[modifica] categoria "biografie"
togliere la categoria "Biografie" dalle voci un cui c'è il template "Bio", che aggiunge la categoria automaticamente. --87.0.125.182 (msg) 21:24, 3 mag 2008 (CEST)
[modifica] Voci correlate
[modifica] Collegamenti esterni
- (IT) HOWTO sulle Espressioni Regolari di A.M. Kuchling (Python)
- (IT) Manuale delle regex su botwiki, comprende una spiegazione per l'utilizzo dei dump