Wikipedista:BotCS
Z Wikipedie, otevřené encyklopedie
BotCS je skript (webový robot) pro automatické udržování české Wikipedie. Nepravidelně a interaktivně jej spouští Wikipedista:Michal Jurosz prozatím pro udržování mezijazykových odkazů.
Obsah |
[editovat] Historie používání robota
- hodně dávno - Česká Wikipedie potřebuje robota, který pomůže alespoň s interwifikací. Začínám si tedy hrát s usilovně vyvíjeným balíkem Python Wikipedia Robot Framework. Chyba způsobující problémy s českými znaky ve shrnutí editace byla vývojaři rychle odstraněna. Vypadá to tedy, že robot bude použitelný.
- 22.červenec (10:14) - Spouštím první větší test. Je vidět, že robot dosti zaneřádil poslední změny. Zastavuji tedy jeho činnost a prosím o pomoc při nastavení flag bot (viz. následující odstavec).
- 23. červenec
- 14:40 - BotCS obdržel status robota. Spouštím jej na 122 článků (1231 oprav + opravy formátování) získaných z warnfile robota na sl wikipedii.
- 18:20 - Spuštěn interwiki robot na prvních 100 stránek (od stránky 0). Robot má mezi aktualizacemi (uploadem) asi 50 sekund pauzu a také pauzy mezi načítáním stránek, takže příliš nezatěžuje server.
- 18:55 - Robot zastaven. Warnfile, který generuje není v utf-8, ale obsahuje spoustu otazníků, takže není použitelný pro roboty na ostatních wikipediích. Myslím, že je zbytečné stahovat ostatní jazykové verze a zatěžovat tak server, pokud těmto verzím nemůžeme rovněž s interwiki pomoci.
- 31. červenec
- 10:50 - Spuštěno s JA warnfile (173 článků, 3592 změn).
- 13:49 - Hotovo.
- 20.srpen
- 22:22 - Spouštím robota pro náhradu šablony stub šablonou pahýl. Více Wikipedie diskuse:Pahýl.
- 31.srpen
- 10. září
- 19:30 - Spuštěn s JA warnfile 2004-09-04 (533 článků, 6582 změn).
- 22:52 - Pozastaveno, zbytek snad zítra. Dobrou noc.
- 11.září - 8:55 až 9:38 - Dokončeno.
- 28.září - 14:20 až 20:17 - Kategorizace více než osmiset článků (1. leden až 31. prosinec a 1304 až 1999).
- 28. listopad - 9:03 až 12:52 - Spuštěn s JA warnfile 2004-11-15 (387 článků, 1545 změn). Dvakrát to spadlo a robot procházel články znovu.
[editovat] Odkazy na cizojazyčné stránky (interwiki)
- Skript načte českou stránku (verzi pro editaci).
- Pomocí interwiki odkazů na této stránce (nebo vstupu od uživatele) najde cizojazyčné názvy stránek. Pracuje rekurzivně, tj. prochází (načítá) všechny cizojazyčné stránky.
- Rozumí a opravuje přesměrování a při nalezení dvou různých odkazů na jednu jazykovou verzi se poradí s uživatelem.
- Pokud vše proběhne vpořádku, tak opraví českou verzi stránky (s uživatelským jménem BotCS) a vypíše seznam nesrovnalostí u ostatních jazykových verzí (warnfile).
Obdobou robota BotCS je na anglické Wikipedii en:User:Robbot.
[editovat] Doplnění interwiki do všech článků
Programuji Perl Wikipedia Toolkit a používám offline verzi databáze (SQL dump).
- dostupné výsledky pro interwiki jsou na stránce Wikipedie:Interwiki
- dále se chystám vytvořit seznam českých stránek bez interwiki odkazů. Do seznamu ke každému článku doplníme jeden interwiki odkaz a robot vše další provede automaticky. Pak bude možné spustit robota na celou českou Wikipedii a zveřejnit vygenerovaný warnfile, aby správci příslušných robotů na cizojazyčných Wikipediích mohli doplnit interwiki na české články.
--Michal Jurosz 12:16, 29. 11. 2004 (UTC)