See also ebooksgratis.com: no banners, no cookies, totally FREE.

CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
Privacy Policy Cookie Policy Terms and Conditions
Обсуждение Википедии:Проект:Заливка новых статей — Википедия

Обсуждение Википедии:Проект:Заливка новых статей

Материал из Википедии — свободной энциклопедии

[править] Википедия:Проект:Россия

Надо добавить в список. Начало обсуждения: Обсуждение Википедии:Проект:Города России#Составление базы данных. Сейчас готовится база всех НП России. -- Жж! 12:52, 6 июня 2008 (UTC)

Это хороший проект, надо его отдельным разделом, так как другие проекты занимаются вытаскиванием информации из чужих Википедий, а здесь - отступать некуда - нужны российские источники информации, поэтому другая технология. неон 21:20, 6 июня 2008 (UTC)

[править] Википедия:Проект:Подводные лодки

Этот проект — о заливке новых статей. Почему в приглашении отдельно указывались географические статьи? :) Заливки подводных лодок не в счёт? А то участники проекта интересуются ;) Львова Анастасия 11:19, 9 июня 2008 (UTC)

[править] Практика

Нужно наверно на практике попробовать сделать что-нибудь вместе, например для начала по актуализации сведений или углубление информации, ботовладельцы оценили бы свои возможности впрочем как и другие участники.

Ты бы для начала неон просто говорил бы что нужно сделать. Не совсем понятно чем могут точно помочь ботовладельцы, если скажем непосредственно извлечением информации из других вики то нужны твои скрипты. --Latitude 21:56, 9 июня 2008 (UTC)

А свои нельзя написать? Парсинг шаблонов с помощью parsetree особых проблем не составляет — ВасильевВ2 17:01, 11 июня 2008 (UTC)

Я предлагаю следующее.

У меня бот настроен на извлечение информации. Он собирает из других вики данные в виде таблицы и записывает их - в первую очередь это конечно парсинг шаблонов, но потом - поиск параметров по контексту. Результат собирается в БД.

Сейчас это занимает достаточно мало времени - просто пропарсить шаблоны списка из 1000 статей заёмет 20 минут. Полученные таблицы я могу передавать другим ботам, которые осуществляют по ним генерацию текста. Кто хочет посмотреть как выглядят пропарсенные таблицы - напишите мне по емейлу - перешлю образец (даже на заданную тему). Сложность представляют плохоавтоматизированные работы - перевод имён например и проверка таблиц на ошибки - тут приходится работать вручную, но когда информация в таблице, которую можно сортировать вдоль и поперёк, все ошибки становятся заметны неон 17:17, 11 июня 2008 (UTC)

Парсинг производится только по иновикам? Мне нужно пропарсить 703 страницы сайта uboat.net такого вида со сбором инфы из таблиц в один файл, будь то текстовик или html. Возможно ли это сделать твоими силами? Геренацию текста беру на себя с notepadом. --Rave 07:54, 12 июня 2008 (UTC)

Парсинг конечно нужно настраивать, хотя это не очень сложно, но это некоторая работа. Мой парсинг берёт шаблоны википедии, и после некоторой настройки берёт достаточно регулярные конструкции типа таблиц и списков, такую тоже возьмёт. Если есть список всех этих страниц, а структура таблиц одна и та же - парсинг справится, тут очень помогают (но и мешают) htmlевские таги. Результат парсинга - таблица базы данных со структурой, типа описанной Википедия:Проект:Заливка новых статей/Технические детали. неон 08:18, 12 июня 2008 (UTC)



Type <a href="/types/viib.htm" class="header">VIIB</a>  
Ordered 21 Nov, 1936
Laid down 27 Feb, 1937 <a href="/technical/shipyards/germania.htm">Germaniawerft, Kiel</a> (werk 582)
Launched 29 Oct, 1938
Commissioned 17 Dec, 1938 Oblt. Günther Prien
Commanders
17 Dec, 1938 - 7 Mar, 1941   KrvKpt. <a href="/men/prien.htm">Günther Prien</a> (Knights Cross)
Career <a href="/boats/patrols/u47.html">10 patrols</a> 17 Dec, 1938 - 31 Aug, 1939  <a href="/flotillas/7flo.htm">7. Flottille</a> (front boat)
1 Sep, 1939 - 31 Dec, 1939  <a href="/flotillas/7flo.htm">7. Flottille</a> (front boat)
1 Jan, 1940 - 7 Mar, 1941  <a href="/flotillas/7flo.htm">7. Flottille</a> (front boat)
Successes 30 ships sunk for a total of 162.769 GRT
1 warship sunk for a total of 29.150 tons
8 ships damaged for a total of 62.751 GRT
Fate

Missing since 7 March, 1941 in North Atlantic near the Rockall Banks in approximate position 60.00N/19.00W. 45 dead (all hands lost).



aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -