?

Log in

No account? Create an account

Википедия на русском языке

Сообщество участников русского раздела Википедии

Previous Entry Поделиться Пожаловаться Next Entry
Реки России
ymblanter wrote in wikipedia_blog

Как, наверно, уже все видели, несколько дней назад была произведена заливка статей по рекам России. Если более точно, то заливка обсуждалась ещё в ноябре-декабре, были залиты пробные несколько сотен рек Балтийского бассейнового округа (в основном это бассейн Невы, Прегели и Немана). Коллективными усилиями удалось найти и исправить некоторые систематические ошибки при заливке. Потом были залиты реки бассейнов Баренцева и Белого моря, а несколько дней назад — большая порция примерно в восемь-девять тысяч статей. Время заливки этой порции было выбрано так, что наш раздел за несколько часов сразу обошёл нидерландский и португальский разделы по количеству статей (впрочем, они считаются в наших разделах несколько по-разному) и вышел по этому показателю на восьмое место. Если я не ошибаюсь, это самая большая ботозаливка в истории нашего раздела. Более того, она не закончена. На данный момент залиты ботом одиннадцать с половиной тысяч рек, и после исправления ряда недостатков планируется продолжение. Что именно и сколько будет залито, не знает толком никто, кроме ботовода Latitude, но видно невооружённым глазом, например, что реки Восточной Сибири и Дальнего Востока пока вообще не трогали. В сумме, речь идёт о нескольких десятках тысяч статей, я видел цифры от 30 до 70 тысяч.

Естественно, такое событие не могло остаться незамеченным, и вызвало резкие реакции. Противники заливки отмечают ряд серьёзных недостатков, например, что собственно полезной информации в базе не так уж много — длина, бассейн реки, иногда площадь бассейна. Все остальное либо мало нужно широкому читателю (например, код речного бассейна), либо попросту недостоверно (так, во многих реках указано несколько субъектов федерации, в то время как река реально протекает лишь в одном). Кроме того, в базе данных имеется много ошибок - неверные данные, просто реально несуществующе реки, часть данных устарела, часть не поддаётся чтению ботом — так, в некоторых случаях одна река в базе разделена на две, или, наоборот, река объединена с одним из притоков или с одним из истоков. В нескольких случаях удалось обнаружить, что залитые статьи дублировали старые, существовашие ранее, из-за неудачно выбранного названия. Уже на ранних этапах было решено, что все такие статьи фактически требуют выверки: на них при ботозаливке устанавливается шаблон "непроверенная река", который можно снять, только проверив данные статьи и по возможности добавив туда информацию. На тот момент, когда я это пишу, было выверено несколько сот статей, причём последние два дня (это, напомню, были выходные) выверялись около 50 статей в день. Противники заливки считают, что такой огромный массив статей никогда не будет приведён в нормальное состояние - собственно, даже если продолжать выверять по 50 страниц в день, то выверять 30 тысяч страниц мы будем два года. А ведь энтузиазм со временем падает, и выходные случаются не каждый день.

Давайте попробуем порассуждать, какие проблемы реально выявила эта заливка, и какова от неё суммарная польза или суммарный вред. Я не отношусь ни к удалистам, ни к инклюзионистам, и в данном вопросе, на мой взгляд, совершенно нейтрален.

Во-первых, почему вообще у кого-то может возникнуть мотивация дорабатывать такие стабы? Ну, кому-то просто интересно разглядывать топографическую карту. У меня дома скопилась пара десятков стандартных топографических двухкилометровых атласов России, и мне всегда было интересно их рассматривать. Таких людей, насколько я знаю, много. Почему бы в этой ситуации не совместить приятное с полезным и не помочь с выверкой? Я даже зимой несколько фотографий сделал, зная о предстоящей заливке, сейчас как раз пригодились. Кто-то найдёт стабы по рекам своего региона и захочет их доработать. Так, по всей видимости, у нас в ближайшем будущем будут доработаны статьи обо всех реках Мурманской области. Ну, а кого-то просто мотивирует качество проекта — если уж всё равно залили, то надо помогать доработать, прежде чем всё это пойдёт на удаление. Да и статьи эти нужны — если в центре Европейской части России со статьями о реках ещё ситуация более-менее, то подальше от Москвы и Питера не созданы даже статьи о крупных или популярных среди туристов реках: поищите, например, Сызранку или Ундошу, не говоря уже о Сибири.

Во-вторых, какое реально качество залитых статей, и насколько их можно доработать? Я уже выше замечал, что, если не брать патологические случаи, типа вынесенной на удаление статьи Малые реки, то в статьях некая базовая информация присутствует. Этой информации, в принципе, достаточно, чтобы можно было найти реку на карте, и по той же карте проверить достоверность этой самой информации. Доработка статьи всё по той же карте — добавление областей и районов, координат истока (если можно идентифицировать) и устья и создание краткого описания географического положения с указанием населённых пунктов — у меня занимает в нормальной ситуации минут двадцать. После этого статья переходит в состояние нормального стаба, килобайт на 5. Если бы у нас был флаг выверки, такие статьи можно было бы помечать как выверенные. Выверка 30 тысяч статей по 20 минут на статью займёт 600 тысяч минут — 10 тысяч часов, чуть больше года непрерывной работы. Стоит ли это таких затрат времени?

Ответ на этот вопрос зависит от того, как мы относимся к Википедии. Если мы считаем стабы мусором — нет, не стоит. Маловероятно, что все эти 30 (а то и 70) тысяч статей в обозримом будущем будут приведены в приличный вид. Ну, хорошо, нам повезло, что у нас есть энтузиаст — Insider — в одиночку тянущий на себе проект Мурманская область. За реки этого региона можно не беспокоиться. Наверное, вскорости будут выверены реки Московской, Ленинградской, может быть, Ярославской и Тверской областей. Но по Ямало-Ненецкому округу или по Амурской области нам потребуются десять таких энтузиастов, а сейчас у нас нет ни одного. Я слежу за правками в категории рек Балтийского бассейнового округа - там за последнюю неделю правили человек 10, при этом систематически выверкой рек занимаются только двое. В общем, на годы мы обречены на то, что большая часть этих 30 тысяч статей останется тем, что они представляют сейчас. В лучшем случае, через год удастся удалить явные глюки базы данных и снять шаблоны со статей о реально существующих реках.

Вместе с тем, мы многому научились и ещё научимся в ходе обработки этой заливки. Например, качество выверенных статей лучше, чем качество исходной базы данных. Мы исправляем их ошибки, и можно себе представить, что через какое-то время они исправят свои данные по нашим статьям. Это был бы интересный пример обратной связи, создаваемой Википедией. Более того, участник Generous обнаружил, что ошибки имеются также и в БСЭ — возможно, БРЭ захочет учесть наш опыт, если им кто-то это подскажет. Мы знаем теперь, как устроена выверка в простых случаях, и если мы когда-то сможем принять правило о выверке, то опыт с реками будет сильной аргументацией при обсуждении правила. Ну и, наконец, если всё-таки рассматривать Википедию не как завершённое здание, а как постоянную стройку, то мы на эту стройку привезли кучу кирпича. Да, эта куча, пока она лежит отдельно от здания, мало помогает нам построить седьмой этаж, но без неё седьмой этаж не построить никогда. Мы не знаем, в какой области будет жить следующий энтузиаст обработки рек — в Пензенской, Курганской или Кемеровской. И даже если мы не можем сами отнести все кирпичи наверх, этой заливкой рек мы предоставили возможность этому гипотетическому энтузиасту из Пензенской или Курганской области доработать статьи — за которые он без этой заливки, скорее всего, не взялся бы.



  • 1
Могу объяснить, почему лично я этим занялся.
Лично мне, да, бывает интересно рассматривать топографическую карту.
Но скорее тут другая мотивация. Лично мне качество этой заливки, а, точнее, качество базы, не нравится. Но я прекрасно понимаю, что народу в погоне за цифирками этого очень хочется, и мои личные протесты тут мало что дадут. Поэтому конструктивнее было бы привести эти статьи к минимально приличному виду, чем я и пытаюсь заниматься.

Разумеется. И у меня и такая мотивация тоже перечислена. (Я помню, что мы с Вами выступали за заливку статей сначала в пространство проекта, но в результате было решено заливать в основное). Но мы же понимаем, что даже если мы вдвоём сейчас всё бросим и будем заниматься только выверкой этих статей, то это всё равно займёт годы, то есть технически мы этого не сделаем никогда. Мне в данном контексте скорее интересен сам феномен. Дано: есть 30 тысяч статей на значимую тематику , они никогда не будут выверены, точнее, из них будет выверена пара тысяч, но заранее неизвестно, каких именно. Какие в этом контексте имеются плюсы и минусы, и что перевешивает.

Меня смущает вопрос о значимости совсем уж малых рек, 10-15 км длиной, а то и меньше. Есть ли грань, после которой река перестаёт быть значимой? (Возможно, отсечка по наличию или отсутствию в базе? Да странно как-то.) А если это вовсе ручьи? А много ли про них, собственно, напишется? Можно ли о них написать статью на "звёздочку"?

Как я понимаю, сейчас реки считаются имманентно значимыми, не так ли? А озёра, болота, острова, холмы?..

Смущает этот вопросец, в общем. :)

Вот когда ру-вики закрепится впереди недавно обогнанных конкурентов прочно, могут до этой заливки добраться; желающие, уж поверьте, найдутся.

------

А собственно пост хороший и интересный; и работа большая, хорошая, нужная, спасибо её делающим. :)

С формальной точки зрения, так как критерии значимости географических объектов не приняли, и теперь, видимо, уже и не примут, они (в том числе и реки) подчиняются общему критерию значимости. По рекам есть та самая БД и географические карты (как минимум), так что по крайней мере все реки из БД значимы. Другое дело, что сейчас мы работаем фактически в авральном режиме - никто даже не пытается искать, скажем, сведения по истории рек, хотя мне в процессе доработки (когда я смотрел всякие деревни в ВП по Ленобласти) такие сведения иногда попадались. Думаю, реки, даже короткие, вблизи крупных городов имеют шанс быть доработанными до звёздочки (Вы же из Питера, кажется? Длина Мойки меньше 10 км). Реки по 10 км в тайге где-нибудь в Эвенкии, за какими-то редчайшими исключениями, на мой взгляд, никогда ни до чего приличного доработаны не будут. Вопрос состоит в том, скольку у нас залито и ещё будет залито таких рек. Я, к сожалению, даже приблизительно не представляю.

А вообще у меня одно из сильнейших жизненных впечатлений - в 1983 году я, ещё будучи школьником, прилетел на самолёте в Нижнеангарск, ещё только БАМ строился, ходили рабочие поезда. Там аэропорт находится от посёлка на противоположном берегу реки Верхняя Ангара - не самого большого и не самого значительного притока Байкала, который на картах мельче масштаба Иркутской области показывают не всегда. Так вот, оказалось, что по ширине эта Верхняя Ангара сравнима с Окой в районе Серпухова. И таких рек в Сибири сотни, если не тысячи.

Мне кажется, что реестр гораздо подробнее охватывает европейскую Россию, чем азиатскую.
Больше половины бассейновых округов - европейская часть.
То есть составители, вероятно, используют не только критерий длины, но и населённость местности.

Да я, кстати, и не уверен, что у всех рек масштаба Яузы в Якутии есть названия.

Э-э-э, я был в Нижнеангарске в 1989, и аэропорт уже находился на том же берегу, что и город. Он и сейчас там:

http://www.openstreetmap.org/?lat=55.7962&lon=109.5883&zoom=13&layers=O

Собственно, в 1983 было фактически лётное поле, а не аэродром. Мы летели из Иркутска, было что-то совсем маленькое (Ил-14?). Потом надо было на автобусе ехать до парома, а с другого берега на автобусе в Нижнеангарск. Мы как-то поздно прилетели, автобусы до реки были, а паромы уже не ходили. Так и перевозили полный автобус на лодках.

Кажется я понял: вас посадили на Верхнюю Заимку:

http://www.openstreetmap.org/?lat=55.823&lon=109.894&zoom=11&layers=M

А к 1989 году аэропорт в Нижнеангарске уже не просто работал, а уже имел вполне себе бетонное здание аэровокзала:


Да, вроде туда и посадили. В 1983 году там вообще было интересно. Ходил поздно вечером рабочий поезд до Уояна, дальше дороги не было. Мысовые тоннели ещё не достроили, был обход, а мы смогли внутрь попасть.

Как же самая большая. Самая большая была неона — 80 тыс., когда мы опередили шведов и попали в десятку.

Не может быть на 80 тысяч. Тогда было всего около 300 тысяч статей, это бы означало, что четверть статей после заливки составляли бы коммуны Болгарии. Их, во-первых, столько нет, во-вторых, заливку на четверть разделы мы бы не могли не заметить. Может быть, восемь тысяч?

Прошу прощения, я вспомнил: 45 тысяч статей по Австрии, Болгарии, Бразилии, Испании, Польши, Португалии, и т.д. И ещё около тысячи статей собственноручно. То есть получается, что на настоящий момент он сам или при помощи своего бота создал около 7% всех статей ВП.

Да, это вполне вероятно. Но единоразовая заливка, насколько я понимаю, по рекам всё-таки самая большая. Ну, и мне вообще было интересно поговорить про проблемы больших заливок: ясно, что так или иначе они будут продолжаться, так как есть большие пласты информации, у нас практически отсутствующие, те же коммуны Франции или города и административные единицы Латинской Америки.

Ну и добавлю, что это, опять же, насколько мне известно, первая заливка, которую решено полностью доработать вручную. До сих пор мы сначала заливали, а потом либо решали, что качество удовлетворительное, и статьи могут существовать сами по себе (города Германии), либо что качество неудовлетворительное, и статьи следует выносить к удалению (фильмы). Сейчас же мы создали новую сущность - проект для доработки статей о ботозаливке. Аналоги были у нас и раньше - например, когда-то посёлки городского типа России были залиты в пространство участника Lite, желающими доработаны и отправлены в основное пространство. Но так, чтобы сразу в основное с одновременным созданием широкомасштабного проекта по доработке - кажется, первый раз.

Такое впервые, да. Хотя тогда последняя заливка кончилась тем, что Неон залил её, не согласовав с сообществом (согласовано было, как потом выяснилось, но немного не там и немного не о том). Естественно, на него тут же подали иск, и на том эта история и завершилась.
Но мы как раз недавно списались с ним по поводу новой заливки. Мы поняли, что есть примерно пять крупных языков, которые являются государственными языками множества стран, которые мы можем обработать, после чего он напишет нового бота. Это добавит ещё несколько десятков тысяч больших и качественных статей.

Да нет, нормальная заливка. Хороша тем, что удобно викифицируется. Теперь, если в тексте есть упоминание реки на территории РФ, то смело можно викифицировать, ссылка будет. Причем не абстрактная, на дизамбиг, а на вполне конкретную реку. Это большой плюс. К тому же, как оказалось, не так уж мало нетривиальной информации о реках в природе, во всяком случае в журналах РАН статей, анализов по водным ресурсам массы, только вчера проверял, когда про озеро статью ваял.

Хотелось бы только, чтобы при выверке рек добавлялись бы координаты географические, это позволит быстро найти ее на карте. Да и скрипт на тулсервере есть, который по текущим координатам пользователя выдает ему список статей об окрестностях без иллюстраций. Удобная штука, уже получил список для себя, осталось дождаться весны.

Даже если и реально объем данных по восточным регионам ниже, чем по европейской части, это не проблема. Плотность участников из европейской части тоже выше, так что компенсируется разница.

И ВП:КЗГО надо убрать с глаз долой или повесить шаблон о принципиальной неприменимости правила, а то попытки действовать на его основах встречаются.

На самом деле, по моему опыту, если название реки не уточнять (приток такой-то), то с большой вероятностью может получиться ссылка на дизамбиг. А если уточнять, может получиться красная при наличии статьи о реке. Я сейчас, после того, как случайно нашёл три или четыре дубля, проверяю также и все названия, нет ли у нас аналогичной статьи. Координаты я всегда добавляю, если это физически возможно (скажем так, по всем рекам, которые я проверял, в статьях есть координаты). А иллюстрации, да, это больная тема. У нас даже вокруг Москвы ситуация с фотографиями совершенно ужасающая, да и московские здания не все есть. Хоть, действительно, Вики-экспедицию устраивай.

Ну, викифицирующий гаджет, скрипт подстановки значений и гаджет выделения неоднозначностей позволяют все-таки в значительной степени решить проблемы викификации.

Ну, это конечно, но гаджет подсветки дизамбигов у меня глючит сейчас, все деревни Ленинградской области руками приходится проверять.

>> Да и скрипт на тулсервере есть, который по текущим координатам пользователя выдает ему список статей об окрестностях без иллюстраций

А какой URL у этого скрипта?

(Анонимно)
А по рекам Украины такая база есть?

(Анонимно)
Жалко. Сходу ничего глобального не гуглится, нашёл на сайте одной из областей табличку с около 200 строками и 8 столбцами. Ручками долго, а для бота слишком мало.

Хотелось бы узнать, сможет ли конечный результат (даже если он будет достигнут) конкурировать со специализированной сетевой информационной системой? Всё-равно в Википедии все эти данные смотрятся тяжеловато.

Это зависит от того, что считать конечным результатом. Если статьи будут доработаны как следует - добавлена информация по гидрологии, по рыбам, по истории и истории открытия, о том, что растёт на берегах - получатся полноценные энциклопедические статьи. Если просто выверены и добавлена минимальная информация - получится улучшенная и более надёжная база данных, чем исходная. Проблема в том, что в течение долгого времени статьи будут просто там висеть в полудоработанном состоянии. Повторюсь, что такая ситуация у нач возникает, строго говоря, впервые, и от того, сможем ли мы её грамотно обработать, зависит судьба будущих аналогичных заливок - а они реально нужны.

Всё-равно, большую часть этой информации можно аккуратно распределить по полям базы данных и сделать что-то вроде Викисловаря, но уже для географических объектов. Но там, где начинается история открытия, освоения, там где река попадает в круг политических, экономических и научных интересов, появляется текст. В любой энциклопедии важен, прежде всего текст. А если он ещё и хорошо иллюстрирован! А реки это: ландшафты, обитатели, леса, сезонные изменения, виды рек в разные времена года, включённость в экосистемы, строение дна, особенности состава воды, промышленные и городские загрязнения. Такие статьи способны существенно повысить связность в Википедии. Ведь это сколько можно статей про животных, растения, геологические породы связать воедино статьей о географическом объекте.

Впрочем, всё это и так очевидно. Другое дело, что же здесь принципиально нового? Массовость явления? Вот я (пока) далеко не хожу и вижу кучи статей по математике (кстати, и по программированию тоже), которые ещё долго будут «висеть в полудоработанном состоянии», пока их не коснётся рука грамотного и мотивированного автора.

А пока получается, что одни берут какую-то сырую базу данных, очищают её, приводят в нужный вид, скармливают боту, заливают в Википедию, а уже затем, совсем другие люди обрабатывают саму Википедию и создают семантическую базу данных с точкой доступа (sparql-endpoint). Будет потом обидно находить не Википедии точную и полную информацию об интересующем предмете.


  • 1