-
Notifications
You must be signed in to change notification settings - Fork 4
/
Copy pathdescription_RUS.txt
59 lines (34 loc) · 14.9 KB
/
description_RUS.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
Справочник по элементам XML файлов настоящего набора данных.
<act> Элемент Akoma Ntoso, обозначающий правовой акт (в отличие от судебных решений, записи парламентских дебатов и т.д.) В данном проекте это корневой элемент.
<meta> Элемент, обозначающий раздел метаданных. Содержит информацию о документе, которая отображается на сайтах-источниках.
<identification> Элемент, обозначающий раздел идентификационных метаданных. Такие метаданные называются свойствами, реквизитами или атрибутами и позволяют идентифицировать уникальный документ среди прочих.
В разделе собраны сведения из различных источников - и из ИПС Законодательство России, если документ был там найден, и/или из официального опубликования. Таким образом в этом разделе название, номер и другие атрибуты документа могут повторяться дважды в соответствующих элементах (см. ниже), что сделано намеренно для полноты представления информации. Как правило, соответствующие значения должны при этом быть одинаковыми. Если в них встречается расхождение, возможно, это свидетельствует об ошибке или неточности в базах или при извлечении информации с сайтов. Идентификационные данные после извлечения с сайта разбивались на соответствующие части автоматизированным образом. Так, строка “title” официального опубликования содержит в себе и дату, и номер, и принимающий орган, и название. Поэтому соответствующие части были выделены при помощи основанного на правилах алгоритма и разнесены по разным элементам. Таким же образом дело обстоит и с данными с сайта ИПС Законодательство России.
Не существует единого подходящего способа уникальной идентификации правового акта в России. Исходя из опыта работы для такой идентификации скорее всего необходимо одновременно применять элементы - номер, дата, вид документа, принявший орган.
<pravogovruNd> Элемент, значение которого содержит внутренний номер-идентификатор документа nd в URL адресе ИПС “Законодательство России” (см. URL: http://pravo.gov.ru/ips.html) По данному номеру можно составить URL для обращения к сайту ИПС.
Примечание: на сайте ИПС есть предупреждение о том, что адрес конкретного документа может меняться: “Вниманию пользователей информационно-правовой системы "Законодательство России"! Ссылки на документы, входящие в состав информационно-правовой системы "Законодательство России", могут изменяться в связи с проведением технологических работ по обслуживанию баз данных.”
Тем не менее, этот идентификатор у документа относительно стабилен.
Значение - строка из девяти знаков, знаки - только цифры. Может отсутствовать у документов, которые не были опубликованы в ИПС Законодательство России.
<docTypeByIPS> Элемент, значение которого содержит вид документа и наименование органа власти, принявший документ согласно данным ИПС Законодательство России. Значение - строка с фиксированными значениями из классификатора принимающих органов. Может отсутствовать у документов, которые не были опубликованы в ИПС Законодательство России.
<docdateIPS> Элемент, значение которого содержит дату подписания документа по сведениям сайта ИПС “Законодательство России” Строка вида дд.мм.гггг Может отсутствовать у документов, которые не были опубликованы в ИПС Законодательство России.
<docnumberIPS> Элемент, значение которого содержит юридический номер документа по сведениям сайта ИПС Законодательство России. Строка. Может содержать значение б/н, когда такой номер отсутствует официально. Может отсутствовать у документов, которые не были опубликованы в ИПС Законодательство России.
<headingIPS> Элемент, значение которого содержит название (заголовок) документа по сведениям сайта ИПС Законодательство. У некоторых документов может не быть официального названия, в этом случае название дается им операторами системы исходя из текста. Строка. Может отсутствовать у документов, которые не были опубликованы в ИПС Законодательство России.
<docTypeByOP> Элемент, значение которого содержит тип(вид) правового акта по сведениям страницы официального опубликования. Здесь речь идет о группах документов разных органов власти (постановление, распоряжение и т.п.) Классификатор может быть получен со страницы поиска по ООП. Строка. Может отсутствовать у документов, которые не были опубликованы через раздел официального опубликования портала pravo.gov.ru.
<authorByOP> Элемент, значение которого содержит наименование принявшего правовой акт органа власти по сведениям страницы официального опубликования. Классификатор может быть получен со страницы поиска по ООП. Строка. Может отсутствовать у документов, которые не были опубликованы через раздел официального опубликования портала pravo.gov.ru.
<docDateByOP> Элемент, значение которого содержит дату подписания правового акта. Строка вида “дд.мм.гггг”. Может отсутствовать у документов, которые не были опубликованы через раздел официального опубликования портала pravo.gov.ru.
<docNumberByOP> Элемент, значение которого содержит юридический номер правового акта по сведениям страницы официального опубликования. Строка. Может отсутствовать у документов, которые не были опубликованы через раздел официального опубликования портала pravo.gov.ru.
<docTitleByOP> Элемент, значение которого содержит название (заглавие) правового акта по сведениям страницы официального опубликования. Строка. Может отсутствовать у документов, которые не были опубликованы через раздел официального опубликования портала pravo.gov.ru.
<references> Элемент, обозначающий раздел раздел ссылок на внешние источники. В данном проекте используется только для одного подэлемента - ссылки на рубрику классификатора.
<classifierByIPS> Элемент, значение которого содержит индекс рубрики классификатора правовых актов по сведениям сайта ИПС Законодательство России. Официальная версия классификатора утверждена Указом Президента РФ от 15 марта 2000 г. N 511 "О классификаторе правовых актов" (последние изменения на 2005 год). Тем не менее, в Указе опубликовано три первых уровня классификатора, а в ИПС Законодательство опубликовано еще два дополнительных уровня. Полный вид классификатора с пятью уровнями не удалось найти в опубликованных источниках на момент составления настоящего материала. Авторы составили классификатор на основе использованных в документах рубрик.
Строка вида "000.000.000.000.000" где 0 - любая цифра. Может отсутствовать у любого документа. У любого документа может быть неограниченное число значений рубрики классификатора.
<keywords>Элемент, обозначающий раздел ключевых слов. Используется для одного типа подэлементов, содержащих ключевые слова.
<keywordByIPS> Элемент, значение которого содержит одно ключевое слово. Ключевые слова по сведениям сайта ИПС Законодательство России. Строка заглавными буквами. Может отсутствовать у любого документа. Может быть неограниченное количество значений.
<publication>Элемент, обозначающий раздел данных о публикации правового акта. В данном проекте используются только данные об официальном электронном опубликовании правового акта на портале pravo.gov.ru
<pravogovruOfficial> Элемент, значения которого содержат сведения об официальном электронном опубликовании правового акта, если акт прошел такое опубликование. У остальных этот раздел отсутствует.
Значения:
opdate - дата официального опубликования. Строка вида "дд.мм.гггг"
opnumber - номер официального опубликования. Строка, состоящая из цифр. По номеру официального опубликования можно получить документ и/или его метаданные с портала официального опубликования.
opweekcode - код, присвоенный на сайте pravo.gov.ru еженедельному набору открытых данных. Формат этого кода не опубликован, хотя очевидно, что он отражает год и номер недели, а также дополнительную информацию.
<body>Элемент, обозначающий раздел текстов. В настоящее время в данном проекте собираются два вида текстов - опубликованные на сайте ИПС Законодательство и опубликованные в разделе официального опубликования.
<textIPS>Контейнер для текста акта, опубликованного в ИПС Законодательство. Текст может содержать ссылки на изменяющие документы по <ref nd="000000000">ххх</ref>
Текст может отсутствовать у документов, не опубликованных в ИПС Законодательство.
<textOCR>Контейнер для текста акта, опубликованного на портале официального опубликования. Поскольку тексты публикуются на этом портале в виде графического образа страниц, в данном проекте публикуются тексты, распознанные OCR программой Tesseract. В некоторых случаях (прежде всего, если количество страниц больше 500) текст обрезан. При этом в элементе устанавливается значение “truncated” = “yes”