Spaces:
Runtime error
Runtime error
| # Регулярные выражения | |
| NEXT_MARKER_RE = r'далее (--|־|᠆|‐|‑|‒|–|—|―|⸺|⸻|﹘|﹣|-|-|-)' | |
| ABBREVIATION_RE = ( | |
| r'\b[А-Я0-9]{1,}(?:\s?[А-Я0-9]{1,}|[:\-.]?[А-Я0-9]{1,}|[а-я]{1}[А-Я0-9]{1,})*\b' | |
| ) | |
| UPPERCASE_LETTER_RE = r'[A-ZА-Я]' | |
| CLOSE_BRACKET_RE = r'\)' | |
| # Сокращения, после которых точка не означает конец предложения | |
| NON_SENTENCE_ENDINGS = ['г', 'д-р', 'т.е', 'и т.д', 'и т.п', 'и т.п.', 'ул', 'пр'] | |
| FIRST_CHARS_SET = {'.', ':', ';'} | |
| SECOND_CHARS_SET = { | |
| '‒', | |
| '–', | |
| '—', | |
| '―', | |
| '⸺', | |
| '⸻', | |
| '﹘', | |
| '﹣', | |
| '-', | |
| '-', | |
| '-', | |
| '-', | |
| '\uf0b7', | |
| '', | |
| } | |
| BLACKLIST = [ | |
| 'Ненецкого муниципального района', | |
| 'Изменение идентифицирующих', | |
| 'Systems, Applications and Products in Data Processing Enterprise Resource Planning', | |
| 'Российской Федерации, Уставом', | |
| 'Собственника Объекта защиты', | |
| ] | |
| REMOVING_SUBSTRINGS = ['ПАО', 'ОАО', '№', '('] | |
| MAX_LENGTH = 100 | |
| # Strings to remove from abbreviations | |
| PREFIX_PARTS_TO_REMOVE = ['далее', '–', '-'] | |
| # Strings to remove when processing abbreviations | |
| ABBREVIATION_CLEANUP_REPLACEMENTS = { | |
| ' и ': ' ', | |
| ' или ': ' ', | |
| ', ': ' ', | |
| ' ГО': ' ', | |
| } | |
| # Regex pattern for dashes/hyphens to be replaced with space | |
| DASH_PATTERN = '(-|-|־|᠆|‐|‑|‒|–|—|―|⸺|⸻|﹘|﹣|-)' | |