Spaces:
Runtime error
Runtime error
| # Features Module | |
| > ВАЖНО!!! README.md сгенерировано автоматически, поэтому может содержать неточности. | |
| Модуль для создания структурированного датасета из обработанных документов. Включает в себя функциональность для парсинга иерархической структуры документов, создания датасета и его векторизации. | |
| ## Основные компоненты | |
| ### HierarchyParser | |
| Класс для извлечения иерархической структуры из текста документа. Позволяет: | |
| - Парсить текстовый контент с учетом уровней вложенности | |
| - Парсить табличный контент | |
| - Создавать иерархическое представление документа | |
| ### DatasetCreator | |
| Класс для создания структурированного датасета из обработанных документов. Функциональность: | |
| - Обработка иерархической структуры текста и таблиц | |
| - Создание унифицированного представления данных | |
| - Интеграция с векторизатором для создания эмбеддингов | |
| ### DocumentsDataset | |
| Класс для хранения и управления данными датасета. Возможности: | |
| - Хранение структурированных данных документов | |
| - Векторизация текстов с помощью предоставленного векторизатора | |
| - Экспорт данных в pandas DataFrame | |
| - Сохранение датасета в pickle формате | |
| ## Структура данных | |
| Каждая строка датасета (`DatasetRow`) содержит следующие поля: | |
| - Index: уникальный идентификатор строки | |
| - Text: текстовое содержание | |
| - DocName: имя документа | |
| - Title: заголовок документа | |
| - DocNumber: номер документа | |
| - LevelParagraph: уровень параграфа | |
| - Pargaraph: номер параграфа | |
| - Duplicate: метка дубликата | |
| - PartLevel1, PartLevel2: уровни частей | |
| - Appendix: информация о приложении | |
| - Table: информация о таблице | |
| ## Использование | |
| ```python | |
| from components.embedding_extraction import EmbeddingExtractor | |
| from components.parser.features import DatasetCreator, DocumentsDataset | |
| # Инициализация создателя датасета | |
| vectorizer = EmbeddingExtractor() | |
| creator = DatasetCreator(vectorizer) | |
| # Создание датасета | |
| dataset = creator.create_dataset(parsed_xmls, hierarchies) | |
| # Векторизация текстов | |
| dataset.vectorize_with(vectorizer) | |
| # Экспорт в pandas DataFrame | |
| df = dataset.to_pandas() | |
| ``` | |
| ## Зависимости | |
| - numpy | |
| - pandas | |
| - компоненты для векторизации текста (EmbeddingExtractor) |