System for tabular information extraction from documents in various formats
-
Upload
alexey-shigarov -
Category
Science
-
view
67 -
download
1
Transcript of System for tabular information extraction from documents in various formats
1
СИСТЕМА АВТОМАТИЗАЦИИ ИЗВЛЕЧЕНИЯТАБЛИЧНОЙ ИНФОРМАЦИИ
ИЗ ЭЛЕКТРОННЫХ ДОКУМЕНТОВРАЗНЫХ ФОРМАТОВ
Шигаров Алексей Олегович
Институт динамики систем и теории управления СО РАН
664033, Россия, Иркутск, ул. Лермонтова, 134,
тел. +7-3952-45-31-02, e-mail: [email protected]
Черногория, Будва — 2009
2 Введение
� Актуальность проблематики извлечения таблицподчеркивается в обзорах авторов Embley D.W. (2006), e Silva A.C. (2006), Handley J.C. (1999), Hurst M. (2000), Lopresti D. и Nagy G. (2000), Zanibbi R. (2004)
� Методы, системы и технологии извлечения таблиц издокументов необходимы для анализа документов, извлечения информации, управления данными
� Задачи извлечения таблиц из документов
1. Обнаружение таблиц
2. Сегментация таблицы
3. Анализ функций ячеек таблицы
4. Структурный анализ таблицы
3Известные методы и системыизвлечения таблиц
1. решают обычно только отдельные изперечисленных задач
2. ориентированы на
1. определенные структуры таблиц
2. форматы входных данных, в основном на
1. ASCII-текст (plain-text) без графического форматирования
2. Растровые изображения документов
3. Web-страницы формата HTML
4 Предлагаемая система
1. позволяет извлекать таблицы комплексно, т.е. выполняет все перечисленные задачи
2. ориентирована на таблицы
1. из статистических отчетов
2. представленные в электронных документах в видемашиночитаемого текста
3. использует метафайлы в качестве входныхданных
1. документы разных форматов могут печататься вметафайлы
2. в отличии от файлов PDF и PostScript метафайлы могутинтерпретироваться с помощью GDI (Graphics DeviceInterface, часть Windows API)
5 Пример структуры статистической таблицы
6Технология извлечения таблициз электронных документов
7 Обработка страниц документов
� Объекты страницы документа
8 Обработка страниц документов
� По записям метафайла формируются
1. Текстовые элементы (соответствуют «словам»)
2. Линейки (линии разграфки)
� Объекты на странице формируются снизу вверх
9 Обработка страниц документов
� Предобработка страницы� Исключение из текста текстовой разграфки (составленной из
символов псевдографики и ASCII символов)
� Обнаружение таблиц на странице документа
1. Текстовые элементы группируются в текстовые блоки
2. Текстовые блоки группируются в строки
10 Обработка страниц документов
� Обнаружение таблиц на странице документа
3. Строки табличного вида группируются в табличныерегионы
4. Табличные регионы группируются в табличныеобласти
11 Анализ и обработка таблиц
� Анализ функций ячеек таблицы� Функция (роль) ячейки зависит от её месторасположения
относительно базовой точки тела таблицы
� Поиск базовой точки тела таблицы
1. Область поиска сегментируется на ячейки
2. С помощью регулярных выражений и эвристик о заголовках непустыеячейки классифицируются по лексическому значению на «Даты», «Числа» и «Текст»
3. Тело содержит только «Числа» или специальные обозначения, илипустые ячейки
4. Y-координата базовой точки тела дополнительно корректируется
12 Анализ и обработка таблиц
� Сегментация таблицы
� Таблица сегментирована если имеет полнуюразграфку
� Выполняется восстановление полной разграфки
• Вертикальные линейки восстанавливаются по вертикальнымпромежуткам таблицы
• Горизонтальные линейки восстанавливаются погоризонтальным промежуткам таблицы и по ограничивающимпрямоугольникам строк таблицы
� Восстановленная разграфка таблицы корректируется спомощью её исходных линеек (при их наличии)
13 Анализ и обработка таблиц
� Структурное описание таблицы
� Структурный анализ таблицы включает
1. формирование1. дерева заголовков столбцов2. дерева заголовков строк3. дерева перерезов4. множества элементов данных
2. связывание элементов данных с заголовками
14XML представлениеструктурного описания таблицы
15 Заключение
� Интерпретация полученных XML представленийструктурных описаний таблиц зависит от конкретныхпредметных задач. Например, они могутпреобразовываться к отношениям в терминахреляционных баз данных
� Предлагаемая система обеспечиваетавтоматизированный ввод в базы данных большихобъемов информации из таблиц, содержащихся ввиде машиночитаемого текста в электронныхстатистических отчетах