Автоструктуризация непрерывного текстового потока

Бодякин В.И. к.ф.-м.н. с.н.с.
Институт проблем управления РАН
им. В.А. Трапезникова, Москва
E-mail: body@ipu.ru ,
http://www.informograd.narod.ru ,
служ.тел.:334-92-39
(Априорно неопределенной предметной области)

010101010101001001001110110101
010101010101010101010100101010
101010101010101010000010101010
101001010101010101010101001010
100101010101010101010100101010
101010101001010100101010101010
101010010101010100100110101010
101010101010101010101010101010
101010101010100110010101010101
010101010101010101010100101010
101010101010101010010101010101
010100110101010101010101001010
ПОЧЕМУ ВСЕ ОРГАНИЗМЫ "ЕДИНОДУШНЫ"
В КЛАСТЕРИЗАЦИИ ОКРУЖАЮЩЕГО НАС
МИРА НА ОТДЕЛЬНЫЕ ОБРАЗЫ ?
…0100101…
…
0100101…
…
1010010… …0100101…
Предметная область
..1010010…
2

Традиционный способ
структуризации в системах ИИ
t
Информационный
канал
010101010... 01010101..
ПО
aj ak
ai
∆β
01001 – apll
001111 − …
…
00111001 - .
101010 -
Прог-
рамма
ИИ
Програм-
мист
систем ИИ
Предметная
область
3

Предметная область (ПО) – причинно-связанная
совокупность физических процессов.
Процесс – независимое от времени и пространства
детерминированное изменение некоторого
физического параметра во времени.
Любой процесс может быть преобразован в
текстовую форму.
а) б) в) г)
b
⇔
tn
a
⇔
Z
...
⇒⇒
W
t1
t
A
* *
* * * *
*
<kzkkzkb>
текстовая форма
⇒
t2
ln
Wn
многомерный физический процесс <-> текстовая форма
4

Задача:Задача: вв непрерывном потоке ТФнепрерывном потоке ТФ
необходимо выделить образы,необходимо выделить образы,
соответствующие процессам любойсоответствующие процессам любой ПОПО
МАКРИСРИСМАКДУБЛЕН
ϕ
t01 t02 t03
ПО ИС
…
АКР
ИСМ
КД
УБЛ
ЕНД
…
Цель: Минимальный словарь ИС
(гомоморфен процессам
ПО)
Метод:Метод: построение в ИС множествапостроение в ИС множества
различных словарей и выбор минимальногоразличных словарей и выбор минимального
(R(Rii))
Инструментарий:Инструментарий: нейросемантическиенейросемантические
структурыструктуры
R1
МАК
РИС
ЛЕН
ДУБ
5

Демонстрационный примерДемонстрационный пример
(четыре равновероятных процесса формируют непрерывный поток ТФ)(четыре равновероятных процесса формируют непрерывный поток ТФ)
СМАКРИСРИСМАКДУБЛЕН
ИС
____
"Генетич.
программа"
Необходимо построить словарь в N образов, полностью покрывающий
ТФ. Примем что:
Энергетические затраты на обработку одного образа в ИС равна 1Е-.
Время обработки символа и образа − один такт Т,
Энергетические затраты на хранение одного образа в памяти 1/24 Е-.
Энергетика каждого прогнозируемого ИС символа равна 1Е+,
Усредненный на 12 тактов энергетический баланс ИС =
-N(обработка) -1/2N(хранение) + (12-N)(прогнозирование) = (12 - 5/2N)*E
ПО
ДУБ
ЛЕН
РИС
МАК
aj
ai ak
Текстовой поток
Закрашенный
поток
6

Результаты эксперимента
Первая структуризация словаря ИС
Форма словаря: (наибольший размер образа один символ):
 <М><А><К><Р><И><С><Л><Е><Н><Д><У><Б>,
 R(ИС)=12R*(0,5Е-/R) = 6E-,
 прогнозирование (Т) = 0Т (т.к. у образа только один символ),
 затраты энергии на распознавание = 12E-

контролирование потенциальной энергии ТФ = 0E+.
Итог: для односимвольного словаря усредненный энергетический
баланс = 18E- .
Усредненный энергетический баланс ИС назовем
эволюционным потенциалом ИС
7

Вторая структуризация словаря ИС
 а) Минимальная форма словаря:
<МА><К><РИ><С><ЛЕ><Н><ДУ><Б>:
 R(ИС)=8R =4Е-, прогнозирование = 0,5Т (на образ),
 затраты энергии на распознавание = 8E-,
 контролирование потенциальной энергии ТФ = 4E+.
 Итог а) 4Е- + (0,5Т * 8(образов на ТФ=12) = 4E+) + 8E- = 8E- .
 б) Максимальная форма (без полного пересечения):
<МА><КЛ><КР><КД><КМ> <ЛЕ>…<БД>:
 R(ИС)= 20R=10Е-, прогнозирование = 0,2Т (на образ),
 Итог б) 10Е- + (0,2Т * 20(образов на ТФ=12) = 4E+) + 20E- = 26E- .
 Итоговый лучший эволюционный потенциал = 8E- .
(наибольший размер образа два символа):
8

Третья структуризация словаря
(наибольший размер образа в три символа).
 а) Минимальная форма словаря: <МАК><РИС><ЛЕН><ДУБ>:
 R(ИС)=4R =2Е-, прогнозирование = 2Т (на образ),
 Итог а) 2Е- + (2Т * 4(образов на ТФ=12) = 8E+) + 4E- = 2E+.
 б) Максимальная форма (без дублирования, т.е. без полного
пересечения): <АКР><ИСР><ИСМ><АКД> <УБЛ><ЕНД> … <АКМ>:
 R(ИС)= 36R=18Е-,
 прогнозирование (Т) = +4E,
 Итог б) = 50E- .
 Лучший итоговый эволюционный потенциал = 2E+ , 50E- → 2E+(!!).
9

Четвертая структуризация словаря
(наибольший размер образа в четыре символа)
 а) Минимальная форма словаря: <МАК><РИС><ЛЕН><ДУБ>:
 R(ИС)=4R =2Е-, прогнозирование = 2Т (на образ),
 Итог а) 2Е- + (2Т * 4(образов на ТФ=12) = 8E+) + 4E- = 2E+.
 б) Максимальная форма (без дублирования):
<АКРИ><ИСРИ><ИСМА> <АКДУ><УБЛЕ><ЕНДУ> … <АКМА>:
 R(ИС)= 48R=24Е-, прогнозирование (Т) = 0Т (на образ),
 контролирование потенциальной энергии ТФ = 0,5E+.
 Итог б) = 78E- .
 Лучший итоговый эволюционный потенциал = 2E+ , 78E- → 2E+
10

Пятая и другие структуризации словаря
Лучший итоговый эволюционный потенциал =
2E+ , 204E- → 2E+
Шестая структуризация словаря, седьмая … и т.д. → 2E+ !!!
Худший - ∞E-
 Теоретический анализ результатов эксперимента
показывает, что эволюционный потенциал ИС
обратно пропорционален размеру словаря,
 Размеры минимальных и максимальных словарей ИС
соотносятся как:
o(N) и o(N3
) !!!
где: N – максимальный размер образа словаря
11

МАКРИСРИСМАКДУБЛЕН…
ϕ
t01 t02 t03
ПО
МАК
РИС
ЛЕН
ДУБ
N
£
АвтоструктуризацияАвтоструктуризация
информацииинформации в ИСв ИС
ИСАКР
ИСР
ИСМ
АКД
УБЛ
ЕНД
…
АКМ
РИС
ДУБ
МАК
ЛЕН
N=4
СN
[L/£]
= N
2+ [L/£]
L=3
o(N3
) >> o(N) !!!
max min
Минимальный
словарь ИС
-----> ! ! !
Образы ИС =
процессам ПО
N2
(L-1)=32
min
max
12

АвтоструктуризацияАвтоструктуризация
иерархических процессовиерархических процессов
ПО …ДА КОЛЯ ЛОВИТ РЫБУ СА… ИС
При минимизации словаря на
нейросемантических структурах,
его топология гомоморфна
структуре исходных процессов
ПО
Подл. Сказ. Обст.
{…}{…}{…}
иерархическая
структура
словарей образов
Подл. Сказ. Обст.
{…}{…}{…}
иерархические
процессы
13

Нейросемантическая форма
представления информации
Предметная область
11011010001101101001-
Алгоритм
НСС
Номера
слоев
6
5
4
3
2
1
0
1 2 3 4 5 6
Номера элементов в слоях
N-элементы
Связи
"0" "1"
Семантика, тексты ПО,
содержание процессов
НСС
Автоматическое выделение образов-процессов из
предметной области в нейроподобные элементы
НСС при минимизации ресурсных затрат (памяти)
N‑элемент (образ НСС) ↔ процесс предметной области
14

Автоструктуризация на
нейросемантических структурах
RИС = f(число N-элементов, число связей)в битах
1/P (компрессия) = --------------------------------------------------------- → 0
при t → ∞ TФИС = объем текстовой информации в ИС в битах
или ∆RИС / ∆TФИС → 0 и ∆RИС → const, при t → M
при t → ∞
Примеры:
а) <RISMAKDUBLENLENDUBMAKMAKLENRISRISLENMAKRISDUBRIS>
правильно выделяются все процессы: <MAK><RIS><MAK><DUB>;
б)<ДОМЗЕБРЫСКИТНАДОМДОМВНАДОМВСКИТВНАСКИТВВЗЕБРЫНАВНА>
правильно выделяются все процессы:<ЗЕБРЫ><СКИТ><ДОМ><НА>
<В>.
двиг алфавита А в кодах ASCII в примере б)
<ЕПНИЖВСЬТЛЙУОБЕПНЕПНГОБЕПНГТЛЙУГОБТЛЙУГЖВСЬОБГОБ> на +
<?IGB@<KVLECMH;?IG?IG=H;?IG=LECM =H;LECM==B<KVH;=H;{> на -133.
15

НСС – это пример 1-го формального преобразования
количественной текстовой формы представления
информации в качественно новую форму –
структуру образов ИС
0
"без учителя"
− "игра"
Авто-
струк-
тури-
зация
log (tn)
(в битах)
"с учителем"
– "школа"
1 —
Критерии достаточности: а) все пространство состояний;
б) если человек может правильно структурировать данный
тексто- вой материал в непривычной, но взаимнооднозначной
нотации,
в) наличие характерных особенностей динамического процесса
при минимизации ресурса RИС
16

По минимальной функции затрат ресурсов ИС Rис
можно объективно определять процессы ПО
Сигнал С С
С Инфор-
мация
И
С И Знание
Автомат "животн." ИС-человек
БШ
ПС
"Телесериал"
Реальный
bsejgr…
abcabc...
Mather…
При TИС = const (t)
ПО
линейная; логарифмическая; const;
функции затрат Rис
f = (RИС (t)) :
t
RИС
t
RИС
t
RИС И
С
Информация – знаковая последовательность на языке системы,
соответствующая целому числу причинно-связанных процессов ПО
…
Определения:
17

Теорема: минимальная форма словаря ИС может достигаться
только при ее изоморфности исходной структуре процессов ПО
Доказательство: Если представить формирование текстовой
формы двумя независимыми и непересекающимися
процессами А и Б, то становится очевидным,
проц. А проц. Б
010010 УКЛОН ЭРМИТАЖ 101010010
образ А образ Б
что минимальным словарем образов закрашивающим эти два
процесса могут быть только образы совпадающие по текстовой
форме с генерирующих их процессами.
На вопрос: "Почему все организмы 'единодушны' в класте-
ризации окружающего нас мира на отдельные образы ?"
Вытекает ответ: "Т.к. минимальный словарь, дает эволюци-
онные преимущества, то все ИС данной ПО выбирают его, а
соответственно, и его образы".
18
ИС
ПО

Автоструктуризация непрерывного текстового потока

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Similar a Автоструктуризация непрерывного текстового потока

Similar a Автоструктуризация непрерывного текстового потока (15)

Más de Danila Medvedev

Más de Danila Medvedev (20)

Автоструктуризация непрерывного текстового потока

Notas del editor