Научный текст: теоретические основы интегрального подхода (04.10.2010)

Автор: Хомутова Тамара Николаевна

По мнению современных ученых-лингвистов, развитие языкознания настоятельно требует синтеза внутреннего и внешнего в такой лингвистической концепции, в которой нечто, сосредоточивающее в себе, как в клеточке, внутреннее и внешнее, сможет выступать в качестве элементарной единицы языковой эволюции. Очевидно, что такая единица должна быть интегральной, многосторонней и связывать в единство целый ряд взаимозависимых характеристик. На основании результатов исследования, проведенного в рамках интегрального подхода, мы имеем основания утверждать, что на роль элементарной единицы языковой эволюции может претендовать текстема как интегральное образование, сосредоточивающее в себе индивидуальное и коллективное, внутреннее и внешнее, как рассредоточенный динамический образ текста, в котором единицы всех секторов: когнемы, лингвемы, культуремы и социалемы находятся в постоянном взаимодействии и корреляции друг с другом.

Не претендуя на исчерпывающий характер предпринятого нами подхода, мы склонны расматривать разработанный нами интегральный подход к анализу текста в качестве одного из вариантов современной интегральной парадигмы лингвистического знания.

Таким образом, решение поставленных в Главе 2 задач позволяет теоретически обосновать сформулированную ранее гипотезу исследования и в следующих главах перейти к ее доказательству на практическом материале.

Целью Главы 3 «Смысловая структура научного текста: интегральный анализ лексики» является изучение смысловой структуры научного текста в русле интегрального подхода, в частности, лексического уровня корпуса научных текстов английского подъязыка «Программирование», репрезентирующего интегральное единство научного текста как фрагмента специального подъязыка и научного знания в данной области, фрагмента культуры и профессионального социального пространства; а также разработка принципов построения интегральной модели лексики научного текста специальных подъязыков.

Для достижения поставленной цели потребовалось составить частотный словарь английского подъязыка «Программирование»; определить лексический минимум научных текстов английского подъязыка «Программирование»; исследовать лексический минимум с точки зрения каждого сектора интегральной модели научного текста; выявить специфику лексики в каждом секторе и в их интегральной совокупности; разработать интегральную модель лексики англоязычных научных текстов предметной области «Программирование».

Для исследования лексического уровня научных текстов английского подъязыка «Программирование» был собран специальный корпус текстов общим объемом около 500 тыс. словоупотреблений.

Анализ лексического уровня специального корпуса текстов по программированию проводился с использованием современного программного обеспечения.

На основе частотного анализа корпуса текстов были отобраны наиболее частотные однословные словоформы, покрывающие 85% словоупотреблений текстов, что составило 1761 словоформу. Такой процент покрываемости считается достаточным для обеспечения понимания на лексическом уровне (Н.Н. Петрушевская, Л.Н. Беляева).

В результате дальнейшей минимизации словарного состава, а именно исключения из словаря цифр и формул, приведения словоформ к исходной форме длина словаря-минимума составила 1178 лексических единиц (л.е.).

Проведенный морфологический анализ лемматизированной лексики словаря-минимума показал, что 621 л.е. из 1178, или 52,7%, относятся к существительным (byte, packet, subgraph и т.д.), в то время как глагольная лексика представлена 292 л.е. (describe, indicate, reset и т.д.), что составляет 24,8% от длины словаря. Это позволяет констатировать номинативный характер лексики английского подъязыка «Программирование» в языковом секторе.

В результате стратификационного анализа словаря были получены следующие данные: общеупотребительный слой составил 1127 л.е. (do, have, make и т.д.), общенаучный - 973 л.е. (axiom, derivation, principle и т.д.), терминологический – 773 л.е. (bit, cache, memory, compiler и т.д.). При этом выяснилось, что отнесение слова к какому-либо одному из слоев лексики возможно в относительно небольшом количестве случаев (163 л.е., или 13,8%), в то время как подавляющее большинство слов встречались сразу в нескольких словарях, то есть относились разными авторами к общеупотребительной, общенаучной и терминологической лексике, или к каким-либо двум из перечисленных слоев. Например, лексема heuristics представлена в словаре терминологической и общенаучной лексики, лексема compiler представлена в словаре терминологической и общеупотребительной лексики, лексема reflective встречается в словаре общенаучной и общеупотребительной лексики, лексема restriction представлена во всех трех словарях.

Формальным способом описания такого явления является теория нечетких множеств. Вопрос о принадлежности того или иного слова к разряду терминов, общенаучной или общеупотребительной лексики решается в зависимости от контекста.

Дальнейшая минимизация лексического минимума проводилась методом «выделения лексических гнезд», в результате чего словарь-минимум стал насчитывать 867 словарных гнезд, что является вполне приемлемым для целей исследования и обучения профессиональной иноязычной коммуникации. Например, к гнезду base отнесены лексемы base (n,v), basic, basis, database; гнездо compute включает лексемы computable, computation, computational, compute, computer, pc=personal computer, computepath; гнездо use составлено из лексем use(n,v), usage, useful, user, reuse(v).

Следующим этапом работы по изучению лексического уровня корпуса текстов английского подъязыка программирования в языковом секторе стало выявление наиболее употребительных предельных синтагматических последовательностей (С.Г. Тер-Минасова).

Количество именных последовательностей с F?5, встретившихся в нашем корпусе текстов, составило 962. Эти словосочетания были сгруппированы в гнезда по ядерному компоненту. Число гнезд составило 335.

Морфологический анализ ядер показал, что 99,1% всех ядер являются существительными, например, logic program, data structure, input sequence и т.д.

Стратификационный анализ ядерной лексики выявил, что из 335 лексем 291 л.е. (86,9%) входит в лексический минимум на 1178 л.е., из них 257 л.е. (88,3%) могут быть терминами, а 34 л.е. (11,7%) не относятся к терминологической лексике. Таким образом, из 773 л.е., составляющих терминологический минимум, 33,3% являются ядрами словосочетаний.

Стратификационный анализ ядер также показал, что они входят в разряд так называемой «плавающей лексики». Их значение актуализуется, исходя из контекста. Например, лексема algorithm в словосочетании adjusted cosine item-based algorithm является термином, а в словосочетаниях learning algorithm, lecture hall algorithm, training algorithm может быть отнесена к общенаучной и даже к общеупотребительной лексике в зависимости от более широкого контекста. Лексема problem в словосочетании entity matching problem является термином, в словосочетании classification problem может быть отнесена к общенаучной лексике, а в словосочетании chess problem относится к общеупотребительной лексике. На уровне словосочетания происходит первичная актуализация терминологического или нетерминологического лексико-семантического варианта ядерной лексемы, что затем закрепляется более широким контекстом. «Чистые» термины, в качестве ядерных компонентов словосочетаний употребляются в единичных случаях.

Наиболее продуктивным способом словообразования для ядерной лексики английского подъязыка «Программирование» является суффиксация (164 л.е., или 48,9%), например, simulate – simulation, program – programmer, process – processing и т.д.

Статистический анализ структуры словосочетаний подтверждает тезис о продуктивности двухкомпонентной связи: из 962 словосочетаний 847, или 88,0% являются двухкомпонентными, 101 словосочетание, или 10,5%, состоит из трех компонентов и только 14 словосочетаний, составляющих 1,5%, относятся к четырехкомпонентным (табл. 1). Очевидно, что именно двухкомпонентные словосочетания должны быть основным объектом как лингвистического, так и лингводидактического исследования предельных синтагматических последовательностей.

Таблица 1

Примеры n-компонентных словосочетаний

2-компонентные

(88,0%) 3-компонентные

(10,5%) 4-компонентные

Data access

Generation algorithm

Software architecture

Failure block

Pixels buffer Structural process adaptation

Grammar validation function

Constrained cascade generalization

Probability density function

Extended geometrical mode Fuzzy multi-level sequential pattern

Average playback idle rate

Xml document processing task

Compound monthly growth rate

Consistent disjunctive logic program

C ростом компонентного состава последовательностей резко падает их количество, но увеличивается число структурных моделей, представляющих данные последовательности. В нашем материале встретились 847 двухкомпонентных, 101 трехкомпонентная и 14 четырехкомпонентных последовательностей, реализованных в 4, 12 и 11 моделях соответственно. Самой распространенной моделью многокомпонентных последовательностей является модель NN для двухкомпонентных (см. табл. 1) и модель ANN для трехкомпонентных последовательностей (average case complexity, computable equality assumption и т.д.). В четырехкомпонентных последовательностях о предпочтительности той или иной модели говорить не приходится в силу их малочисленности.

В конечном итоге, большая часть трехкомпонентных и четырехкомпонентных моделей с помощью трансформационного анализа могут быть сведены к ядерной двухкомпонентной модели NN. Например, computable equality assumption = (AN) + N = NN; grammar validation function = (NN)+N=NN; sequential access cache latency = (AN)+(NN)=NN.


загрузка...