Полная версия
КонтрПлагиат методом перефразирования и рерайта для антиплагиат ВУЗ. Как повысить оригинальность текста за несколько часов и пройти проверку с первого раза
Пример 7, управление сложностью и когерентностью, рис. 27.
Перефразируй данный текст, используя следующие параметры:
– coherence_threshold: 0.85
– contextual_embedding_size: 256
– num_beams: 5
– length_penalty: 1.0
– temperature: 0.7
– top_p: 0.85
– early_stopping: true
Текст:
Рисунок 26 – Перефразированный текст, левое окно, источник – правое окно, отличие Ш2=97%
Пример 8, управление новизной и разными стилями, рис. 27.
Перефразируй текст с использованием следующих параметров:
– diversity_temperature: 0.75
– top_k: 50
– repetition_penalty: 1.3
– max_length: 140
– min_length: 90
– bad_words: [«неудовлетворенности», «угроз»]
Текст:
Рисунок 27 – Перефразированный текст, левое окно, источник – правое окно, отличие Ш2=100%
Пример 9, фокус на длине и разнообразии, рис. 28.
Перефразируй текст, используя следующие параметры:
– max_length: 130
– min_length: 100
– diversity_penalty: 0.5
– top_k: 40
– temperature: 0.75
– no_repeat_ngram_size: 2
– early_stopping: true
Текст:
Рисунок 28 – Перефразированный текст, левое окно, источник – правое окно, отличие Ш2=100%
Пример 10, управление стилем и частотой слов, рис. 29.
Перефразируй текст, используя следующие параметры:
– frequency_penalty: 0.7
– repetition_penalty_weight: 1.2
– top_p: 0.9
– max_length: 150
– min_length: 100
– diversity_penalty: 0.5
– early_stopping: true
Текст:
Рисунок 29 – Перефразированный текст, левое окно, источник – правое окно, отличие Ш2=100%
Пример 11, акцент на оригинальность и краткость, рис. 30.
Перефразируй текст, используя следующие параметры:
– diversity_temperature: 0.9
– top_k: 20
– length_penalty: 0.6
– max_length: 100
– min_length: 70
– coherence_threshold: 0.8
– no_repeat_ngram_size: 1
– early_stopping: true
Текст:
Рисунок 30 – Перефразированный текст, левое окно, источник – правое окно, отличие Ш2=100%
Пример 12, поддержка краткости и специфики, рис. 31.
Перефразируй текст, используя следующие параметры:
– max_length: 120
– min_length: 85
– repetition_penalty: 1.1
– no_repeat_ngram_size: 3
– presence_penalty: 0.5
– temperature: 0.65
– top_p: 0.9
– early_stopping: true
Текст:
Рисунок 30.1 – Перефразированный текст, левое окно, источник – правое окно, отличие Ш2=96%
ЧР Синонимайзеры, синонимизация – ручной и с помощью программ
Метод синонимов, достаточно архаичен и не работает со дня его изобретения. Синомизацию эффективно использовать как метод доводки перевода или применения ИИ GPT. Синонимизацией можно заниматься как вручную, так и с использованием программного обеспечения. Сегодня все еще считается, что метод является одним из способов повышения оригинальности текста.
Автоматическая синонимизация, рис. 31, даже если вы используете профессиональные базы синонимов (Словари синонимов русского языка А. П. Евгеньевой, З. Е. Александровой, Н. Абрамова и т.д.), всегда была неприемлемой, так как результаты стабильно плохие. Синонимизация делает текст непонятным. Практически все системы антиплагиата распознают использование синонимов. С текстами, полученными с помощью синонимизации, можно бороться, например, с помощью переводчика Google. Однако доля ручного труда, связанного с просмотром текста и исправлением неточностей.
В интернете «гуляет» макрос, который позволяет выполнять синонимизацию локально, в WORD, используя базу синонимов MS Office. Особенность макроса в том, что он имеет настраиваемый параметр синониммизации, например можно задать требование – синонимизировать каждое третье слово текста. Результат, при проверке в антиплагиат ВУЗ положительный, но читабельность текста крайне низка.
Рисунок 31 – Автоматическая локальная синонимизация, USyn, словарь синонимов Н. Абрамова
Явным недостатком авто синонимайза является то, что текст нельзя уникализировать до 100% оригинальности, в том числе и путём многократного прогона. После любой синонимизации текст становится практически непонятным, и его трудно исправить.
Напомним, что ручную синонимизацию мы рекомендуем использовать после автоматизированных методов рерайта, на этапе доводки отличия текста до нужных параметров, что позволяет быстро выполнить большой объём работы и достичь высокого показателя оригинальности.
Производительность, при норме впечатывания синонимов 10—20 слов на страницу, 1800 знаков, 150 зн./мин.
Добавление в текст «воды», вводных фраз и академических штампов
Метод используется для повышения его уникальности и читабельности.
«Вода» в тексте – это избыточная информация, которая не несет значимой смысловой нагрузки. Это могут быть общие фразы, повторения, длинные вводные конструкции и т. д. Как правило «вода» отсекается антиплагиатом, т.к. все это относится к стоп-словам.
Умеренное добавление «воды» увеличивает объем текста и изменяет структуру n-грамм, что может помочь обойти системы проверки на плагиат.
Академические штампы – это стандартные фразы и выражения, часто используемые в научных и академических текстах. Примеры включают «следует отметить», «в данном исследовании», «на основании вышеизложенного» и т. д. Данные конструкции также могут относится к стоп-словам и отсекаться АП ВУЗ до лемматизации текста.
Чрезмерная загрузка текста стоп-словами может перевести его в разряд генеративных, поэтому ниже мы даем примеры разнообразия, которое можно использовать в процессе наводнения текста.
– Введение и обзор литературы
«В данном исследовании рассматривается…»
«Настоящая работа посвящена изучению…»
«В последние годы наблюдается рост интереса к…»
«Следует отметить, что…»
– Методология
«Экспериментальное исследование было проведено для изучения…»
«В данном исследовании использовались методы…»
«Для анализа данных использовались следующие методы…»
– Результаты и обсуждение
«Результаты показывают, что…»
«На основании полученных данных можно сделать вывод, что…»
«Полученные результаты свидетельствуют о том, что…»
«Следует отметить, что…»
– Заключение
«Таким образом, можно сделать вывод, что…»
«В заключение следует отметить, что…»
«Дальнейшие исследования могут быть направлены на…»
«На основании вышеизложенного можно заключить, что…»
Эти штампы помогают структурировать текст и делают его более формальным и соответствующим академическим стандартам. Важно не злоупотреблять ими, чтобы текст не стал однообразным и генеративноподобным.
ЧР Удалить лишнее, в том числе и текст, который показан в отчете АП ВУЗ плагиатом
Удаление лишних слов и фраз, без учета проверки в АП ВУЗ, – не является эффективным способом повышения оригинальности текста. Для того чтобы удаление слов влияло на оригинальность, необходимо удалить примерно каждое третье-четвёртое слово. Это требует значительных усилий и времени, так как весь текст должен быть существенно отредактирован, в том числе и за счёт впечатывания новых слов.
Удаление неоригинальных блоков текста, согласно отчету АП ВУЗ может повлиять на оригинальность работы, метод работает, если текст перефразировался полностью, от «корки и до корки». Если перефразирования не было, после удаления фрагментов текста и проверки в антиплагиат, плагиатом могут быть отмечены места, которые раньше таковыми не были.
Наибольшую эффективность показывает скальпирующее удаление участков плагиата, при котором текст вычищается до достижения отличия по показателю Ш2 = 100%.
Р метод шингла, состоящего из двух слов, Ш2
Шингл (от английского слова «shingle», что означает «ячейка» или «кирпичик») представляет собой фрагмент канонизированного текста, состоящий из заданного количества слов (обычно от 3 до 8). Канонизированный текст – это текст, из которого удалены слова, не несущие смысловой нагрузки, такие как союзы, предлоги и знаки препинания.
Отличие между шинглами и биграммами заключается в длине. Биграммы – это последовательности из двух слов, тогда как шинглы могут содержать от 3 до 8 слов. Шинглы используются для определения уникальности контента на веб-сайтах. Поисковые системы используют алгоритм шинглов для проверки текста на плагиат. Сайты с высокой уникальностью материалов ранжируются выше в результатах поиска.
Метод шинглов нашел свое применение в области копирайтинга, а также в анализе текстов для определения схожести и уникальности контента.
Как видно, наименьшее значение шингла = 3 словам, для получения уникального текста, который успешно пройдет проверку в АП ВУЗ необходимо добиться отличие текста рерайта от текста источника на уровне 100%.
Рассматриваемый нами шаг шингла = 2 словам, для успешного прохождения проверки в антиплагиат ВУЗ текст источника должен отличаться от полученного рерайта на показатель Ш2 = 80—95%. В случае, если текст высокочастотен на 100%.
Р Метод биграмм, отличие от метода шингла – Ш2
Биграммы – это последовательности из 2 слов, они не накладываются друг на друга как шинглы. Для успешного прохождения проверки в АП ВУЗ необходимо, при сверке по биграммам из 2 слов добиваться отличия текстов на уровне 100%.
Р КонтрПлагиат
В основе КонтрПлагиата академическая нейросеть, которая обрабатывает рутинные задачи (предложение синонимов, сверка n-грамм НКРЯ, отчеты сверки текстов индексом антиплагиат). КонтрПлагиат использует архитектуру трансформеров, в его основе также лежат рекуррентные нейронные сети (RNN). Рекуррентные нейронные сети эффективны для обработки последовательных данных, таких как текст. Они могут учитывать контекст предыдущих слов в предложении, что позволяет создавать более точные перефразирования, с учетом пересечения шинглов.
Говоря о глубоком рерайте рассмотрим результат КонтрПлагиата, рис. 32 и 33. Как видно из скриншота, красный, зачеркнутый текст выделяет слова и фразы, удаленные из текста, синим цветом помечен текст, который написан заново, остатки текста источника, в виде одиночных слов выделены черным шрифтом.
Результат проверки Ш2 показывает уникальность 97%, поэтому данный рерайт заслуженно можно отнести к глубокому перефразированию. Отличие КонтрПлагиата в его принудительным воздействием на текст, которые выходят из правил и норм русского языка, КонтрПлагиат исходит из требований антиплагиат ВУЗ.
Рисунок 32 – Процесс глубокого перефразирования – КонтрПлагиат
Рисунок 33 – Сверка текстов на отличие по методу Ш2, левое окно – текст КонтрПлагиата, правое окно – контекст, отличие текстов 97%
Производительность – заметно медленней переводчиков и нейросетей за счет большего числа процессов и повышенной уникальности – 1—10 тыс. знаков в минуту.
КонтрПлагиат эффективен для всех способов проверки на заимствования. Идея КонтрПлагиата – в том, чтобы после каждого второго-четвёртого слова вставить новое, авторское слово, разбивающее шинглы из 2 слов, также можно заменять каждое второе-четвёртое слово. Текст при этом не теряет смысловую нагрузку, Приложение 2, а системы антиплагиат не имеют возможности зацепиться за последовательности хешей шинглов, пропуская текст как уникальный.
Р – Пересказ (подъём оригинальности методом изложения)
Пересказ – это трудоёмкий и длительный способ повышения оригинальности текста, который позволяет с высокой степенью достоверности гарантировать прохождение проверки на плагиат. Этот метод используется в случаях, когда требуется переписать работу «другими словами», и получить на выходе приемлемый, с точки зрения антиплагиат проверки результат.
Суть метода, необходимо прочитать абзац текста источника, все что удалось запомнить нужно напечатать «другими словами», т.е. запрещено дословное воспроизведение.
Пересказ, дабы убедиться в его эффективности, стоит сверять локально с источником, если показатель отличия текстов находится на уровне более 80%, то персказ удачен, наилучший показатель 90%, для его достижения текст необходимо подвергать постправке, принудительно избавляясь от фраз, привычных в обыденной практике, например, вместо «Гражданский кодекс РФ», можно написать «Гражданский, кодифицирующий акт».
Пересказ – очень долгий, трудозатратный способ переписывания, выполняется в два этапа, собственно пересказ, корректировка текста.
Производительность – переписать более 30 тыс. знаков в сутки крайне сложно, даже если наговаривать перефразирование в микрофон.
Несмотря на трудоёмкость, пересказ остаётся одним из надёжных способов повышения оригинальности текста.
Р Ссылочный аппарат текста источника
Новацией АП ВУЗа последних месяцев стала проблема рерайта статей, честно скаченных с elibrary.ru. Наши клиенты отмечают, что самый глубокий рерайт не дает эффекта, статьи остаются плагиатом. Виной всему ссылочный аппарат и фамилии авторов, если они употребляются в статье.
Ссылочный аппарат, содержащийся в текстах, может быть заключён в квадратные скобки – [45, С. 67—71]. Как правило, рерайтеры ссылки не трогают, а если работа написана копипастом, то не трогают точно. Ссылочный аппарат является маркером плагиата. Мы проводили эксперимент – после КонтрПлагиата текст имел отличие Ш2=100%, за счёт ссылочного аппарата текст показывал 100% плагиата, изменили цифры в квадратных скобках, плагиат пропал.
Как с этим можно бороться, взять из библиографического описания второго, третьего автора или заменить публикацию на похожую.
Р Список литературы – плагиат
Список литературы в некоторых работах доходит до 10% от общего объема, следовательно, если список литературы отмечен плагиатом, то минус 10% из вашей уникальности. Если ВУЗ в понятие уникальности включает оригинальность + цитирования, обидно вдвойне.
Многие считают плагиат литературы «глюком» в работе АП ВУЗ, но это не так, плагиат литературы возможен, если вы заимствуете литературу источника целиком, без изменений. Правки литературы в виде изменения дефисов, точек, запятых и т. д. не изменяют шинглы, поэтому они бесполезны.
Практически полезным является метод разбивки списка, путем вставки после каждых двух записей новой, оригинальной.
Было
Григорьев, А. А. Анализ динамики развития банковских карт в России / А. А. Григорьев, О. И. Михайлова // Современные вызовы и реалии экономического развития России материалы II Международной научно-практической конференции. – 2021. – №6.
Дегтерева, А. А. Формы безналичных расчетов с использованием пластиковых карт и новых банковских технологий / А. А. Дегтерева // Современные проблемы и перспективы развития банковского сектора материалы международной научно-практической конференции (заочной). – 2021. – №10.
Заборовская, А. Е. Специфика организации и современные тренды в безналичных расчетах: российская практика / А. Е. Заборовская, Е. А. Трофимова, З. К. Зоидов // Проблемы рыночной экономики. – 2021. – №4. – С. 112—132.
Исмаилов, И. Ш. Базельские стандарты банковской деятельности в историческом разрезе: предпосылки, проблемы внедрения и перспективы // Муниципальная академия. 2022. №3. С. 135—140.
Стало
Григорьев, А. А. Анализ динамики развития банковских карт в России / А. А. Григорьев, О. И. Михайлова // Современные вызовы и реалии экономического развития России материалы II Международной научно-практической конференции. – 2021. – №6.
Дегтерева, А. А. Формы безналичных расчетов с использованием пластиковых карт и новых банковских технологий / А. А. Дегтерева // Современные проблемы и перспективы развития банковского сектора материалы международной научно-практической конференции (заочной). – 2021. – №10.
Дюдикова, Е. И. Влияние электронных денег на денежное обращение // Современная наука: актуальные проблемы теории и практики. Серия: Экономика и право. – 2022. – №11. – С. 70—72.
Заборовская, А. Е. Специфика организации и современные тренды в безналичных расчетах: российская практика / А. Е. Заборовская, Е. А. Трофимова, З. К. Зоидов // Проблемы рыночной экономики. – 2021. – №4. – С. 112—132.
Исмаилов, И. Ш. Базельские стандарты банковской деятельности в историческом разрезе: предпосылки, проблемы внедрения и перспективы // Муниципальная академия. 2022. №3. С. 135—140.
Карякина, И. Е. Анализ современного состояния российского рынка платежных систем и направления его развития / И. Е. Карякина, Е. М. Тян // Экономика и бизнес: теория и практика. – 2019. – №4—3. – С. 41—49.
Р Метод пересчёта в табличных данных
Отдельно стоит рассказать о таблицах, которые являются плагиатом во всех работах, в экономических, в частности. Суммарно в экономических работах табличный материал может составлять 5—10%, это среднестатистический показатель.
Преобразовывать таблицы в рисунки с высоким разрешением можно, но в тексте работы их оставлять нельзя, поэтому рекомендуется такие таблицы убирать в приложения. В приложениях таблицы в виде рисунков разрешены. Картинки можно сделать с помощью программы ABBYY Screenshot Reader, функция – передать изображение в буфер.
Для повышения оригинальности и улучшения внешнего вида таблицы, можно преобразовать числа, например, перевести рубли в тысячи: 147 000 000 рублей станут 147 000 тыс. рублей или в миллионы – 147 млн. рублей. Это позволит не только немного увеличить оригинальность таблицы, но и даст однообразие, что улучшит читаемость таблицы.
Возможно пересчитать цифры в таблице, например, с коэффициентом 1,00095, тогда у вас будет не 147 млн. руб., а 147,14 млн. руб.
Р Замена повторяющихся (высокочастотных) слов и словосочетаний на синонимичные конструкции
Методика замены повторяющихся слов и словосочетаний на другие слова или выражения также может быть использована для повышения оригинальности текста. Метод работат на перефразированном тексте. На рис. 34 представлен частотный анализ, особенно эффективно заменять часто встречающиеся слова, как видно из рисунка, такие как «предприятия», «портативных» и т. д. Вместо этого можно использовать фразы вроде «коммерческие организации», «предпринимательские структуры», «субъекты коммерческо-предпринимательской деятельности», «субъекты экономической, рыночной деятельности», что добавит разнообразия в тексте и поднимет его уникальность.
Рисунок 34 – Частотная характеристика текста
На рисунке 34 представлена частотная характеристика текста, как видно, слово «колонка» разнообразно употреблено 173 раза, на втором месте «портативный», на третьем «использование». Чтобы определить, какие слова чаще всего повторяются в работе, можно воспользоваться сервисом advego, где частные слова будут отражены в колонке. Недостаток сервиса в том, что он не отображает падежи, т.е. если у вас в тексте есть слова «предприятие, предприятием, предприятию» и т.д., Advego напишет лемматизированное слово «предприятие».
Высокочастные слова можно заменить в Word посредством команды «найти и заменить» на синонимы. Этот метод даст рост уникальности на 3—5 процентов. Применение метода занимает сравнительно небольшой промежуток времени, примерно меньше часа.
На рис. 35 приведен пример заспамленного текста, где встречаются словоформы от слова «банк».
Рисунок 35 – Пример заспамленного текста
При замене слов важно использовать принцип разнообразия, например: портативных – заменяем на носимых, портативные – переносные, портативной – носимой, портативную – небольшого размера, портативная – небольшая, портативными – носимыми. Банк – на организацию финансово-кредитного сектора, кредитную организацию, банковскую организацию и т. д. Если данный подход игнорировать, то однообразные замены по всему тексту могут привести его к генеративному-подобию, а зачищать скомпрометированный в антиплагиат документ со статусом – «подозрительный», значительно сложнее.
Р Использование аббревиатур, аббревиатурных расшифровок и собственных сокращений
Другой способ заключается в создании аббревиатур и сокращений и их последующей расшифровке. Часто в работах встречаются фразы, которые невозможно полностью избежать, такие как «финансовые ресурсы предприятия». В данном случае, можно один раз записать полную фразу, а далее указать, что в дальнейшем будет использоваться сокращение (далее по тексту – ФРП). Лучший результат дает придумывание собственных аббревиатур, например – ФинРП. Научное обоснование простое, под ФРП подразумевается множество расшифровок: Фонд развития промышленности; Фонд регионального развития; Федеральная реновационная программа; Фонд рыночных преобразований; Федеральная регистрационная палата; Фонд развития предпринимательства; Фонд развития проектов; Фонд ресурсного потенциала; Фонд региональных программ; Фонд развития патриотизма и т. д.
Таким образом, все аббревиатуры или высокочастотные фразы могут быть заменены, что позволит сократить объем текста и увеличить его оригинальность.
Существуют также случаи, когда сокращения могут быть расшифрованы. Например, если в исходном материале аббревиатура – ЦБ РФ, встречается множество раз, ее можно заменить выражением «Банк России», что также повысит оригинальность текста, главное правило ЦБ РФ – меняем на синонимичную конструкцию, Центральный Банк России на абревиатуру. Подобные изменения, если вы используете устоявшиеся подходы, мало сказываются на увеличении уникальности, ограничиваясь лишь небольшим повышением 1—2%, причем в связи с контекстом.
Аббревиатуры могут убить уникальность текста, например, в одной работе автор писал о государственном частном партнерстве, везде, где он употреблял эту триграмму, в скобках прописывал (ГЧП), таким образом он фиксировал по тексту два маркера, которые изничтожали уникальность. В этом случае рекомендуем – там, где в тексте написано государственно-частное партнерство заменять эту триграмму на аббревиатуру, там, где в тексте доноре написана абревиатура заменять ее на расшифровку. Кстати, триграмму «государственно-частное партнерство» желательно перефразировать: «государственное и частное экономическое партнерство», «партнерство государства и бизнеса», «экономическое взаимодействие частного и государственного секторов» и т. д.
Необходимо учитывать, что большинство описанных приемов приводит только к незначительному повышению оригинальности, на уровне 1—3 процентов. Для достижения более значимых результатов, эти методы следует применять в комплексе, что повышает затраты времени на их реализацию, но и дает больший процент уникальности.
ЧР Перестановка частей больших предложений и абзацев
Перестановка частей больших предложений и абзацев также является способом изменения текста. Здесь действует правило – от перестановки слагаемых сумма не изменяется, т.к. в результате перестановки все шинглы остаются неизменными. Хотя это позволяет улучшить или ухудшить читаемость и структуру текста, изменение оригинальности остается незначительным, составляя всего 1—2 процента. Такое редактирование требует значительных затрат времени, подобных рерайту.