Векторизація формальних граматик для їх кластеризації засобами ML.NET

Скрипник, Ірина Анатоліївна; Skrypnyk, Iryna; Безверхий, Анатолій Ігорович; Bezverkhyi, Anatoliy

doi:https://doi.org/10.32782/2078-0877-2025-25-3-12

Векторизація формальних граматик для їх кластеризації засобами ML.NET

Файли

Primary ML.NET.pdf (383.16 KB)

Дата

2025

Автори

Скрипник, Ірина Анатоліївна

Skrypnyk, Iryna

Безверхий, Анатолій Ігорович

Bezverkhyi, Anatoliy

Видавець

Запоріжжя: ТДАТУ

Анотація

UA: Формальні граматики широко використовуються в компіляторах, методах обробки природних мов, аналізі коду та тестуванні програм. Застосування методів машинного навчання до граматик відкриває нові можливості для автоматизованого аналізу, класифікації, кластеризації та оптимізації мовних моделей. Для застосування методів кластерного аналізу потрібно «розмітити» набори даних, тобто перетворити пра-вила граматики на числову форму. Застосовується автоматизований підхід для аналізу формальнихграматик засобами ML.NET, зокрема метод векторизації TF-IDF, заснований на «зважуванні» граматичних символів і виявленні їх унікальності та впливу на контекст правил та мови, яку генерує формальна граматика. Резуль-тати векторизації граматик використано для їх кластеризації методом K-Means, доступним у ML.NET. Такий підхід забезпечить автоматизоване керування продукціями граматик та їх оптимізацію. /// EN: Formal grammars are widely used in compilers, natural language processing methods, code analysis, and software testing. The application of machine learning methods to grammars opens new opportunities for automated analysis, classification, clustering, and optimization of language models. To apply clustering methods, it is necessary to «label» datasets, i.e., to transform grammar rules into a numerical form. An automated approach for analyzing formal grammars using ML.NET is applied. In particular, the TF-IDF vectorization method is used, based on «weighting» grammatical symbols and identifying their uniqueness and influence on the context of rules and the language generated by the formal grammar. The results of grammar vectorization are used for their clustering with the K-Means method available in ML.NET. This approach provides automated management of grammar productions and their optimization.The results of vectorization and subsequent clustering show that rules similar in structure that is, in the content and sequence of grammatical symbols (tokens) were grouped together within specific clusters. Since the vectorization of rules revealed their qualitative features represented by tokens, the clustering is essentially performed according to the generative function of the grammatical rules: rules within the same cluster generate similar sentences of the input (formal) language.Conclusions. An automated approach for analyzing formal grammars has been proposed. ML.NET tools for vectorization of formal grammars and subsequent clustering were analyzed. It was established that TF-IDF vectorization and K-Means in ML.NET provide a powerful tool for automated management and optimization of grammatical rules. Further prospects for automated analysis of formal grammars were identified.

Ключові слова

формальна граматика, токен, векторизація, вхідна мова, граматичне правило, ML.NET, TF-IDF, кластеризація, K-Means, formal grammar, token, vectorization, input language, grammar rule, clustering

Бібліографічний опис

Скрипник І. А., Безверхий А. І. Векторизація формальних граматик для їх кластеризації засобами ML.NET // Праці Таврійського державного агротехнологічного університету : наукове фахове видання. Технічні науки / ТДАТУ; гол. ред. д.т.н., проф. А. І. Панченко. – Запоріжжя : ТДАТУ, 2025. Вип. 25, т. 3. С. 94-99. DOI: https://doi.org/10.32782/2078-0877-2025-25-3-12

URI

https://elar.tsatu.edu.ua/handle/123456789/19839

DOI

https://doi.org/10.32782/2078-0877-2025-25-3-12

Зібрання

Публікації авторів, сторонніх університету

Повна інформація про документ

Векторизація формальних граматик для їх кластеризації засобами ML.NET

Файли

Дата

Автори

Назва журналу

Номер ISSN

Назва тому

ORCID

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

URI

DOI

Зібрання

Endorsement

Review

Supplemented By

Referenced By