Векторизація формальних граматик для їх кластеризації засобами ML.NET

Вантажиться...
Ескіз

Дата

Назва журналу

Номер ISSN

Назва тому

ORCID

Видавець

Запоріжжя: ТДАТУ

Анотація

UA: Формальні граматики широко використовуються в компіляторах, методах обробки природних мов, аналізі коду та тестуванні програм. Застосування методів машинного навчання до граматик відкриває нові можливості для автоматизованого аналізу, класифікації, кластеризації та оптимізації мовних моделей. Для застосування методів кластерного аналізу потрібно «розмітити» набори даних, тобто перетворити пра-вила граматики на числову форму. Застосовується автоматизований підхід для аналізу формальнихграматик засобами ML.NET, зокрема метод векторизації TF-IDF, заснований на «зважуванні» граматичних символів і виявленні їх унікальності та впливу на контекст правил та мови, яку генерує формальна граматика. Резуль-тати векторизації граматик використано для їх кластеризації методом K-Means, доступним у ML.NET. Такий підхід забезпечить автоматизоване керування продукціями граматик та їх оптимізацію. /// EN: Formal grammars are widely used in compilers, natural language processing methods, code analysis, and software testing. The application of machine learning methods to grammars opens new opportunities for automated analysis, classification, clustering, and optimization of language models. To apply clustering methods, it is necessary to «label» datasets, i.e., to transform grammar rules into a numerical form. An automated approach for analyzing formal grammars using ML.NET is applied. In particular, the TF-IDF vectorization method is used, based on «weighting» grammatical symbols and identifying their uniqueness and influence on the context of rules and the language generated by the formal grammar. The results of grammar vectorization are used for their clustering with the K-Means method available in ML.NET. This approach provides automated management of grammar productions and their optimization.The results of vectorization and subsequent clustering show that rules similar in structure that is, in the content and sequence of grammatical symbols (tokens) were grouped together within specific clusters. Since the vectorization of rules revealed their qualitative features represented by tokens, the clustering is essentially performed according to the generative function of the grammatical rules: rules within the same cluster generate similar sentences of the input (formal) language.Conclusions. An automated approach for analyzing formal grammars has been proposed. ML.NET tools for vectorization of formal grammars and subsequent clustering were analyzed. It was established that TF-IDF vectorization and K-Means in ML.NET provide a powerful tool for automated management and optimization of grammatical rules. Further prospects for automated analysis of formal grammars were identified.

Опис

Бібліографічний опис

Скрипник І. А., Безверхий А. І. Векторизація формальних граматик для їх кластеризації засобами ML.NET // Праці Таврійського державного агротехнологічного університету : наукове фахове видання. Технічні науки / ТДАТУ; гол. ред. д.т.н., проф. А. І. Панченко. – Запоріжжя : ТДАТУ, 2025. Вип. 25, т. 3. С. 94-99. DOI: https://doi.org/10.32782/2078-0877-2025-25-3-12

Endorsement

Review

Supplemented By

Referenced By