728x90
반응형

특정 웹사이트에 존재하는 하이퍼링크 갯수 및  특정 하이퍼링크 아래에 존재하는 또 다른 하이퍼링크의 갯수 즉 3단계 레벨까지의 총 하이퍼링크 갯수를 알아내고자 프로그램을 하는데, 약 3-4시간 투입했지만 제대로 안된다. 배경 지식을 좀 더 쌓은 후에 다시 진입하여야 하여, 구글링한 자료를 아래와 같이 정리해 봅니다.

 

 

탭 관련해서는 생성과 포커스(이동) 및  해당 탭에서 자료 출력...을 하여야 합니다.

핸들의 개념이 있고요.  List 등에서는  Last(), First() 등이 이미 있습니다.

//탭 생성
((IJavaScriptExecutor)_driver).ExecuteScript("window.open();");


//마지막 탭으로 이동.
_driver.SwitchTo().Window(_driver.WindowHandles.Last());
 
//첫 탭으로 이동.
_driver.SwitchTo().Window(_driver.WindowHandles.First());
 
//특정 탭 저장 후 이동.
string winHandleBefore = _driver.CurrentWindowHandle;
_driver.SwitchTo().Window(winHandleBefore);

//현재 탭 닫기.
_driver.Close();

//최대화 하기
driver.Manage().Window.Maximize();

 

stale element reference element is not attached to the page document

오류 메시지가 있을 경우, 구글링의 대부분은 아직 페이지가 로딩 완료되지 않았기 때문에, 해당 엘리먼트에 접근할 수 없는 경우로, 대개  sleep()을 넣는 것으로 대처법을 소개하고 있다.

필자의 경우는 위와 같은 상황은 아닙니다.

 

첫 페이지 URL에서  href를 찾고,       ------------------ (1)

for문으로

      각 href로 이동하여,

      그 href에 존재하는 자식 레벨의 href를 찾는다.

 

근데, for 이 한 번 돌고, 2번째 돌때,   (1)에 의해 있던  리스트의 2번째 요소를 접근하지 못하고,

"stale element reference element is not attached to the page document"의 메시지를 출력한다.

 

해결책은 다시 해당 '탭' 즉  해당 리스트를 뽑았던 '탭'으로 되돌아가야 한다. 

driver.SwitchTo().Window(parentWindow);.

 

따라서,  각 element에 접근할 때 이미 추출해 놓았다 하더라도,  그 추출했던 '탭' 소스로 가야 한다는 것입니다.

 

728x90
반응형
728x90
반응형

웹 이벤트를 자동(batch)수행하기 위해 Selenium기반으로 C#으로 접근해 보았습니다.

 

기능하고자 한 것은

   1. 신문사의 특정 기사에 접근

   2. Tag를 찾아내서  그 하이퍼링크된 주소를  클릭

   3. 새창으로 열린 창으로 접근

   4. 특정 iframe을 찾기 및 iframe 선택

   5. Javascript 구문을 수행하기

   6. PageSource에 접근하여 내용 수정

   7. 페이지 코드를 파일로 저장

 

 

728x90

 

 

ChromdeDriver를 생성하여 그 인터페이스(Interface)를 사용합니다.

IWebDriver driver = new ChromeDriver(options)

       

 

크롬 웹브라우저를 열 URL을 지정합니다. 반환값은 처리한 URL입니다. 즉, 그대로 출력합니다.

 string strResult = driver.Url = "https://www.etnews.com/20230331000229";   // implicitly  wait until the load is complete.
 Console.WriteLine(strResult);

 

 

제대로 URL이 열렸는지는 Title 값을 활용하여 Heuristic하게 프로그래밍 했습니다.

 if (driver.Title.IndexOf("missing.html") == -1)

 

 

특정 태그('a')를 찾아 그 이름이 "Englisth"일 경우,  그 하이퍼링크 URL을 호출(click)합니다. 

IList<IWebElement> links = driver.FindElements(By.TagName("a"));
//Console.WriteLine(links[0].Text);
//links.First(element => element.Text == "English").Click();
foreach (var link in links)
{
    Console.WriteLine(link.Text);
    if (link.Text == "English")
    {
        Console.WriteLine(link.GetAttribute("href"));
        link.Click();
        break;
    }
}

 

 

'새창'으로 열렸기 때문에,  제어권을 '새창'으로 옮깁니다.(SwitchTo)

string originWindow = driver.CurrentWindowHandle;
Console.WriteLine(originWindow);
foreach (string window in driver.WindowHandles)
{
    //새창을 찾는다.
    if (originWindow != window)
    {
        Console.WriteLine(window);
        driver.SwitchTo().Window(window);
        break;
    }
}

 

 

특정 iFrame 요소를 찾습니다.

List<IWebElement> frames = new List<IWebElement>(driver.FindElements(By.TagName("iframe")));
Console.WriteLine("Number of Frames: " + frames.Count);
var bFoundResultPage = 0;
for (int i = 0; i < frames.Count; i++)
{
    Console.WriteLine("frame[" + i + "]: " + frames[i].GetAttribute("id").ToString());
    if (frames[i].GetAttribute("id").ToString() == "CSLiResulPage")
    {
        bFoundResultPage = 1;
    }
}

 

특정 iFrame을 사용합니다.

driver.SwitchTo().Frame("CSLiResultPage");

 

JavaScript를 수행하여, 속성을 바꾸어 봅니다.

IJavaScriptExecutor js = (IJavaScriptExecutor)driver;
//js.ExecuteScript("window.open()");
js.ExecuteScript("document.getElementsByTagName(\"html\")[0].setAttribute(\"lang\",\"en\") ");

 

웹페이지소스코드의 내용을 수정해 봅니다.

string aaa = driver.PageSource.ToString();
string bbb = aaa.Replace("https://trans.etnews.com", "http://klaud.between.io");
//Console.WriteLine(bbb);

 

 

 

 

 

전체 소스코드는 아래와 같습니다.

( 메모리 최적화 delete ,   sleep 대신에 await 등 처리 대기 등은  더 최적화 되어야 합니다.^^)

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading;
using System.Threading.Tasks;
using System.IO;
using OpenQA.Selenium.Chrome;
using OpenQA.Selenium;

namespace WebCrawler
{
    static class Program
    {
        static void Main(string[] args)
        {
            // ChomeDriver 인스턴스 생성                        
            ChromeOptions options = new ChromeOptions();
            options.AddArguments("--test-type");
            options.AddArguments("--ignore-certificate-errors");
                                    
            using ( IWebDriver driver = new ChromeDriver(options) )
            {
                // URL로 접속 
                string strResult = driver.Url = "https://www.etnews.com/20230331000229";   // implicitly  wait until the load is complete.
                Console.WriteLine(strResult);

                if (driver.Title.IndexOf("missing.html") == -1)
                {

                    // 대기 설정. (find로 객체를 찾을 때까지 검색이 되지 않으면 대기하는 시간 초단위)
                    driver.Manage().Timeouts().ImplicitWait = TimeSpan.FromSeconds(2);

                    Thread.Sleep(1000);

                    IList<IWebElement> links = driver.FindElements(By.TagName("a"));
                    foreach (var link in links)
                    {
                        Console.WriteLine(link.Text);
                        if (link.Text == "English")
                        {
                            Console.WriteLine(link.GetAttribute("href"));
                            link.Click();
                            break;
                        }
                    }


                    // 5초 기다린다.
                    Thread.Sleep(5000);

                    // 기존창 대신에 새창에서 열린다.
                    string originWindow = driver.CurrentWindowHandle;
                    Console.WriteLine(originWindow);
                    foreach (string window in driver.WindowHandles)
                    {
                        //새창을 찾는다.
                        if (originWindow != window)
                        {
                            Console.WriteLine(window);
                            driver.SwitchTo().Window(window);
                            break;
                        }
                    }

                    // iFrame 찾기
                    List<IWebElement> frames = new List<IWebElement>(driver.FindElements(By.TagName("iframe")));
                    Console.WriteLine("Number of Frames: " + frames.Count);
                    var bFoundResultPage = 0;
                    for (int i = 0; i < frames.Count; i++)
                    {
                        Console.WriteLine("frame[" + i + "]: " + frames[i].GetAttribute("id").ToString());
                        if (frames[i].GetAttribute("id").ToString() == "CSLiResulPage")
                        {
                            bFoundResultPage = 1;
                        }
                    }

                    if (bFoundResultPage == 1)
                    {
                        driver.SwitchTo().Frame("CSLiResultPage");
                        
                        IJavaScriptExecutor js = (IJavaScriptExecutor)driver;
                        js.ExecuteScript("document.getElementsByTagName(\"html\")[0].setAttribute(\"lang\",\"en\") ");


                        string aaa = driver.PageSource.ToString();
                        string bbb = aaa.Replace("https://trans.etnews.com", "http://klaud.between.io");
                        //Console.WriteLine(bbb);


                        File.WriteAllText("C:\\UsersDownloads\\PageSource.html", bbb);
                        //File.WriteAllText("C:\\UsersDownloads\\PageSource.html", driver.PageSource);

                        // 5초 기다린다.
                        Thread.Sleep(1000);
                    }                    
                }
                driver.Quit();
            }
           
            // 아무 키나 누르면 종료
            Console.WriteLine("Press any key...");
            Console.ReadKey();
        }

    }
}
728x90
반응형
728x90
반응형

https://www.sololearn.com/compiler-playground/c5Dt36lP1AHN/

 

https://www.sololearn.com/compiler-playground/c5Dt36lP1AHN/

 

www.sololearn.com

를 참조하였습니다.
 

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using System.Web.Script.Serialization;


namespace ExampleApplication
{
    public class Person
    {
        public int PersonID { get; set; }
        public string Name{ get; set; }
        public bool Registered{ get; set; }
    }

    class Program
    {
        static void Main(string[] args)
        {
            Console.WriteLine ("Hello World");
                       
            var RegisteredUsers = new List<Person>();
            RegisteredUsers.Add( new Person () {  PersonID=1, Name="Bryon Hetrik", Registered = true  });
            RegisteredUsers.Add( new Person () {  PersonID=2, Name="Nicole Wilcox", Registered = true  });
            RegisteredUsers.Add( new Person () {  PersonID=3, Name="Adrian Martinson", Registered = false  });
            RegisteredUsers.Add( new Person () {  PersonID=4, Name="Nora Osborn", Registered = false  });
           

            var serializer = new JavaScriptSerializer();
            var serializedResult = serializer.Serialize(RegisteredUsers);            
            Console.WriteLine( serializedResult );

            var deserializedResult = serializer.Deserialize<List<Person>>( serializedResult );
            //var deserializedResult = serializer.Deserialize< List <object>>( serializedResult );

            Console.WriteLine(deserializedResult.Count );            
            

foreach ( var item in deserializedResult ){
                Console.WriteLine($"{item.PersonID}");
                Console.WriteLine($"{item.Name}");            
            }
           
            Console.WriteLine("Done!");

            var cities = new Dictionary<string, object>() {
                {"UK", "London, Manchester, Birmingham"},
                {"USA", "Chicago, New York, Washington"},
                {"India", "Mumbai, New Delhi, Pune"},
                {"Available", false }
            };

            foreach( var city in cities ){
                Console.WriteLine(" Key : {0}, Value: {1}", city.Key, city.Value );
            }

            //use ContainsKey() to check for an unknown key
            if( cities.ContainsKey("India")) {
                Console.WriteLine( cities["India"]);
            }

            //use TryGetValue() to get a value of unknown key            
            if( cities.TryGetValue("Available", out object result )){
                Console.WriteLine( (bool) result);

            }


            //var Profiles = serializer.Deserialize<List<object>>( profilesResponse );
            //Console.WriteLine( Profiles.Count );






         
            Console.WriteLine("!!!!DONE");
        }
    }
}

 

 

출력 결과 

 

 

Hello World
[{"PersonID":1,"Name":"Bryon Hetrik","Registered":true},{"PersonID":2,"Name":"Nicole Wilcox","Registered":true},{"PersonID":3,"Name":"Adrian Martinson","Registered":false},{"PersonID":4,"Name":"Nora Osborn","Registered":false}]
4
1
Bryon Hetrik
2
Nicole Wilcox
3
Adrian Martinson
4
Nora Osborn
Done!
Key : UK, Value: London, Manchester, Birmingham
Key : USA, Value: Chicago, New York, Washington
Key : India, Value: Mumbai, New Delhi, Pune
Key : Available, Value: False
Mumbai, New Delhi, Pune
False
!!!!DONE

 

728x90
반응형

+ Recent posts