python Selenium库的使用

系统 226 0

一、什么是Selenium

Selenium是一个自动化测试工具,对各种浏览器都能很好地支持,包括Chrome、Firefox这些主流浏览器。使用它就可以模拟浏览器进行各种各样的操作,包括爬取一些网页内容。当你看到浏览器自己运行并且在网页上翻页或者跳转的时候,应该会觉得很有趣的。
安装selenium
先安装好Selenium库和对应浏览器的WebDriver驱动,比如我用的是Chrome,则相对应安装的是ChromeDriver。
1.安装selenium # 打开命令控制符执行 pip install selenium
2.我的Google Chrome 已是最新版本版本 74.0.3729.108(正式版本) (64 位)
安装三大浏览器驱动driver
1.chromedriver 下载地址:http://chromedriver.storage.googleapis.com/index.html?path=74.0.3729.6/
2.Firefox的驱动geckodriver 下载地址:https://github.com/mozilla/geckodriver/releases/
3.IE的驱动IEdriver 下载地址:http://www.nuget.org/packages/Selenium.WebDriver.IEDriver/
注意:64位向下兼容,直接下载32位的就可以啦,亲测可用。
chromedriver_win32.zip
D:\Python\python\Scripts
.粘贴chromedriver.exe到文件d:\Python37\Scripts路径下。

如果Chrome问题闪退 ,不兼容问题!

二、selenium基本使用

用python写爬虫的时候,主要用的是selenium的Webdriver,我们可以通过下面的方式先看看Selenium.Webdriver支持哪些浏览器
声明浏览器对象:

            
              from selenium import webdriver
from time import sleep

driver = webdriver.Chrome() 			 # 打开Google浏览器
#driver= webdriver.Firefox() 
#driver= webdriver.Ie()
driver.get('http://www.baidu.com') 	 # 打开 网址
#driver.get(r"C:\desktop\text.html")    	# 打开本地 html页面
driver.maximize_window()  #将浏览器最大化显示
driver.set_window_size(480, 800) #设置浏览器宽480、高800显示
# 移动浏览器大小观看展示
driver.set_window_size(width=500, height=500, windowHandle="current")
driver.set_window_position(x=1000, y=100, windowHandle='current')
# 获取当前页面的源码并断言
pageSource = driver.page_source
sleep(2)
try:
    assert u"百度一下,你就不知道" in pageSource, "页面源码中未找到'百度一下,你就知道'关键字"
    # 断言语句和 if 分支有点类似,它用于对一个 bool 表达式进行断言,如果该 bool 表达式为 True,该程序可以继续向下执行;否则程序会引发 AssertionError 错误。
except:
    print("源码这里故意断言错误", "\n")
sleep(2)
try:
	title = driver.title      			    # 获取打开网址 的名字 
	url = driver.current_url 	 	# 获取打开网址的url
	driver.page_sourse  #打印出页面源代码
	driver.forward()  #浏览器前进
	driver.back()  #浏览器后退
except:
  	#print("Oops!  That was no valid number.  Try again   ")
  	driver.close()     #关闭这个页面
	# driver.quit()     #退出浏览器

            
          

三 基本使用

            
              from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By.CSS_SELECTOR
from selenium.webdriver.common.keys import Keys #键盘按键操作
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素
driver=webdriver.Chrome()
try:
    driver.get('https://www.baidu.com')
    input_tag=driver.find_element_by_id('kw')
    input_tag.send_keys('美女') #python2中输入中文错误,字符串前加个u
    input_tag.send_keys(Keys.ENTER) #输入回车
    wait=WebDriverWait(driver,10)
    wait.until(EC.presence_of_element_located((By.ID,'content_left'))) #等到id为content_left的元素加载完毕,最多等10秒
    print(driver.page_source)  # 打印出页面源代码
    print(driver.current_url)  # 获取打开网址的url
    print(driver.get_cookies())   #cookies
finally:
    driver.close()

            
          

四 选择器

一 浏览器操作
            
              driver.current_url #用于获得当前页面的URL
driver.title #用于获取当前页面的标题
driver.page_source #用于获取页面html源代码
driver.port #用于获取浏览器的端口
driver.capabilities['version']  #打印浏览器version的值

#浏览器:
driver.get(url):#浏览器加载url
driver.back() #浏览器后退
driver.forward() #浏览器前进
driver.refresh() #浏览器刷新(点击刷新按钮)
driver.set_page_load_timeout(5) #设置页面加载时间,如果超时会跑异常
driver.implicitly_wait(秒) #隐式等待,通过一定的时长等待页面上某一元素加载完成。
#若提前定位到元素,则继续执行。等待10s若超过时间未加载出,则抛出NoSuchElementException异常。


#执行js:
driver.execute_script(js) #调用js

            
          

二 窗口和弹框操作

            
              #窗口:
driver.current_window_handle  #用于获取当前窗口句柄
driver.window_handles  #用于获取所有窗口句柄

driver.maximize_window()  #将浏览器最大化显示
driver.set_window_size(480, 800)  #设置浏览器宽480、高800显示
driver.get_window_size()  #获取当前窗口的长和宽
driver.get_window_position()  #获取当前窗口坐标
driver.set_window_position(300,200)  #设置当前窗口坐标
driver.get_screenshot_as_file(filename)  #截取当前窗口
#实例:driver.get_screenshot_as_file('D:/selenium/image/baidu.jpg')

driver.close()  #关闭当前窗口,或最后打开的窗口
driver.quit()  #关闭所有关联窗口,并且安全关闭session

#窗口切换:
driver.switch_to_frame(id或name属性值)#切换到新表单(同一窗口)。若无id或属性值,可先通过xpath定位到iframe,再将值传给switch_to_frame()
driver.switch_to.parent_content()#跳出当前一级表单。该方法默认对应于离它最近的switch_to.frame()方法
driver.switch_to.default_content() #跳回最外层的页面 
driver.switch_to_window(窗口句柄) #切换到新窗口 
driver.switch_to.window(窗口句柄) #切换到新窗口 

#弹框切换: 
driver.switch_to_alert() #警告框处理。处理JavaScript所生成的alert,confirm,prompt
driver.switch_to.alert() #警告框处理

            
          

三 cookies 操作

            
              driver.get_cookies()   #获取当前会话所有cookie信息
driver.get_cookie(cookie_name)  #返回字典的key为“cookie_name”的cookie信息。
#实例:driver.get_cookie("NET_SessionId")

driver.add_cookie(cookie_dict)   #添加cookie。“cookie_dict”指字典对象,必须有name和value值
driver.delete_cookie(name,optionsString)  #删除cookie信息
driver.delete_all_cookies()  #删除所有cookie信息

            
          

四 页面元素操作

            
              # 属性:
element.size  #获取元素的尺寸。
element.text   #获取元素的文本。
element.tag_name   #获取标签名称

element.clear()  #用于清除输入框的默认内容
element.send_keys("xx")  #用于在一个输入框里输入 xx 内容
element.click()  #用于单击一个按钮
element.submit()  #提交表单
element.size  #返回元素的尺寸
element.text  #获取元素文本
element.get_attribute('value')
#返回元素的属性值,可以是id、name、type或元素拥有的其它任意属性
#如果是input的,可以通过获取value值获得当前输入的值

element.is_displayed ()
#返回元素的结果是否可见,返回结果为True或False

element.is_enabled()  #判断元素是否可用
element.is_selected()   #返回单选按钮、复选框元素结果是否被选中(True 或 False)
element.value_of_css_property(height)  #获取元素css样式属性

            
          

五 鼠标事件

            
              #引入ActionChains类
from selenium.webdriver.common.action_chains import ActionChains

mouse =driver.find_element_by_xpath("xx") #定位鼠标元素

#对定位到的元素执行鼠标操作
ActionChains(driver).context_click(mouse).perform() #鼠标右键操作
ActionChains(driver).double_click(mouse).perform() #鼠标双击操作
ActionChains(driver).move_to_element(mouse).perform() #鼠标移动到上面的操作
ActionChains(driver).click_and_hold(mouse).perform() #鼠标左键按下的操作
ActionChains(driver).release(mouse).perform()  #鼠标释放

#鼠标拖拽
element = driver.find_element_by_name("xxx")  #定位元素的原位置
target = driver.find_element_by_name("xxx") #定位元素要移动到的目标位置
ActionChains(driver).drag_and_drop(element, target).perform() #执行元素的移动操作
复制代码

            
          

六 键盘事件

            
              #引入Keys类包
from selenium.webdriver.common.keys import Keys

element.send_keys(Keys.BACK_SPACE)  #删除键(BackSpace)
element.send_keys(Keys.SPACE)  #空格键(Space)
element.send_keys(Keys.TAB)  #制表键(Tab)
element.send_keys(Keys.ESCAPE)  #回退键(Esc)
element.send_keys(Keys.ENTER)  #回车键(Enter)
element.send_keys(Keys.CONTROL,'a')  #全选(Ctrl+A)
element.send_keys(Keys.CONTROL,'c')  #复制(Ctrl+C)
element.send_keys(Keys.CONTROL,'x')  #剪切(Ctrl+X)
element.send_keys(Keys.CONTROL,'v')  #粘贴(Ctrl+V)
element.send_keys(Keys.F12)   #键盘F12

#输入空格键+“python”
element.send_keys(Keys.SPACE)
element.send_keys("python")

            
          

案例

            
              from selenium import webdriver
from selenium.webdriver.common.keys import Keys  # 模拟键盘操作
from time import sleep

browser = webdriver.Chrome()
url = 'https://www.zhihu.com/explore'
browser.get(url)
input = browser.find_element_by_class_name('zu-top-add-question')
print(input.id)
print(input.location)
print(input.tag_name)
print(input.size)
print(input.text)
browser.find_element_by_id('zu-top-add-question').click()  # 点击进入
# browser.find_element_by_class_name('zu-top-add-question').click()  # 点击进入

#from selenium import webdriver
#browser = webdriver.Chrome()
browser.get("http://www.taobao.com")
# 
              
              
input_first = browser.find_element_by_id("q")
input_second = browser.find_element_by_css_selector("#q")
input_third = browser.find_element_by_xpath('//*[@id="q"]')    # //*[@id="q"]

input_third1 = browser.find_element_by_xpath('/html/body/div[3]/div/h2').text   # 获取文字内容
input_third2 = browser.find_element_by_xpath('//*[@id="J_SiteNavLogin"]/div[1]/div[1]/a[1]').text   # 获取文字内容

browser.find_element_by_xpath('//*[@id="J_SiteNavLogin"]/div[1]/div[1]/a[1]').click()  # 点击进入

print(input_first)
print(input_second)
print(input_third)
print(input_third1)
print(input_third2)
# browser.close()
element = browser.find_element_by_tag_name('body')
element.send_keys(Keys.CONTROL,'a')  #全选(Ctrl+A)
element.send_keys(Keys.CONTROL,'c')  #复制(Ctrl+C)

browser.get("http://www.taobao.com")
# browser.find_element_by_id("q").send_keys(Keys.CONTROL, 'v')    #粘贴(Ctrl+V)
browser.find_element_by_id("q").send_keys(input_third1)    #粘贴(Ctrl+V)
# element.send_keys(Keys.CONTROL,'v')  #粘贴(Ctrl+V)
sleep(3)
# element.send_keys(Keys.CONTROL,'x')  #剪切(Ctrl+X)
browser.find_element_by_xpath('//*[@id="J_TSearchForm"]/div[1]/button').click()  # 点击进入

#element.send_keys(Keys.BACK_SPACE)  #删除键(BackSpace)
#element.send_keys(Keys.SPACE)  #空格键(Space)
#element.send_keys(Keys.TAB)  #制表键(Tab)
#element.send_keys(Keys.ESCAPE)  #回退键(Esc)
#element.send_keys(Keys.ENTER)  #回车键(Enter)
#element.send_keys(Keys.F12)   #键盘F12



            
          

定位元素的8种方式
参考:selenium元素定位

            
              定位一个元素	定位多个元素	含义
find_element_by_id	find_elements_by_id	通过元素id定位
find_element_by_name	find_elements_by_name	通过元素name定位
find_element_by_xpath	find_elements_by_xpath	通过xpath表达式定位
find_element_by_link_text	find_elements_by_link_tex	通过完整超链接定位
find_element_by_partial_link_text	find_elements_by_partial_link_text	通过部分链接定位
find_element_by_tag_name	find_elements_by_tag_name	通过标签定位
find_element_by_class_name	find_elements_by_class_name	通过类名进行定位
find_elements_by_css_selector	find_elements_by_css_selector	通过css选择器进行定位
3.实例演示
假如我们有一个Web页面,通过前端工具(如,Firebug)查看到一个元素的属性是这样的。


  
  
    
              
              
                新闻
              
              
                hao123
              
              

通过link text定位:
dr.find_element_by_link_text("新闻")
dr.find_element_by_link_text("hao123")

通过partial link text定位:
dr.find_element_by_partial_link_text("新")
dr.find_element_by_partial_link_text("hao")
dr.find_element_by_partial_link_text("123")

            
          

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索:z360901061

微信扫一扫加我为好友

QQ号联系: 360901061

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请请扫描上面二维码支持博主1元、2元、5元等您想捐的金额吧,狠狠点击下面给点支持吧

发表我的评论
最新评论 总共0条评论