扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
1、如果获取邮件地址?
我们分析邮件的时候,从From和To头信息中会提取到类似“DIrk Ye
import email.Utils
def getCleanMailAddress(strAddr):
emails = email.Utils.parseaddr(strAddr.lower())
return emails[1]
2、利用Mimetypes确定文件的扩展名:
在邮件分析中,经常会碰到没有指定文件名或者扩展名的附件,我们可以根据附件的MimeType来猜测其应有的扩展名:
import mimetypes
def getFileExtension(strContentType):
guessmimes = mimetypes.guess_all_extensions(strContentType)
if guessmimes:
return guessmimes[-1]
else:
return ''
另外,mimetypes.types_map中包含了所有运行系统可识别的MimeType,如果没有你期望的类型,可以通过mimetypes.add_type(’audio/midi’, ‘.mid’)方法来添加自己的东西,甚至可以作出修改。
3、使用证则表达式从字符串中提取指定的模式:
Python的正则表达式也是非常强大的,有搜索、匹配、抽取等。有时候抽取是有点麻烦但非常有用的功能。假设我们会有大量的文本类似:
n234f@mypdx.com
其中前半部分的名称都是数字和字母的组合,现在我们使用证则表达式抽取名字部分:
import re
def getUserName(strAddr):
addr_re = re.compile('^([0-9a-z]+)@(.*)')
unames = addr_re.search(strAddr)
if unames is not None:
return mptos.group(1)
else:
return ''
Python在文字处理方面还有很多特点,我只能把用到的东西列一下。有不少专门讲解Python相关东西的书籍,有的还是免费的;比如专门讲解Python文本处理的Text Processing in Python,实用而精彩,而另外一本Python Cookbook也是相当不错的读物,现在已经有第二版了,覆盖了Python2.3、2.4的新特性;去Python主站看看有什么适合你的书:http://wiki.python.org/moin/PythonBooks。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者